exam15 5 - stankin/design-part-2 GitHub Wiki
Системы классификации и кодирования
Проектирование интеграционных решений. Технологии нормативно-справочной информации
Реферат к лекции 15.Выполнил: Деминова Юлиана, группа: ИДБ-19-06
Проверил: Казовский Максим, группа: ИДБ-19-06
Системы классификации
Классификация - разделение множества объектов на подмножества по их сходству или различию в соответствии с принятыми методами.
Система классификации - совокупность методов и правил классификации и ее результат.
Существует два основных метода классификации объектов:
- Иерархический метод
- Фасетный метод
Иерархическая система классификации
При иерархическом методе классификации выполняется последовательное разделение множества объектов на подчиненные классификационные группировки. В результате разделения получается иерархическая древовидная структура в виде графа, узлами которого являются группировки.
Основанием для разделения множества объектов служит некоторый признак (свойство или характеристика объекта), который, в свою очередь, зависит от характера информации. Поэтому при построении иерархической структуры выбор последовательности признаков зависит от вероятности обращения к тому или иному признаку (чем выше ступень, тем выше вероятность обращения).
Требования к классификатору, построенному на иерархическом методе:
- Деление множества следует начинать с наиболее общих признаков.
- На каждой ступени можно использовать только один признак, имеющий принципиальное значение для этого этапа.
- Разделение объектов должно осуществляться последовательно от большего к меньшему, от общего к частному.
- Необходимо установить оптимальное число признаков, ступеней и глубину классификации.
Достоинства:
- простота построения;
- возможность выделения общности и сходства признаков объектов на одной и разных ступенях;
- высокая информационная насыщенность;
- обзорность.
Недостатки:
- при большой глубине – громоздкость;
- высокие затраты для применения;
- трудность применения за счет многоступенчатости и большого числа взаимосвязанных подмножеств;
- при небольшой глубине – информационная недостаточность и неполный охват объектов и признаков.
Пример:
Год (365 дней) можно разделить по двум признакам - время года и месяц. На первой ступени разделение множества дней выполняется по времени года, а на второй - по месяцу. Подмножество «март» относится только к одной классификационной группировке 1-ой ступени – «весна». Сумма дней всех 12-ти месяцев, получаемых на 2-ой ступени деления, составляет 365 дней, т. е. делимое множество.
Фасетная система классификации
При фасетном методе классификации выполняется параллельное разделение множества объектов на независимые классификационные группировки.
Требования к классификатору, построенному на фасетном методе:
- Одинаковая значимость и независимость классификационных признаков.
- Отсутствие общности классификационных признаков.
- Возможность дополнения количества признаков.
Достоинства:
- гибкость системы классификации;
- удобство использования;
- возможность ограничения количества признаков.
Недостатки:
- невозможность выделения общности и различий между объектами в разных классификационных группировках;
- низкая информативность.
Пример:
Месяц «март» относится к классификационной группировке, обладающей следующими признаками:
- весна (фасет «время года»);
- первый квартал (фасет «квартал»);
- месяц, содержащий 31 день (фасет «число дней месяца»);
- семестр (фасет «учебный период»).
Дескрипторная система классификации
При дескрипторном методе классификация выполняется на естественном языке описания информационных объектов. Особенно широко этот метод используется в библиотечной системе поиска.
Суть дескрипторного метода классификации заключается в следующем:
- отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;
- выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребляемых;
- создается словарь дескрипторов, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.
Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов:
- синонимические указывающие некоторую совокупность ключевых слов как синонимы;
- родо-видовые, отражающие включение некоторого класса объектов в более представительный класс;
- ассоциативные, соединяющие дескрипторы, обладающие общими свойствами.
Пример:
- Синонимическая связь: студент – учащийся - обучаемый.
- Родо-видовая связь: университет-факультет-кафедра.
- Ассоциативная связь: студент – экзамен – профессор - аудитория.
Системы кодирования
Код - знак или совокупность знаков, принятых для обозначения классификационной группировки и (или) объекта классификации.
Кодирование - образование и присвоение кода классификационной группировке и (или) объекту классификации.
Правила кодирования
- Код должен иметь определенную структуру построения.
- Код может быть выражен с помощью различных, заранее обусловленных знаков.
- Код должен способствовать упорядочению объектов.
Система кодирования - совокупность методов и правил кодирования классификационных группировок и объектов классификации заданного множества.
Различают следующие методы кодирования объектов:
- Последовательный метод
- Параллельный метод
- Порядковый метод
- Серийно-порядковый метод
Последовательный метод кодирования
Последовательный метод кодирования - образование кода классификационной группировки и (или) объекта классификации с использованием кодов последовательно расположенных подчиненных группировок, полученных при иерархическом методе классификации, и его присвоение.
Параллельный метод кодирования
Параллельный метод кодирования - образование кода классификационной группировки и (или) объекта классификации с использованием кодов независимых группировок, полученных при фасетном методе классификации, и его присвоение.
Порядковый метод кодирования
Порядковый метод кодирования - образование кода из чисел натурального ряда и его присвоение.
Серийно-порядковый метод кодирования
Серийно-порядковый метод кодирования - образование кода из чисел натурального ряда, закрепление отдельных серий или диапазонов этих чисел за объектами классификации с одинаковыми признаками и его присвоение.