exam15 4 - stankin/design-part-2 GitHub Wiki
Иерархическая и фасетная классификация.
Технологии нормативно-справочной информации
Реферат к лекции 15 (31).Выполнил: Токарев Арсений ИДБ 19-07
Проверил: Каргин Алексей ИДБ 19-07
Понятие классификации и системы классификации
Классификация − это система распределения объектов (предметов, явлений, процессов, понятий) по классам в соответствии с определенным признаком.
Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификаций позволяет сгруппировать объекты и выделить определенные классы, которые будут характеризоваться рядом общих свойств.
Классификация объектов - то процедура группировки на качественном уровне, направленная на выделение однородных свойств. Применительно к информации как к объекту классификации выделенные классы называют информационными объектами.
Реквизит - логически неделимый информационный элемент, описывающий определенное свойство объекта, процесса, явления и т.п.
Рассмотрим классификацию на примере: всю информацию об университете можно классифицировать по многочисленным информационным объектам, которые будут характеризоваться общими свойствами: информация о студентах - в виде информационного объекта ''Студент''; информация о преподавателях - в виде информационного объекта "Преподаватель". В свою очередь, информацию о каждом студенте в отделе кадров университета систематизируется и представлена посредством одинаковых реквизитов: фамилия, имя, отчество. Кроме выявления общих свойств информационного объекта классификация нужна для разработки правил (алгоритмов) и процедур обработки информации, представленной совокупностью реквизитов, например: Алгоритм обработки информационных объектов библиотечного фонда позволяет получить информацию о всех книгах по определенной тематике, об авторах, абонентах и т.д.
При любой классификации желательно соблюдать следующие требования:
- Полнота охвата объектов рассматриваемой области.
- Однозначность реквизитов (Реквизит – это логически не делимый информационный объект описывающий определенные свойства, процессы, явления.
- Возможность включения новых объектов.
Методы классификации:
Иерархическая система классификаций
Иерархический метод устанавливает отношение подчинения между различными группировками (иерархию). Последовательно детализируются качественные свойства объектов множеств: класс, подкласс, группа, подгруппа, вид и т.д. Ступень классификации – этап классификации, результатом которого является совокупность классификационных группировок.
Необходимо обратить внимание, что в иерархической системе классификации из-за жесткой структуры особое внимание следует уделить выбору классификационных признаков.
Особенности:
- Жесткая структура (особое внимание нужно уделить количеству классифицируемых признаков);
- Каждый объект на любом уровне должен быть отнесен только к одному классу;
- Для группировки в каждом последующем классе (уровне) необходимо знать соответствующие классификационные признаки и их значения;
- Количество уровней классификации характеризует глубину классификации;
Достоинства:
- Простота
- Использование независимых классификационных признаков в различных ветвях иерархической структуры.
Недостатками иерархической системы классификации являются:
- Невозможность внесения изменений в классификатор (добавление или удаление классификационных признаков, изменение последовательности их применения) после его создания.
- Трудоемкий поиск информации по произвольному сочетанию признаков классификации.
Рассмотрим более конкретный пример на объекте - "Факультет". Здесь при формировании иерархической системы классификации выделяют следующие признаки: классификацию факультета, возраст, половую принадлежность, наличие детей (среди студентов женского пола). Иерархическое логическое дерево информационного объекта «Факультет» имеет следующий вид:
Фасетный метод классификации
Фасетный метод классификации предполагает, что исходное множество объектов разбивается на подмножества группировок по независимым между собой признакам классификации – фасетам). Фасет – набор значений отдельного признака классификации, все фасеты взаимно независимы. Каждый объект одновременно имеет классификационные признаки из различных фасетов, а классификационные группировки создаются динамически путем задания фасетной формулы – последовательности фасет и значений классификационных признаков выбранных фасетов.
На примере информационного объекта «Факультет» (совокупность студентов вуза) рассмотрим фасетную систему классификации.
Классификационные признаки сгруппированы и представлены по фасетам:
- наименование факультетов вуза (всего в таблице выделено пять факультетов);
- возраст студентов (три возрастные группы);
- половая принадлежность студентов;
- наличие детей у студентов факультета.
Особенности:
- Процедура классификации состоит в присвоении каждому объекту соответствующих значений из фасета, при этом могут быть задействованы не все фасеты;
- При построении фасетной системы необходимо учитывать чтобы значения фасетов не повторялись;
- Для каждого объекта задается конкретная группировка;
- Эту систему легко модифицировать внося изменения в любой фасет.
Достоинства:
- Возможность создания большой емкости классификации, т.е. использования большого числа признаков и их значений;
- Возможность простой модификации всей системы, без изменения структуры существующих группировок;
Недостатки:
- Сложность построения т.к. необходимо учитывать все многообразие классификационных признаков.
Например, группировка 1 создана на основании значений фасета Ф1, группировка 2 – на основании значений фасетов Ф3 и Фn и т.д. Если общее число фасетов N и для фасета имеется Kn значений признаков, то общая емкость фасетной системы классификации соответствует величине H:
Вследствие чего, имеет место информационная избыточность группировок, в ряде случаев не возможных по смыслу. Этот метод классификации наиболее эффективен для машинной обработки данных, при использовании технологии БД и языков запросов высокого уровня.