exam15 4 - stankin/design-part-2 GitHub Wiki

Иерархическая и фасетная классификация.

Реферат к лекции 15 (31). Технологии нормативно-справочной информации

Выполнил: Токарев Арсений ИДБ 19-07

Проверил: Каргин Алексей ИДБ 19-07


Понятие классификации и системы классификации

Классификация − это система распределения объектов (предметов, явлений, процессов, понятий) по классам в соответствии с определенным признаком.

Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификаций позволяет сгруппировать объекты и выделить определенные классы, которые будут характеризоваться рядом общих свойств.

Классификация объектов - то процедура группировки на качественном уровне, направленная на выделение однородных свойств. Применительно к информации как к объекту классификации выделенные классы называют информационными объектами.

Реквизит - логически неделимый информационный элемент, описывающий определенное свойство объекта, процесса, явления и т.п.

Рассмотрим классификацию на примере: всю информацию об университете можно классифицировать по многочисленным информационным объектам, которые будут характеризоваться общими свойствами: информация о студентах - в виде информационного объекта ''Студент''; информация о преподавателях - в виде информационного объекта "Преподаватель". В свою очередь, информацию о каждом студенте в отделе кадров университета систематизируется и представлена посредством одинаковых реквизитов: фамилия, имя, отчество. Кроме выявления общих свойств информационного объекта классификация нужна для разработки правил (алгоритмов) и процедур обработки информации, представленной совокупностью реквизитов, например: Алгоритм обработки информационных объектов библиотечного фонда позволяет получить информацию о всех книгах по определенной тематике, об авторах, абонентах и т.д.

При любой классификации желательно соблюдать следующие требования:

  1. Полнота охвата объектов рассматриваемой области.
  2. Однозначность реквизитов (Реквизит – это логически не делимый информационный объект описывающий определенные свойства, процессы, явления.
  3. Возможность включения новых объектов.

Методы классификации:

Иерархическая система классификаций

Иерархический метод устанавливает отношение подчинения между различными группировками (иерархию). Последовательно детализируются качественные свойства объектов множеств: класс, подкласс, группа, подгруппа, вид и т.д. Ступень классификации – этап классификации, результатом которого является совокупность классификационных группировок.

Иерархический метод Необходимо обратить внимание, что в иерархической системе классификации из-за жесткой структуры особое внимание следует уделить выбору классификационных признаков. Особенности:

  1. Жесткая структура (особое внимание нужно уделить количеству классифицируемых признаков);
  2. Каждый объект на любом уровне должен быть отнесен только к одному классу;
  3. Для группировки в каждом последующем классе (уровне) необходимо знать соответствующие классификационные признаки и их значения;
  4. Количество уровней классификации характеризует глубину классификации;

Достоинства:

  1. Простота
  2. Использование независимых классификационных признаков в различных ветвях иерархической структуры.

Недостатками иерархической системы классификации являются:

  1. Невозможность внесения изменений в классификатор (добавление или удаление классификационных признаков, изменение последовательности их применения) после его создания.
  2. Трудоемкий поиск информации по произвольному сочетанию признаков классификации.

Рассмотрим более конкретный пример на объекте - "Факультет". Здесь при формировании иерархической системы классификации выделяют следующие признаки: классификацию факультета, возраст, половую принадлежность, наличие детей (среди студентов женского пола). Иерархическое логическое дерево информационного объекта «Факультет» имеет следующий вид:

Факультет вуза

Фасетный метод классификации

Фасетный метод классификации предполагает, что исходное множество объектов разбивается на подмножества группировок по независимым между собой признакам классификации – фасетам). Фасет – набор значений отдельного признака классификации, все фасеты взаимно независимы. Каждый объект одновременно имеет классификационные признаки из различных фасетов, а классификационные группировки создаются динамически путем задания фасетной формулы – последовательности фасет и значений классификационных признаков выбранных фасетов.

Фасетный метод

На примере информационного объекта «Факультет» (совокупность студентов вуза) рассмотрим фасетную систему классификации.

Классификационные признаки сгруппированы и представлены по фасетам:

  • наименование факультетов вуза (всего в таблице выделено пять факультетов);
  • возраст студентов (три возрастные группы);
  • половая принадлежность студентов;
  • наличие детей у студентов факультета.

Фасетная система классификации на примере факультета

Особенности:

  1. Процедура классификации состоит в присвоении каждому объекту соответствующих значений из фасета, при этом могут быть задействованы не все фасеты;
  2. При построении фасетной системы необходимо учитывать чтобы значения фасетов не повторялись;
  3. Для каждого объекта задается конкретная группировка;
  4. Эту систему легко модифицировать внося изменения в любой фасет.

Достоинства:

  1. Возможность создания большой емкости классификации, т.е. использования большого числа признаков и их значений;
  2. Возможность простой модификации всей системы, без изменения структуры существующих группировок;

Недостатки:

  1. Сложность построения т.к. необходимо учитывать все многообразие классификационных признаков.

Например, группировка 1 создана на основании значений фасета Ф1, группировка 2 – на основании значений фасетов Ф3 и Фn и т.д. Если общее число фасетов N и для фасета имеется Kn значений признаков, то общая емкость фасетной системы классификации соответствует величине H:

Емкость фасетной классификации

Вследствие чего, имеет место информационная избыточность группировок, в ряде случаев не возможных по смыслу. Этот метод классификации наиболее эффективен для машинной обработки данных, при использовании технологии БД и языков запросов высокого уровня.

Источники:

Технологии нормативно-справочной информации

Системы классификации

Методы классификации

Сущность и виды классификации