exam16 3 - stankin/design-part-2 GitHub Wiki

Понятия нормализации и дедупликации.

Реферат к лекции 16 (3). Технологии хранилищ данных

Выполнил: Устинов Андрей, группа: ИДБ-19-05

Проверил: Хлудов Илья, группа: ИДБ-19-05


Нормативно-справочная информация

📚 Нормативно-справочная информация (НСИ) – это основа любой информационной системы управления компанией. В состав НСИ входят словари, информационно-​технические справочники, каталоги и классификаторы, т.е. все не транзакционные данные, которые не претерпевает существенных изменений в процессе повседневной деятельности компании.

В каждой компании используется несколько информационных систем, поддерживающих различные бизнес-​процессы, в которых независимо друг от друга ведутся одни и те же базы данных НСИ. Большинство компаний сталкиваются с проблемами качества данных справочников в используемых учетных системах:

  • данные загружены из новой системы после ее внедрения;
  • отсутствие правил ведения НСИ в учетных системах;
  • ошибки в наименованиях, описаниях и параметрах номенклатурных объектов;
  • неполнота атрибутивного состава номенклатурных объектов;
  • проблемы с разнесением объектов МТР по иерархии классификации;
  • наличие дублирующих записей;
  • устаревшие наименования и обозначения.

Некорректная нормативно-справочная информация - напрямую искажает любую отчетность: как управленческую, так и регламентированную. Негативные последствия такого бессистемного ведения НСИ могут быть катастрофическими. Также вышеописанные проблемы не позволяют однозначно идентифицировать номенклатурные позиции в базе данных НСИ, что приводит к уменьшению и дроблению объема заказов, к образованию складских неликвидов и увеличению времени отклика на запрос.

Поэтому хорошо построенная НСИ является одним из критически-важных факторов для обеспечения развития любой информационной системы.

Понятие нормализации

♻️ Нормализация НСИ - процесс реорганизации документов, при которой достигается целостность структуры этих документов. Данный процесс можно поделить на следующие этапы:

image

  1. Аудит нормативно-​справочных данных с целью оценки их качества:
    • позволяет получить более объективную информацию («взгляд со стороны») на проблемные участки в ведении НСИ и принять необходимые решения по составу и охвату требуемых изменений. Этап предусматривает разработку методик по нормализации данных, определение и согласование уровней классификации и моделей данных НСИ.
  2. Разработка и согласование методик по нормализации НСИ:
    • согласовываются правила и стандарты нормализации данных, которые в дальнейшем будет основой управления НСИ в компании;
    • определяется и согласовывается уровень нормализации (выделение классов, структурирование, обогащение, создание параметрической модели и т.д.)
  3. Формирование шаблонов описания позиций:
    • определяется онтологическая потребность (создание шаблонов описания объектов номенклатуры).
  4. Разработка регламентов по ведению справочников НСИ:
    • разрабатываются инструкции по взаимодействию пользователей и экспертов НСИ;
    • разрабатывается описание процессов создания и редактирования объектов НСИ.
  5. Формирование справочников, нормализация и наследование контента:
    • нормализация мастер-​данных;
    • стандартизация значений атрибутов номенклатурных объектов;
    • определение потенциальных дубликатов.
  6. Сопровождение справочников:
    • уровень сопровождения согласовывается персонально для каждого заказчика.

Формирование нормализованных справочников и контента происходит с помощью специализированных программных решений (MDM-систем), которые включают в себя подобный функционал:

  • наследование мастер-​данных в прикладные информационные системы Заказчика в требуемом формате;
  • выявление ошибок и отклонений в описании номенклатурных позиций;
  • автоматический разбор результатов импорта исходных данных, включая поиск дубликатов;
  • экспертный анализ результатов, включая работу с дубликатами и выявление эталонных записей;
  • упрощенный бизнес-​процесс по контролю качества мастер-​данных;
  • генерация описания на основе методики нормализации мастер-​данных по номенклатуре.

Примеры нормализации НСИ

image image image

Понятие дедупликации

🦄 Дедупликация данных представляет собой процесс, при котором устраняются избыточные (повторяющиеся) копии документа, в итоге снижая текущие расходы на хранение этой информации. С помощью этой технологии можно не только оптимизировать емкость любого хранилища данных, но и ускорить поиск необходимого документа.

Дедупликация позволяет сохранять на носителях исключительно одну уникальную единицу информации. Поэтому, один из наиболее важных моментов в дедупликации — это уровень детализации.

У дедупликации данных есть несколько основных уровней выполнения:

  • 🧱 Уровень блоков. Считается наиболее популярным методом дедупликации, и подразумевает анализ части данных (файл), с дальнейшим сохранением лишь уникальных повторений информации для каждого отдельно взятого блока.

  • 0️⃣1️⃣ Уровень байтов. Метод по принципу работы похож на принцип уровня блоков, однако вместо блоков тут используется сравнение старых и новых файлов по байтам. Такой способ — единственный, при котором можно гарантировать максимальное устранение дубликатов файлов.

  • 📁 Уровень файлов. Такой метод дедупликации подразумевает сравнение нового файла с уже сохраненным. Если же попадается какой-либо уникальный файл, то он будет сохранен.

При внедрении систем по управлению нормативно-справочной информацией, когда данные появляются в системе заказчика, они добавляются и в системе MDM. В ней проводится анализ информации, выявление дубликатов и при необходимости осуществляется слияние записей, а также в случае устаревших производится очистка данных.

Примеры дедупликации в НСИ

image image image

Альтернативная задача дедупликации

Нормализация НСИ создает удобство в управлении и увеличивает скорость доступа к НСИ в хранилище. Однако без процесса дедупликации - НСИ не всегда будет до конца "приведена в порядок". Именно процесс дедупликации позволяет устранить устаревшую и неактуальную информацию; идентичную информацию, которая имеет незначительные отличия, и д.р. В тоже самое время, без нормализации - дедупликаци не эффективна. Таким образом, благодаря этапам нормализации становится возможным через автоматизированную процедуру идентифицировать со 100% точностью все дублирующие записи НСИ.

Список используемых источников

  1. Нормализация нормативно-​справочной информации №1
  2. Нормализация нормативно-справочной информации №2
  3. Нормализация нормативно-справочной информации №3
  4. Дедупликация
  5. Поиск и дедупликация