exam16 3 - stankin/design-part-2 GitHub Wiki

Понятия нормализации и дедупликации.

Реферат к лекции 16 (3). Технологии хранилищ данных

Выполнил: Устинов Андрей, группа: ИДБ-19-05

Проверил: Хлудов Илья, группа: ИДБ-19-05

Нормативно-справочная информация

📚 Нормативно-справочная информация (НСИ) – это основа любой информационной системы управления компанией. В состав НСИ входят словари, информационно-технические справочники, каталоги и классификаторы, т.е. все не транзакционные данные, которые не претерпевает существенных изменений в процессе повседневной деятельности компании.

В каждой компании используется несколько информационных систем, поддерживающих различные бизнес-процессы, в которых независимо друг от друга ведутся одни и те же базы данных НСИ. Большинство компаний сталкиваются с проблемами качества данных справочников в используемых учетных системах:

данные загружены из новой системы после ее внедрения;
отсутствие правил ведения НСИ в учетных системах;
ошибки в наименованиях, описаниях и параметрах номенклатурных объектов;
неполнота атрибутивного состава номенклатурных объектов;
проблемы с разнесением объектов МТР по иерархии классификации;
наличие дублирующих записей;
устаревшие наименования и обозначения.

Некорректная нормативно-справочная информация - напрямую искажает любую отчетность: как управленческую, так и регламентированную. Негативные последствия такого бессистемного ведения НСИ могут быть катастрофическими. Также вышеописанные проблемы не позволяют однозначно идентифицировать номенклатурные позиции в базе данных НСИ, что приводит к уменьшению и дроблению объема заказов, к образованию складских неликвидов и увеличению времени отклика на запрос.

Поэтому хорошо построенная НСИ является одним из критически-важных факторов для обеспечения развития любой информационной системы.

Понятие нормализации

♻️ Нормализация НСИ - процесс реорганизации документов, при которой достигается целостность структуры этих документов. Данный процесс можно поделить на следующие этапы:

Аудит нормативно-справочных данных с целью оценки их качества:
- позволяет получить более объективную информацию («взгляд со стороны») на проблемные участки в ведении НСИ и принять необходимые решения по составу и охвату требуемых изменений. Этап предусматривает разработку методик по нормализации данных, определение и согласование уровней классификации и моделей данных НСИ.
Разработка и согласование методик по нормализации НСИ:
- согласовываются правила и стандарты нормализации данных, которые в дальнейшем будет основой управления НСИ в компании;
- определяется и согласовывается уровень нормализации (выделение классов, структурирование, обогащение, создание параметрической модели и т.д.)
Формирование шаблонов описания позиций:
- определяется онтологическая потребность (создание шаблонов описания объектов номенклатуры).
Разработка регламентов по ведению справочников НСИ:
- разрабатываются инструкции по взаимодействию пользователей и экспертов НСИ;
- разрабатывается описание процессов создания и редактирования объектов НСИ.
Формирование справочников, нормализация и наследование контента:
- нормализация мастер-данных;
- стандартизация значений атрибутов номенклатурных объектов;
- определение потенциальных дубликатов.
Сопровождение справочников:
- уровень сопровождения согласовывается персонально для каждого заказчика.

Формирование нормализованных справочников и контента происходит с помощью специализированных программных решений (MDM-систем), которые включают в себя подобный функционал:

наследование мастер-данных в прикладные информационные системы Заказчика в требуемом формате;
выявление ошибок и отклонений в описании номенклатурных позиций;
автоматический разбор результатов импорта исходных данных, включая поиск дубликатов;
экспертный анализ результатов, включая работу с дубликатами и выявление эталонных записей;
упрощенный бизнес-процесс по контролю качества мастер-данных;
генерация описания на основе методики нормализации мастер-данных по номенклатуре.

Примеры нормализации НСИ

Понятие дедупликации

🦄 Дедупликация данных представляет собой процесс, при котором устраняются избыточные (повторяющиеся) копии документа, в итоге снижая текущие расходы на хранение этой информации. С помощью этой технологии можно не только оптимизировать емкость любого хранилища данных, но и ускорить поиск необходимого документа.

Дедупликация позволяет сохранять на носителях исключительно одну уникальную единицу информации. Поэтому, один из наиболее важных моментов в дедупликации — это уровень детализации.

У дедупликации данных есть несколько основных уровней выполнения:

🧱 Уровень блоков. Считается наиболее популярным методом дедупликации, и подразумевает анализ части данных (файл), с дальнейшим сохранением лишь уникальных повторений информации для каждого отдельно взятого блока.
0️⃣1️⃣ Уровень байтов. Метод по принципу работы похож на принцип уровня блоков, однако вместо блоков тут используется сравнение старых и новых файлов по байтам. Такой способ — единственный, при котором можно гарантировать максимальное устранение дубликатов файлов.
📁 Уровень файлов. Такой метод дедупликации подразумевает сравнение нового файла с уже сохраненным. Если же попадается какой-либо уникальный файл, то он будет сохранен.

При внедрении систем по управлению нормативно-справочной информацией, когда данные появляются в системе заказчика, они добавляются и в системе MDM. В ней проводится анализ информации, выявление дубликатов и при необходимости осуществляется слияние записей, а также в случае устаревших производится очистка данных.

Примеры дедупликации в НСИ

Альтернативная задача дедупликации

Нормализация НСИ создает удобство в управлении и увеличивает скорость доступа к НСИ в хранилище. Однако без процесса дедупликации - НСИ не всегда будет до конца "приведена в порядок". Именно процесс дедупликации позволяет устранить устаревшую и неактуальную информацию; идентичную информацию, которая имеет незначительные отличия, и д.р. В тоже самое время, без нормализации - дедупликаци не эффективна. Таким образом, благодаря этапам нормализации становится возможным через автоматизированную процедуру идентифицировать со 100% точностью все дублирующие записи НСИ.

Список используемых источников