exam16 3 - stankin/design-part-2 GitHub Wiki
Понятия нормализации и дедупликации.
Технологии хранилищ данных
Реферат к лекции 16 (3).Выполнил: Устинов Андрей, группа: ИДБ-19-05
Проверил: Хлудов Илья, группа: ИДБ-19-05
Нормативно-справочная информация
📚 Нормативно-справочная информация (НСИ) – это основа любой информационной системы управления компанией. В состав НСИ входят словари, информационно-технические справочники, каталоги и классификаторы, т.е. все не транзакционные данные, которые не претерпевает существенных изменений в процессе повседневной деятельности компании.
В каждой компании используется несколько информационных систем, поддерживающих различные бизнес-процессы, в которых независимо друг от друга ведутся одни и те же базы данных НСИ. Большинство компаний сталкиваются с проблемами качества данных справочников в используемых учетных системах:
- данные загружены из новой системы после ее внедрения;
- отсутствие правил ведения НСИ в учетных системах;
- ошибки в наименованиях, описаниях и параметрах номенклатурных объектов;
- неполнота атрибутивного состава номенклатурных объектов;
- проблемы с разнесением объектов МТР по иерархии классификации;
- наличие дублирующих записей;
- устаревшие наименования и обозначения.
Некорректная нормативно-справочная информация - напрямую искажает любую отчетность: как управленческую, так и регламентированную. Негативные последствия такого бессистемного ведения НСИ могут быть катастрофическими. Также вышеописанные проблемы не позволяют однозначно идентифицировать номенклатурные позиции в базе данных НСИ, что приводит к уменьшению и дроблению объема заказов, к образованию складских неликвидов и увеличению времени отклика на запрос.
Поэтому хорошо построенная НСИ является одним из критически-важных факторов для обеспечения развития любой информационной системы.
Понятие нормализации
♻️ Нормализация НСИ - процесс реорганизации документов, при которой достигается целостность структуры этих документов. Данный процесс можно поделить на следующие этапы:
- Аудит нормативно-справочных данных с целью оценки их качества:
- позволяет получить более объективную информацию («взгляд со стороны») на проблемные участки в ведении НСИ и принять необходимые решения по составу и охвату требуемых изменений. Этап предусматривает разработку методик по нормализации данных, определение и согласование уровней классификации и моделей данных НСИ.
- Разработка и согласование методик по нормализации НСИ:
- согласовываются правила и стандарты нормализации данных, которые в дальнейшем будет основой управления НСИ в компании;
- определяется и согласовывается уровень нормализации (выделение классов, структурирование, обогащение, создание параметрической модели и т.д.)
- Формирование шаблонов описания позиций:
- определяется онтологическая потребность (создание шаблонов описания объектов номенклатуры).
- Разработка регламентов по ведению справочников НСИ:
- разрабатываются инструкции по взаимодействию пользователей и экспертов НСИ;
- разрабатывается описание процессов создания и редактирования объектов НСИ.
- Формирование справочников, нормализация и наследование контента:
- нормализация мастер-данных;
- стандартизация значений атрибутов номенклатурных объектов;
- определение потенциальных дубликатов.
- Сопровождение справочников:
- уровень сопровождения согласовывается персонально для каждого заказчика.
Формирование нормализованных справочников и контента происходит с помощью специализированных программных решений (MDM-систем), которые включают в себя подобный функционал:
- наследование мастер-данных в прикладные информационные системы Заказчика в требуемом формате;
- выявление ошибок и отклонений в описании номенклатурных позиций;
- автоматический разбор результатов импорта исходных данных, включая поиск дубликатов;
- экспертный анализ результатов, включая работу с дубликатами и выявление эталонных записей;
- упрощенный бизнес-процесс по контролю качества мастер-данных;
- генерация описания на основе методики нормализации мастер-данных по номенклатуре.
Примеры нормализации НСИ
Понятие дедупликации
🦄 Дедупликация данных представляет собой процесс, при котором устраняются избыточные (повторяющиеся) копии документа, в итоге снижая текущие расходы на хранение этой информации. С помощью этой технологии можно не только оптимизировать емкость любого хранилища данных, но и ускорить поиск необходимого документа.
Дедупликация позволяет сохранять на носителях исключительно одну уникальную единицу информации. Поэтому, один из наиболее важных моментов в дедупликации — это уровень детализации.
У дедупликации данных есть несколько основных уровней выполнения:
-
🧱 Уровень блоков. Считается наиболее популярным методом дедупликации, и подразумевает анализ части данных (файл), с дальнейшим сохранением лишь уникальных повторений информации для каждого отдельно взятого блока.
-
0️⃣1️⃣ Уровень байтов. Метод по принципу работы похож на принцип уровня блоков, однако вместо блоков тут используется сравнение старых и новых файлов по байтам. Такой способ — единственный, при котором можно гарантировать максимальное устранение дубликатов файлов.
-
📁 Уровень файлов. Такой метод дедупликации подразумевает сравнение нового файла с уже сохраненным. Если же попадается какой-либо уникальный файл, то он будет сохранен.
При внедрении систем по управлению нормативно-справочной информацией, когда данные появляются в системе заказчика, они добавляются и в системе MDM. В ней проводится анализ информации, выявление дубликатов и при необходимости осуществляется слияние записей, а также в случае устаревших производится очистка данных.
Примеры дедупликации в НСИ
Альтернативная задача дедупликации
Нормализация НСИ создает удобство в управлении и увеличивает скорость доступа к НСИ в хранилище. Однако без процесса дедупликации - НСИ не всегда будет до конца "приведена в порядок". Именно процесс дедупликации позволяет устранить устаревшую и неактуальную информацию; идентичную информацию, которая имеет незначительные отличия, и д.р. В тоже самое время, без нормализации - дедупликаци не эффективна. Таким образом, благодаря этапам нормализации становится возможным через автоматизированную процедуру идентифицировать со 100% точностью все дублирующие записи НСИ.