Історія змін - slavkaa/ukraine_dictionary GitHub Wiki

v.11

  • Іде масштабна обробка слів з "Російсько-Українського словника 1924 р.". (Твори Коцюбинського додали всього лище 434 слова у словник - тому я вирішив змінити тактику, щоб найскоріше забезпечити словнику максимальну повноту) Важко передбачити результативнясть. Але словник 1924 року має приблизно 80 000 слів у 3 томах. Враховуючи те що частина слів вже застарілі, а частина залишиться з битими символами незважаючи на багаторазову коррекцію - я пессимістично сподіваюся витягнути принаймі 20 000 нових слів.

v.10

  • Склад релізу
    1. Таблиця Word - v.10
    2. Таблиця Source - v.8
    3. Таблиця Word_raw - v.8
    4. Таблиця Word_letters - v.10
    5. Файл-ексель Word - v.10
    6. Файл-ексель Word_letters - v.7
  • Об'єм бази 29 897 слів у 405 363 словоформах. Що на 434 слова і 4 569 словоформу більше ніж у v.9.
  • Оброблені твори
    • Коцюбинського

v.9

  • Склад релізу
    1. Таблиця Word - v.9
    2. Таблиця Source - v.8
    3. Таблиця Word_raw - v.8
    4. Таблиця Word_letters - v.7
    5. Файл-ексель Word - v.9
    6. Файл-ексель Word_letters - v.7
  • Об'єм бази 29 463 слів у 400 794 словоформах. Що на 4 492 слова і 40 114 словоформу більше ніж у v.8.
  • Оброблені твори
    • Довженка

v.8

  • Склад релізу
    1. Таблиця Word - v.8
    2. Таблиця Source - v.8
    3. Таблиця Word_raw - v.8
    4. Таблиця Word_letters - v.7
    5. Файл-ексель Word - v.8
    6. Файл-ексель Word_letters - v.7
  • Об'єм бази 24 971 слів у 360 680 словоформах. Що на 5 104 слова і 20 139 словоформу більше ніж у v.7.
  • Оброблені твори
    • Нечує-Левицького
    • Гончара

v.7

Проект починає розростатися. З цього релізу я буду викладати оновлення не для всіх таблиць - а тільки для тих, в яких є зміни.

  • Всі таблиці з релізу v.6 залишаються без змін. Користуйтеся для них архівом релізу v.6.
  • Додано таблицю word_letters. Вона містить довжину слова, кількість букв у всіх словах і номери позицій літері у слові, для всіх слів з таблиці word. Також вона подана у форматі xlsx. Можна легко подивитися кількість слів з літерою ґ чи кількість слів які починаються на "ц". Навіть не знаючи SQL.
  • Виявлено 7 проблемних слів у таблиці word. В одному з них присутня ціфра 2, в інших словоформа містить два слова через кому. Не виправлено.

v.6

  • (!) Перегенерував всі дієслова і дієприслівники. В результі помилки парсингу, словникові статті мали хибні морфологічні ознаки, а також були детектовані зайві словникові статті.
  • Об'єм бази 19 867 слів і 340 541 словоформах. Що на 30 099 словоформу менше ніж у v.5.

v.5

  • Об'єм бази збільшився до 19 867 слів у 370 640 словоформах. Що на 2979 слів і 90 871 словоформу більше за v.4.
  • Джерело нових слів:
    • Твори Тараса Шевченко (українською мовою).
    • Розділення словарних статей, які містять декілька слів через кому на окремі словарні статті.
  • Зі словарних статей у місцевому відмінку прибрано частину строки 'на\у '. Тобто стаття 'на\у столі' зараз записана у базу як просто 'столі'. Це має полегшети пошук, адже для пошуку слів достатньо оператора '=' (LIKE '%...%' не потрібен).
  • Привентивно прибрані всі типи відступів у колонках word і word_binary таблиць word і word_raw. Це також зроблено щоб забезпечити пошук слова по 100% співпадінню, без LIKE '%...%'.
  • Додано ексель версію таблиці word, для користувачів які не володіють SQL.

v.4

  • Об'єм бази збільшився до 16 888 слів у 279 823 словоформах. Що на 431 слово і 9601 словоформу більше за v.3.
  • Джерело нових слів: Побачив, що у деяких текстах літера "і" латинська. Це не дозволяло знайти слова з таким символом у словнику і впевнитися, що слово існує у сучасній мові. В данному релізі такі слова виправлені і проведена вдала спроба знайти данні для них знову.

v.3

  • У таблицю word_raw додано колонки is_not_urk_word, 'is_html_loaded' та is_from_dictionary.
  • У таблиці word_raw колонку is_processed переіменовано на is_need_processing.
  • У таблиці word_raw заповнено колонки is_not_urk_word, 'is_html_loaded' та is_from_dictionary.

v.2

  • Те саме, що у v.1, тільки прибрана технічна (не потрібна) таблиця з дампу БД.

v.1

  • 16 457 окремих слів у 270 222 словоформах (відмінки, роди, часи ...).
  • База грунтується на творах Івана Франка запозичних з сайтів ukrlib.com.ua і onlyart.org.ua.
  • Всі данні про словоформи взяті (і структуровані) з сайту slovnyk.ua.