Історія змін - slavkaa/ukraine_dictionary GitHub Wiki
v.11
- Іде масштабна обробка слів з "Російсько-Українського словника 1924 р.". (Твори Коцюбинського додали всього лище 434 слова у словник - тому я вирішив змінити тактику, щоб найскоріше забезпечити словнику максимальну повноту) Важко передбачити результативнясть. Але словник 1924 року має приблизно 80 000 слів у 3 томах. Враховуючи те що частина слів вже застарілі, а частина залишиться з битими символами незважаючи на багаторазову коррекцію - я пессимістично сподіваюся витягнути принаймі 20 000 нових слів.
v.10
- Склад релізу
- Таблиця Word - v.10
- Таблиця Source - v.8
- Таблиця Word_raw - v.8
- Таблиця Word_letters - v.10
- Файл-ексель Word - v.10
- Файл-ексель Word_letters - v.7
- Об'єм бази 29 897 слів у 405 363 словоформах. Що на 434 слова і 4 569 словоформу більше ніж у v.9.
- Оброблені твори
- Коцюбинського
v.9
- Склад релізу
- Таблиця Word - v.9
- Таблиця Source - v.8
- Таблиця Word_raw - v.8
- Таблиця Word_letters - v.7
- Файл-ексель Word - v.9
- Файл-ексель Word_letters - v.7
- Об'єм бази 29 463 слів у 400 794 словоформах. Що на 4 492 слова і 40 114 словоформу більше ніж у v.8.
- Оброблені твори
- Довженка
v.8
- Склад релізу
- Таблиця Word - v.8
- Таблиця Source - v.8
- Таблиця Word_raw - v.8
- Таблиця Word_letters - v.7
- Файл-ексель Word - v.8
- Файл-ексель Word_letters - v.7
- Об'єм бази 24 971 слів у 360 680 словоформах. Що на 5 104 слова і 20 139 словоформу більше ніж у v.7.
- Оброблені твори
- Нечує-Левицького
- Гончара
v.7
Проект починає розростатися. З цього релізу я буду викладати оновлення не для всіх таблиць - а тільки для тих, в яких є зміни.
- Всі таблиці з релізу v.6 залишаються без змін. Користуйтеся для них архівом релізу v.6.
- Додано таблицю word_letters. Вона містить довжину слова, кількість букв у всіх словах і номери позицій літері у слові, для всіх слів з таблиці word. Також вона подана у форматі xlsx. Можна легко подивитися кількість слів з літерою ґ чи кількість слів які починаються на "ц". Навіть не знаючи SQL.
- Виявлено 7 проблемних слів у таблиці word. В одному з них присутня ціфра 2, в інших словоформа містить два слова через кому. Не виправлено.
v.6
- (!) Перегенерував всі дієслова і дієприслівники. В результі помилки парсингу, словникові статті мали хибні морфологічні ознаки, а також були детектовані зайві словникові статті.
- Об'єм бази 19 867 слів і 340 541 словоформах. Що на 30 099 словоформу менше ніж у v.5.
v.5
- Об'єм бази збільшився до 19 867 слів у 370 640 словоформах. Що на 2979 слів і 90 871 словоформу більше за v.4.
- Джерело нових слів:
- Твори Тараса Шевченко (українською мовою).
- Розділення словарних статей, які містять декілька слів через кому на окремі словарні статті.
- Зі словарних статей у місцевому відмінку прибрано частину строки 'на\у '. Тобто стаття 'на\у столі' зараз записана у базу як просто 'столі'. Це має полегшети пошук, адже для пошуку слів достатньо оператора '=' (LIKE '%...%' не потрібен).
- Привентивно прибрані всі типи відступів у колонках word і word_binary таблиць word і word_raw. Це також зроблено щоб забезпечити пошук слова по 100% співпадінню, без LIKE '%...%'.
- Додано ексель версію таблиці word, для користувачів які не володіють SQL.
v.4
- Об'єм бази збільшився до 16 888 слів у 279 823 словоформах. Що на 431 слово і 9601 словоформу більше за v.3.
- Джерело нових слів: Побачив, що у деяких текстах літера "і" латинська. Це не дозволяло знайти слова з таким символом у словнику і впевнитися, що слово існує у сучасній мові. В данному релізі такі слова виправлені і проведена вдала спроба знайти данні для них знову.
v.3
- У таблицю word_raw додано колонки
is_not_urk_word
, 'is_html_loaded' таis_from_dictionary
. - У таблиці word_raw колонку
is_processed
переіменовано наis_need_processing
. - У таблиці word_raw заповнено колонки
is_not_urk_word
, 'is_html_loaded' таis_from_dictionary
.
v.2
- Те саме, що у v.1, тільки прибрана технічна (не потрібна) таблиця з дампу БД.
v.1
- 16 457 окремих слів у 270 222 словоформах (відмінки, роди, часи ...).
- База грунтується на творах Івана Франка запозичних з сайтів ukrlib.com.ua і onlyart.org.ua.
- Всі данні про словоформи взяті (і структуровані) з сайту slovnyk.ua.