Анализ ЕЯ предложений - shyzik93/ManSPy GitHub Wiki
Анализы
Пока реализовано на минимальном уровне следующее:
- графематический - разбивка предложения на слова, выделение букв, знаков пунктуаций, текста в кавычках и прочего. В данный момент - только реализуется.
- морфологический - определение признаков слов по их форме: части речи, падежа, числа, наличие отрицания и прочего.
- постморфологический - уточнение падежей по предлогам и установка связей (управление) , определение однородностей, скрытие прилагательных и наречий.
- синтаксический - определение части речи, корректировка однородностей.
- семантический - уточнение падежей через смысл, выявление обстоятельств времени, места и т. п. - после синтаксического анализа они считаются косвенными дополнениями. Пока нереализован.
Графематический анализ
На данном этапе происходит разграничение символов на знаки препинания и буквы. Слова преобразуются в объект слова, а предложения -в объект предложения. Несколько предложений разбиваются на несколько (вероятно, с ошибками).
Морфологический анализ
Осуществляется самый обычный морфологический анализ слов. Естественно, падежи определяются только в рамках морфологических признаков и поэтому могут быть ошибочными. Удаляются отрицательные приставки (к слову добавляется соответсвующая характеристика). Начальная форма - это вид наклонения.
Постморфологический анализ
Более точное определение падежей на основании предлогов - после чего предлоги удаляются (они выполнили свою функцию - указали на более вероятный падеж). Прилагательные, притяжательные местоимения и наречия становятся характеристикой слов, к которым они относятся. Определяются однородные члены.
Синтаксический анализ
Определяются члены предложения (на основании частей речи и падежей) и устанавливаются связи между словами (на основании местоположения и падежей).
Семантический анализ
Точное определение падежей на основании смысла слов и контекста. Исправление ещё одной ошибки - некоторые косвенные дополнения часто оказываются обстоятельствами.
На каком-то этапе также должно происходить исправление ошибок графематического анализа.
Более подробную информацию с "водичкой" и неточностями можно получить по ссылке: http://just-idea.ru/general/algorithms/lingvo_analysis.html и здесь: http://just-idea.ru/general/lingvo/morph_and_synt_analysis.html