Анализ ЕЯ предложений - shyzik93/ManSPy GitHub Wiki

Анализы

Пока реализовано на минимальном уровне следующее:

  • графематический - разбивка предложения на слова, выделение букв, знаков пунктуаций, текста в кавычках и прочего. В данный момент - только реализуется.
  • морфологический - определение признаков слов по их форме: части речи, падежа, числа, наличие отрицания и прочего.
  • постморфологический - уточнение падежей по предлогам и установка связей (управление) , определение однородностей, скрытие прилагательных и наречий.
  • синтаксический - определение части речи, корректировка однородностей.
  • семантический - уточнение падежей через смысл, выявление обстоятельств времени, места и т. п. - после синтаксического анализа они считаются косвенными дополнениями. Пока нереализован.

Графематический анализ

На данном этапе происходит разграничение символов на знаки препинания и буквы. Слова преобразуются в объект слова, а предложения -в объект предложения. Несколько предложений разбиваются на несколько (вероятно, с ошибками).

Морфологический анализ

Осуществляется самый обычный морфологический анализ слов. Естественно, падежи определяются только в рамках морфологических признаков и поэтому могут быть ошибочными. Удаляются отрицательные приставки (к слову добавляется соответсвующая характеристика). Начальная форма - это вид наклонения.

Постморфологический анализ

Более точное определение падежей на основании предлогов - после чего предлоги удаляются (они выполнили свою функцию - указали на более вероятный падеж). Прилагательные, притяжательные местоимения и наречия становятся характеристикой слов, к которым они относятся. Определяются однородные члены.

Синтаксический анализ

Определяются члены предложения (на основании частей речи и падежей) и устанавливаются связи между словами (на основании местоположения и падежей).

Семантический анализ

Точное определение падежей на основании смысла слов и контекста. Исправление ещё одной ошибки - некоторые косвенные дополнения часто оказываются обстоятельствами.

На каком-то этапе также должно происходить исправление ошибок графематического анализа.

Более подробную информацию с "водичкой" и неточностями можно получить по ссылке: http://just-idea.ru/general/algorithms/lingvo_analysis.html и здесь: http://just-idea.ru/general/lingvo/morph_and_synt_analysis.html