Парсер ВАНК

Электронная коллекция текстов ВАНК была лемматизирована при помощи морфологического парсера. Парсер ВАНК – это программа морфологического анализа, разработанная для проекта компанией CorpusTechnologies. При лемматизации каждой словоформе приписываются грамматические пометы (при условии, что парсер находит эту словоформу в грамматическом словнике ВАНК).

В качестве примера разметки, порождаемой парсером ВАНК, мы приводим небольшой фрагмент из «Самвела» Раффи.

При лемматизации была использована специально разработанная формальная и исчерпывающая классификация словоизменительных типов восточноармянских именных и глагольных лексем. После разработки этой классификации каждой лексеме в словнике ВАНК была приписана помета, указывающая на соответствующий словоизменительный тип (например, N11) – то есть был сформирован грамматический словник ВАНК.

На сегодняшний день около 72,6% словоупотреблений всех текстов ВАНК имеют однозначный разбор, 17% имеют множественный разбор (омонимичные разборы), а 7,5% парсером не распознаются, то есть не имеют ни одного разбора. Количество нераспознанных слов отчасти коррелирует с жанром и типом текста. Процент неразобранных слов выше всего для записей устной речи, что вполне ожидаемо. Для устной речи более характерны отклонения от норм литературного языка, большая частота заимствований, а также переключения кода (использование русских и английских слов).

Парсер ВАНК: статистика разборов          
(на январь 2009)            
               
Число разборов

художественные

научные

пресса

другие письменные

устная речь

итого

               
1 однозначный разбор 75,4% 67,0% 72,6% 69,4% 65,2% 72,6%
               
2 омонимичных разбора 15,1% 9,6% 12,7% 12,3% 12,8% 13,3%
3 омонимичных разбора 1,8% 2,1% 2,0% 1,8% 1,6% 1,9%
4 - 7 омонимичных разборов 1,8% 2,1% 2,0% 1,8% 1,6% 1,9%
итого омонимичных разборов 18,7% 13,7% 16,7% 15,8% 16,0% 17,0%
               
1? гипотетитические 0,0% 1,3% 0,6% 0,7% 0,2% 0,5%
               
0 не разобрано 5,4% 11,9% 7,7% 7,0% 12,3% 7,5%
               
Особые вхождения: кириллица, латиница, цифры  0,3% 6,3% 2,8% 5,6% 6,0% 2,4%
               
Итого   100% 100% 100% 99% 100% 100%

Множественные разборы (лексико-морфологическая омонимия)
Лексикограмматическая омонимия, как регулярная (в первую очередь грамматическая), так и окказиональная (в первую очередь лексическая) – явление в армянском языке достаточно распространенное. Например, формы инфинитива и деепричастия совершенного вида (перфективного конверба) регулярно совпадают у глаголов со спряжением на -ե  (-e) – ср. формы глагола գրել  grel  ‘писать’. Примером окказиональной омонимии является форма հարգի hargi, которая анализируется и как исходная форма прилагательного ‘уважаемый; такой, которого уважают’, и как третье лицо настоящего времени субъюнктива от глагола հարգել hargel  ‘уважать’.

Омонимичные словоформы восточноармянского языка получают в ВАНК неоднозначный (множественный) разбор. При лемматизации синтаксическая информация не используется, и парсер опирается исключительно на форму слова. Поэтому грамматические запросы могут возвращать омонимичные вхождения несмотря на то, что искомый разбор в данном контексте явно исключен. Уровень подобного «шума» при поиске иногда можно сократить, используя дополнительные критерии, например, включив в контекст другую словоформу, лемму или грамматическую категорию, которая повышает вероятность нужного разбора. Кроме того, можно явным образом исключить все вхождения с множественными разборами (для этого необходимо открыть закладку Дополнительно под строкой для ввода поискового слова); в некоторых случаях, однако, это может вести к потере значительного числа вхождений, удовлетворяющих искомым критериям, и существенно снизить общее число найденных контекстов.

В некоторых случаях два (или более) допустимых лексикограмматических разбора словоформы далеко не равновероятны. Для небольшого числа частотных словоформ грамматически возможный, но исключительно маловероятный разбор был отсеян специальным фильтром (например, разбор словоформы asum как формы локатива от имени существительного as ‘ас’).

Неразобранные словоформы
Часть словоупотреблений ВАНК не распознается парсером и не получает морфологического разбора. Большую часть неразобранных словоупотреблений составляют:
  • недавние заимствования
  • неологизмы
  • элементы переключения кода (английские и русские вставки)
  • некоторые аббревиатуры
  • некоторые имена собственные
  • некоторые специальные термины
  • некоторые западноармянские орфографические варианты
  • большинство написаний в старой орфографии
  • искаженные написания
  • словоизменительные варианты, не включенные в словник (это относится в основном к записям устной речи)
  • ошибки распознавания отсканированного текста
  • опечатки и ошибки в исходных изданиях

Мы стараемся по возможности снизить процент нераспознанных слов путем пополнения и доработки грамматического словника ВАНК. Мы будем очень признательны за любую информацию об ошибках и неточностях, обнаруженных в ходе работы с корпусом.

Гипотетический анализ
В отличие от некоторых других морфологических парсеров, парсер ВАНК не использует модуль эвристического анализа, предлагающий возможные разборы для словоформ, не имеющих подходящей леммы в грамматическом словнике. Гипотетические разборы предлагаются только для части аббревиатур, отсутствующих в словнике ВАНК. В подсветке разбора (при наведении мыши) гипотетическая лемма-аббревиатура сопровождается вопросительным знаком.

Аналитические конструкции
То, что парсер никак не использует контекст словоупотребления, имеет еще одно важное последствие: составные элементы широко распространенных в глагольной системе современного армянского языка аналитических конструкций анализируются как морфосинтаксически автономные единицы. Таким образом, аналитические конструкции не могут быть найдены простым грамматическим запросом. Один из косвенных способов найти такие контексты – это контекстный запрос, в который входит вспомогательный глагол.

Например, запрос на поиск конвербов (деепричастий) несовершенного вида, непосредственно предшествующих формам глагола է  ē  ‘быть’, даст высокий процент имперфективных аналитических глагольных форм.