Грамматическая разметка


При обработке текстов корпуса Парсер ВАНК приписывает каждому словоупотреблению набор помет. Такие пометы вставляются в электронные тексты как XML или tab-delimited теги. Ниже дана общая характеристика системы грамматической (лексико-морфологической) разметки, используемой в ВАНК.

Для справки также приводится полный список лексико-морфологических помет ВАНК.

Обзор грамматической разметки ВАНК
В Окне грамматики лексические и морфологически пометы ВАНК расшифрованы в виде привычных грамматических терминов. Эти термины покрывают лексико-морфологические категории, присутствующие в восточноармянском языке:
  • Часть речи
  • Номинализация (субстантивированные формы)
  • Падеж
  • Число
  • Детерминация (определенность и принадлежность)
  • Степень сравнения
  • Конвербы (деепричастия)
  • Причастия
  • Актантная деривация (медиопассив и каузатив)
  • Время, вид и модальность
  • Полярность (отрицание)
  • Лицо
  • Словоизменительный тип

В размеченных текстах названия грамматических категорий признаков обозначаются сокращениями. Сокращенные пометы используются для того, чтобы хранить и отображать информацию в более компактном виде.

Это особенно важно иметь в виду при работе со строкой грамматического поиска – поисковым полем, расположенным непосредственно под ссылкой Грамматика. Следует иметь в виду, что в ряде случаев соотношение между названием выбранной категории и сокращенными пометами, появляющимися в строке грамматического поиска, не является тривиальным.

Сокращенная нотация используется также во всплывающем окне грамматического разбора, появляющемся при наведении указателя мыши на словоформу в зоне отображения результатов поиска (если в окне Параметры выдачи не отключена настройка Отображать разбор), в глоссированном формате выдачи (для его включения нужно выбрать настройку глоссированный в поле формат выдачи в окне настроек выдачи), а также в Электронной библиотеке ВАНК, если щелкнуть левой кнопкой мыши по словоформе.

Система лексико-морфологической разметки, используемая ВАНК, максимально приближена к системе помет, предложенных в Лейпцигских правилах глоссирования (ЛПГ). ЛПГ, разработанные Бернардом Комри, Мартином Хаспельматом и Бальтазаром Бикелем, содержат набор грамматических аббревиатур, часто используемых в лингвистической литературе для обозначения типологически распространенных грамматических категорий. На сегодняшний день ЛПГ являются авторитетным международным стандартом сокращений для названий грамматических категорий.

Несмотря на то, что ЛПГ пришлось дополнить рядом грамматических ярлыков для относительно редких с типологической точки зрения категорий, существующих в армянском языке, аббревиатуры ЛПГ покрывают большую часть лексико-морфологического инвентаря восточноармянского языка. Важным преимуществом системы аббревиатур ЛПГ является то, что в подавляющем большинстве случаев они не нуждаются в комментариях и расшифровке. Дополнительные грамматические обозначения вместе с примерами словоформ и соответствующими им традиционными армянскими названиями категорий приведены в полном списке помет ВАНК.

Грамматические комментарии
Датив/Генитив. Различение категорий дательного и родительного падежей является одним из спорных вопросов грамматики современного армянского языка. У имен датив отличается от генитива только своей способностью присоединять определенный артикль: датив обычно имеет показатель определенности, а генитив никогда не сочетается с ним. Единственная именная часть речи, у которой формы генитива и датива различны – это личные местоимения. Формы генитива личных местоимений можно считать отдельными лексемами - притяжательными местоимениями, однако в морфологической модели ВАНК принята более традиционная точка зрения, согласно которой они являются элементами падежной парадигмы. Таким образом, выделение двух разных падежных категорий, датива и генитива, отчасти обусловлено стремлением сохранить единство структуры парадигмы для имен и местоимений. При этом парсер ВАНК не различает генитива и датива у неопределенных существительных (они могут быть различены только в контексте), приписывая обе грамматические пометы одновременно (gen/dat).

Конвербы (деепричастия). Конвербом обычно называется форма, которая используется нефинитно в подчиненной предикации и редко или никогда не выступает в финитной позиции в главной предикации (в русской традиции конвербы называют деепричастиями, а в армянской они объединяются с причастиями). Действительно, формы восточноармянского языка, которые мы называем конвербами, редко или никогда не используются в качестве главных предикатов, во всяком случае в письменном варианте языка. С другой стороны, не для всех конвербов характерно использование именно в подчиненной предикации – некоторые из них чаще используются в аналитических глагольных конструкциях (что также мешает называть их деепричастиями). Мы используем термин конверб для обозначения всех тех форм глагола, которые используются или в подчиненной предикации, или в зависимой части аналитической конструкции. Эти две синтаксические роли конвербов, вообще говоря различные, в разметке не различены, так как наиболее частотные конвербы могут иметь обе функции и различить их можно только по контексту – но контекст парсером ВАНК игнорируется. Таким образом, конвербы понимаются в ВАНК широко: как любые зависимые формы глагола, не имеющие лично-числового согласования.

Дестинативный конверб (Ապառնիդերբայ apaŕniderbay). Дестинативный конверб всегда совпадает с инфинитивом в форме датива (но без артикля или притяжательного показателя) и формально отличается от него только присутствием вспомогательного глагола, то есть контекстом - который, как уже сказано, при лемматизации не учитывается. Кроме того, с типологической точки зрения использование падежной формы имени действия для референции к будущему времени достаточно распространено. Поэтому было принято решение анализировать дестинативные конвербы как собственно падежные формы инфинитива. Хотя в Окне грамматики для удобства был сохранен термин дестинатив, при выборе этой категории в строке грамматического поиска появляются пометы ‘inf, dat, ~def’. Результат такого запроса будет включать как те контексты, где содержатся дестинативные конвербы, так и более редкие собственно падежные формы инфинитива.

Ассоциативная множественность. Ассоциативная множественность является типом именной множественности, обозначающей группу лиц, ассоциированную с неким главным членом этой группы, обозначенным производящей именной основной. Форма более характерна для разговорной и диалектной речи. Примеры Վարդանանք  ‘Вартан и его группа’, Շուշանենք  ‘Шушан и ее группа’. Морфологически к формам ассоциативной множественности примыкают местоименные формы вида մերոնք  ‘наша группа, наши родственники’, хотя с семантической точки зрения их интерпретация как форм ассоциативной множественности несколько проблематична.

Реляционная форма имени. Реляционная форма имени, или релятив – это относительно редкая форма, более характерная для устной речи, но изредка встречающаяся и в письменных текстах. С морфологической точки зрения релятив – это именная основа, к которой присоединен показатель генитива, затем определенный артикль, а затем либо просто определенный артикль, либо, реже, показатель датива и определенный артикль или показатель генитива или периферийного падежа.

սեղանինը
seġan-i-n-ə
стол-gen-def-def
‘то, что на столе’

սեղանինինը
seġan-i-n-in-ə
стол-gen-def-dat-def
‘тому, чтонастоле’

սեղանինով
seġan-i-n-ov
стол-gen-def-inst
‘тем, что на столе’

С функциональной точки зрения релятив является субстантивацией формы генитива и может присоединять именные грамматические показатели, например, падеж. Значение такой формы можно описать как 'принадлежащий / имеющий отношение к N', где N – это производящая именная основа. Имеются основания полагать, что артикль, следующий за показателем генитива, с функциональной точки зрения не может считаться артиклем, так как он выступает здесь в роли не артикля, а номинализатора. Поэтому реляционные формы имени в ВАНК получают пометы gen, nmlz и def и именно в таком виде отображаются в cтроке грамматического поиска. Следует также иметь в виду, что, если в Окне выбора грамматических признаков выбирается категория Субстантивированный атрибут, реляционные формы, которые по сути являются субстантивацией генитива, также попадут в результаты поиска.

Субстантивированные атрибуты. Эта категория покрывает различные падежно-числовые формы прилагательных, причастий и генитивов, выступающих в позиции синтаксической вершины именной группы.

Отображение выбранных категорий в строке грамматического поиска
В большинстве случаев соотношение между названиями категорий в Окне грамматики и пометами, появляющимися в строке грамматического поиска, является однозначным (см. список помет ВАНК). Все случаи, в которых это соотношение требует пояснений, обсуждаются ниже.

1. Реляционное имя (в разделе Номинализаций) отображается в строке выбранных грамматических параметров в следующем виде:
Реляционное имя = ‘gen, nmlz, def’

2. При выборе конверба в строке грамматического поиска, кроме пометы конкретного конверба, появляется также помета ‘cvb’:
Конверб НСВ= ‘cvb, pfv’
Конверб СВ= ‘cvb, pfv’
коннегативный конверб = ‘cvb, conneg’
конверб одновременности = ‘cvb, sim’

3. Единственным исключением является дестинативный конверб:
дестинативный конверб = ‘inf, dat, ~def’

4. При выборе причастия в строке грамматического поиска, кроме пометы конкретного причастия, появляется также помета ‘ptcp’.
Субъектное причастие = ‘ptcp, sbj’
Результативное причастие = ‘ptcp, res’

5. Если в закладке лексических признаков выбрать порядковые числительные, в строке грамматического поиска появляется формула ‘Num, A’. Такое решение мотивировано двойственной природой порядковых числительных, которые с морфосинтаксической точки зрения являются прилагательными, но с семантической точки зрения относятся к зоне количественности.

6. Независимые (субстантивные) местоимения, например, դու  ‘ты’, նա ‘он, она’, ինչ ‘что’, ով  ‘кто’ представляются в строке грамматического поиска пометой ‘S’ (без пометы ‘Pron’).