| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Состав корпуса
Цель проекта ВАНК – создать максимально полный и диверсифицированный корпус, включив в него как можно большее число разножанровых текстов на литературном варианте восточноармянского языка. По состоянию на март 2009 г. в нашем распоряжении находится около 110 млн. словоупотреблений. Для обеспечения относительного жанрового баланса доля тех текстов, которые представлены в открытых интернет-ресурсах практически в неограниченном объеме (в первую очередь - электронная пресса), была фиксирована. В остальном ВАНК следует принципу полноты – все доступные нам художественные, научные и устные тексты были включены в корпус. Принцип полноты отличает ВАНК от национальных корпусов более крупных языков, таких как Национальный корпус русского языка или Британский национальный корпус, которые отбирают тексты, следуя принципу лингвистической представительности. Британский национальный корпус, кроме того, накладывает ограничение на максимальное число словоупотреблений, которым может быть представлена одна текстовая единица (иными словами, очень большие тексты представлены в корпусе лишь фрагментами). ВАНК включает абсолютное большинство всех существующих литературных текстов на восточноармянском языке, следуя в этом отношении идеологии Чешского национального корпуса и Словацкого национального корпуса. Подкорпус письменных текстов включает 836 художественных произведений, как прозаических, так и поэтических (в том числе 206 переводных), 7858 выпусков периодических изданий и значительный объем научных и иных нехудожественных текстов. Важнейшим структурным элементом ВАНК является подкорпус устной речи (3 млн. словоупотреблений), представленный спонтанными диалогами, полилогами, стимулированными (task-oriented) нарративами, транскриптами телешоу и кино- и телефильмов и другими аудиоматериалами. Все аудиоматериалы транскрибированы в рамках проекта ВАНК. Каждому из 9960 документа ВАНК приписана определенная метатекстовая информация – базовые библиографические данные, в том числе жанр текста, год (период) создания и публикации, краткие сведения об авторе и др.
Большинство текстов ВАНК были получены в результате сканирования и распознавания книг и других печатных изданий. Некоторые литературные произведения и современная пресса были получены из открытых интернет-ресурсов (подробнее см. раздел Армянские тексты в интернете). Устный корпус состоит из текстов, расшифрованных с 2006 по 2008 г., а также из подкорпуса стимулированных нарративов, расшифрованных В. Хуршудян в 2003 – 2005 гг. Ниже показан состав текстов ВАНК по типу источника.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() |