Состав корпуса

Цель проекта ВАНК – создать максимально полный и диверсифицированный корпус, включив в него как можно большее число разножанровых текстов на литературном варианте восточноармянского языка. По состоянию на март 2009 г. в нашем распоряжении находится около 110 млн. словоупотреблений. Для обеспечения относительного жанрового баланса доля тех текстов, которые представлены в открытых интернет-ресурсах практически в неограниченном объеме (в первую очередь - электронная пресса), была фиксирована. В остальном ВАНК следует принципу полноты – все доступные нам художественные, научные и устные тексты были включены в корпус.

Принцип полноты отличает ВАНК от национальных корпусов более крупных языков, таких как Национальный корпус русского языка или Британский национальный корпус, которые отбирают тексты, следуя принципу лингвистической представительности. Британский национальный корпус, кроме того, накладывает ограничение на максимальное число словоупотреблений, которым может быть представлена одна текстовая единица (иными словами, очень большие тексты представлены в корпусе лишь фрагментами). ВАНК включает абсолютное большинство всех существующих литературных текстов на восточноармянском языке, следуя в этом отношении идеологии Чешского национального корпуса и Словацкого национального корпуса.

Подкорпус письменных текстов включает 836 художественных произведений, как прозаических, так и поэтических (в том числе 206 переводных), 7858 выпусков периодических изданий и значительный объем научных и иных нехудожественных текстов.

Важнейшим структурным элементом ВАНК является подкорпус устной речи (3 млн. словоупотреблений), представленный спонтанными диалогами, полилогами, стимулированными (task-oriented) нарративами, транскриптами телешоу и кино- и телефильмов и другими аудиоматериалами. Все аудиоматериалы транскрибированы в рамках проекта ВАНК.

Каждому из 9960 документа ВАНК приписана определенная метатекстовая информация – базовые библиографические данные, в том числе жанр текста, год (период) создания и публикации, краткие сведения об авторе и др.

Состав ВАНК          
(на март 2009 г.)          
             
Письменные тексты

словоупотребления

доля в ВАНК

документы

   
             
Художественная литература          
  проза: романы

29 909 172

27,1%

371

  в т.ч. 99 переводных
  проза: рассказы

5 959 142

5,4%

183

  в т.ч. 56 переводных
  проза: драматургия

1 411 030

1,3%

55

  в т.ч. 8 переводных
  итого прозы

37 279 344

33,8%

609

   
             
  поэзия

3 648 160

3,3%

227

  в т.ч. 43 переводных
             
Пресса

47 264 735

42,9%

7858

   
             
Нехудожественные тексты          
  научные тексты

13 875 930

12,6%

113

  в т.ч. 22 переводных
  эссе, мемуары, официальные и религиозные тексты

4 735 997

4,3%

379

  в т.ч. 8 переводных
             
Итого письменных текстов

106 804 166

96,8%

9 186

   
             
Устная речь словоупотребления доля в ВАНК документы    
             
  Спонтанная устная речь

1 029 646

0,94%

208

   
  Публичная устная речь

1 933 899

1,76%

543

   
  Стимулированные нарративы

70 010

0,06%

22

   
             
+ Электронная коммуникация

442 399

0,40%

1

   
             
Итого устный подкорпус

3 475 954

3,2%

774

   
             
Итого в ВАНК

110 280 120

100%

9 960

Большинство текстов ВАНК были получены в результате сканирования и распознавания книг и других печатных изданий. Некоторые литературные произведения и современная пресса были получены из открытых  интернет-ресурсов (подробнее см. раздел Армянские тексты в интернете). Устный корпус состоит из текстов, расшифрованных с 2006 по 2008 г., а также из подкорпуса стимулированных нарративов, расшифрованных В. Хуршудян в 2003 – 2005 гг. Ниже показан состав текстов ВАНК по типу источника.

 

Состав ВАНК - количество словоупотреблений по типу источника      
               
письменные тексты

сканирование

интернет

иное

     

% ВАНК

 

% ВАНК

 

% ВАНК

художественные

38 672 087

36,2% 1 580 876 1,5% 674 541 0,6%
пресса

12 709 536

11,9% 34 555 199 32,4%    
нехудожественные

15 571 293

14,6% 2 222 181 2,1% 818 453 0,8%
итого письменных текстов

66 952 916

62,7%

38 358 256 35,9% 1 492 994 1,4%
               
электронная коммуникация 442 399 100%

интернет

     
               
устная речь

3 033 555

100%

расшифровка