Բովանդակություն

ԱՐԵՎԱԿ-ը հնարավորինս մեծ քանակությամբ արևելահայերեն տեքստեր պարունակող լեզվաբանական կորպուս է: 2009 թ. մարտի  դրությամբ ԱՐԵՎԱԿ-ն ընդգրկում է մոտ 110 մլն. բառամթերք:

Ի տարբերություն Ռուսերենի ազգային կորպուսի կամ Բրիտանական ազգային կորպուսի, որոնցում տեքստերն ընտրված են, ելնելով որոշակի ծավալի հետ կապված սահմանափակումներից,  ԱՐԵՎԱԿ-ը պարունակում է հնարավորինս շատ մատչելի արևելահայերեն գեղարվեստական, գիտական և բանավոր տեքստեր: Այդ առումով ԱՐԵՎԱԿ-ը ավելի մոտ է Չեխերենի և Սլովերենի ազգային կորպուսներին: Այնուամենայնիվ, ժանրային հավասարակշռությունը պահպանելու նպատակով որոշ ժանրերի տեքստեր, ինչպիսիք են, օրինակ, մամուլի և օրենսդրական տեքստերը, որոնք մատչելի են համացանցում մեծ քանակությամբ, ընդգրկված են սահմանափակ քանակությամբ:

Գրավոր խոսքի ենթակորպուսը պարունակում է 836 արձակ և չափածո գեղարվեստական տեքստեր (ներառյալ 206 թարգմանված տեքստեր), 7858 մամուլի համարներ, ինչպես նաև գիտական և պաշտոնական տեքստերի խոշոր հավաքծու:

ԱՐԵՎԱԿ-ի կարևորագույն բաժիններից է  արևելահայերեն բանավոր խոսքի ենթակորպուսը (3 մլն. բառանիշ), որն ամբողջովին մշակվել է ԱՐԵՎԱԿ-ի ջանքերով, և ներկայացված է սպոնտան երկխոսություններով, պոլիլոգներով, նպատակաուղղված (task-oriented) հարցազրույցներով, հեռուստատեսային թոք-շոուներով, կինոնկարներով և այլ ձայնագրություններով:

ԱՐԵՎԱԿ 3.0-ում ավելացված էլեկտրոնային հաղորդակցության տեքստերը, որոնք ընդգրկվել են բանավոր խոսքի ենթակորպուսում, իրականում միջանկյալ դիրք են գրավում բանավոր և գրավոր խոսքի միջև:

ԱՐԵՎԱԿ-ում ընդգրկված 9960 տեքստերից յուրաքանչյուրին կցված է հիմնական մետատեքստային ինֆորմացիա, որը հատկանշում է տեքստի ժանրը, ստեղծման և հրատարակման տարեթիվը, հեղինակի վերաբերյալ համառոտ տեղեկություն և այլ մատենագիտական ինֆորմացիա: 

ԱՐԵՎԱԿ-ի բովանդակությունը          
2009 թ. մարտի դրությամբ          
             
Գրավոր խոսք

# բառանիշ

% ԱՐԵՎԱԿ

# տեքստեր

   
             
Գեղարվեստական գրականություն          
  արձակ՝  վեպեր

29 909 172

27,1%

371

  ներառյալ 99 թարգմանված
  արձակ՝  պատմվածքներ

5 959 142

5,4%

183

  ներառյալ 56 թարգմանված
  արձակ՝  պիեսներ

1 411 030

1,3%

55

  ներառյալ 8 թարգմանված
  արձակ` ընդամենը

37 279 344

33,8%

609

   
             
  չափածո

3 648 160

3,3%

227

  ներառյալ 43 թարգմանված
             
Մամուլ

47 264 735

43,0%

7858

   
             
Ոչ գեղարվեստական          
  գիտական 

13 875 930

12,6%

113

  ներառյալ 22 թարգմանված
  հոդվածներ, հուշագրություններ, պաշտոնական, կրոնական 

4 735 997

4,3%

3679

  ներառյալ 8 թարգմանված
             
Գրավոր խոսք. ընդամենը`

106 804 166

96,8%

9 186

   
             
Բանավոր խոսք

# բառանիշ

% ԱՐԵՎԱԿ

# տեքստեր

   
             
  Բանավոր սպոնտան խոսք (ԲՍԽ)

1 029 646

0,94%

208

   
  Բանավոր հասարակական խոսք (ԲՀԽ)

1 933 899

1,76%

543

   
  Բանավոր նպատակաուղղված խոսք (ԲՆԽ)

70 010

0,06%

22

   
             
+ Էլեկտրոնային հաղորդակցություն

442 399

0,40%

1

   
             
Բանավոր խոսք. ընդամենը`

3 475 954

3,2%

774

   
             
ԱՐԵՎԱԿ. ընդամենը`

110 280 120

100%

9 960

ԱՐԵՎԱԿ-ում ընդգրկված տեքստերի հիմնական մասը հավաքվել է տարբեր տպված աղբյուրների տեսածրման և տառաճանաչման միջոցով: Որոշ գեղարվեստական ստեղծագործություններ և մամուլի տեքստեր բեռնվել են համացանցի բաց արխիվներից (ավելի մանրամասն ինֆորմացիայի համար տե՛ս Հայերեն կորպուսներ և տեքստեր համացանցում բաժինը): Բանավոր խոսքի կորպուսն ամբողջովին վերծանվել է ԱՐԵՎԱԿ-ի կողմից 2006-2008 թթ., ինչպես նաև Վիկտորյա Խուրշուդյանի կողմից  2003-2005 թթ.: Ստորև բերված աղյուսակում ներկայացված է ԱՐԵՎԱԿ-ի բովանդակությունը ըստ տեքստերի ստացման աղբյուրների: 

ԱՐԵՎԱԿ-ի բովանդակությունն ըստ աղբյուրի        
               
Գրավոր խոսք

տեսածրված

բեռնված

այլ աղբյուրներ

   

# բառանիշ

% ԱՐԵՎԱԿ

# բառանիշ

% ԱՐԵՎԱԿ

# բառանիշ

% ԱՐԵՎԱԿ

Գեղարվեստական

38 672 087

36,2%

1 580

1,5%

674 541

0,6%

Մամուլ

12 709 536

11,9%

34 555 199

32,4%

 

 
Ոչ գեղարվեստական

15 571 293

14,6%

2 222 181

2,1%

818 453

0,8%

ԱՐԵՎԱԿ-ի բովանդակությունն ըստ աղբյուրի

66 952 916

62,7%

38 358 256

35,9%

1 492 994

1,4%

               
               
Էլեկտրոնային հաղորդակցություն

442 399

100%

բեռնված

     
               
               
Բանավոր խոսք`  ընդամենը

3 033 555

100%

վերծանված