|
Բովանդակություն
ԱՐԵՎԱԿ-ը հնարավորինս մեծ քանակությամբ արևելահայերեն տեքստեր պարունակող լեզվաբանական կորպուս է: 2009 թ. մարտի դրությամբ ԱՐԵՎԱԿ-ն ընդգրկում է մոտ 110 մլն. բառամթերք:
Ի տարբերություն Ռուսերենի ազգային կորպուսի կամ Բրիտանական ազգային կորպուսի, որոնցում տեքստերն ընտրված են, ելնելով որոշակի ծավալի հետ կապված սահմանափակումներից, ԱՐԵՎԱԿ-ը պարունակում է հնարավորինս շատ մատչելի արևելահայերեն գեղարվեստական, գիտական և բանավոր տեքստեր: Այդ առումով ԱՐԵՎԱԿ-ը ավելի մոտ է Չեխերենի և Սլովերենի ազգային կորպուսներին: Այնուամենայնիվ, ժանրային հավասարակշռությունը պահպանելու նպատակով որոշ ժանրերի տեքստեր, ինչպիսիք են, օրինակ, մամուլի և օրենսդրական տեքստերը, որոնք մատչելի են համացանցում մեծ քանակությամբ, ընդգրկված են սահմանափակ քանակությամբ:
Գրավոր խոսքի ենթակորպուսը պարունակում է 836 արձակ և չափածո գեղարվեստական տեքստեր (ներառյալ 206 թարգմանված տեքստեր), 7858 մամուլի համարներ, ինչպես նաև գիտական և պաշտոնական տեքստերի խոշոր հավաքծու:
ԱՐԵՎԱԿ-ի կարևորագույն բաժիններից է արևելահայերեն բանավոր խոսքի ենթակորպուսը (3 մլն. բառանիշ), որն ամբողջովին մշակվել է ԱՐԵՎԱԿ-ի ջանքերով, և ներկայացված է սպոնտան երկխոսություններով, պոլիլոգներով, նպատակաուղղված (task-oriented) հարցազրույցներով, հեռուստատեսային թոք-շոուներով, կինոնկարներով և այլ ձայնագրություններով:
ԱՐԵՎԱԿ 3.0-ում ավելացված էլեկտրոնային հաղորդակցության տեքստերը, որոնք ընդգրկվել են բանավոր խոսքի ենթակորպուսում, իրականում միջանկյալ դիրք են գրավում բանավոր և գրավոր խոսքի միջև:
ԱՐԵՎԱԿ-ում ընդգրկված 9960 տեքստերից յուրաքանչյուրին կցված է հիմնական մետատեքստային ինֆորմացիա, որը հատկանշում է տեքստի ժանրը, ստեղծման և հրատարակման տարեթիվը, հեղինակի վերաբերյալ համառոտ տեղեկություն և այլ մատենագիտական ինֆորմացիա:
ԱՐԵՎԱԿ-ի բովանդակությունը |
|
|
|
|
|
2009 թ. մարտի դրությամբ |
|
|
|
|
|
|
|
|
|
|
|
|
Գրավոր խոսք |
# բառանիշ |
% ԱՐԵՎԱԿ |
# տեքստեր |
|
|
|
|
|
|
|
|
|
Գեղարվեստական գրականություն |
|
|
|
|
|
|
արձակ՝ վեպեր |
29 909 172 |
27,1% |
371 |
|
ներառյալ 99 թարգմանված |
|
արձակ՝ պատմվածքներ |
5 959 142 |
5,4% |
183 |
|
ներառյալ 56 թարգմանված |
|
արձակ՝ պիեսներ |
1 411 030 |
1,3% |
55 |
|
ներառյալ 8 թարգմանված |
|
արձակ` ընդամենը |
37 279 344 |
33,8% |
609 |
|
|
|
|
|
|
|
|
|
|
չափածո |
3 648 160 |
3,3% |
227 |
|
ներառյալ 43 թարգմանված |
|
|
|
|
|
|
|
Մամուլ |
47 264 735 |
43,0% |
7858 |
|
|
|
|
|
|
|
|
|
Ոչ գեղարվեստական |
|
|
|
|
|
|
գիտական |
13 875 930 |
12,6% |
113 |
|
ներառյալ 22 թարգմանված |
|
հոդվածներ, հուշագրություններ, պաշտոնական, կրոնական |
4 735 997 |
4,3% |
3679 |
|
ներառյալ 8 թարգմանված |
|
|
|
|
|
|
|
Գրավոր խոսք. ընդամենը` |
106 804 166 |
96,8% |
9 186 |
|
|
|
|
|
|
|
|
|
Բանավոր խոսք |
# բառանիշ |
% ԱՐԵՎԱԿ |
# տեքստեր |
|
|
|
|
|
|
|
|
|
|
Բանավոր սպոնտան խոսք (ԲՍԽ) |
1 029 646 |
0,94% |
208 |
|
|
|
Բանավոր հասարակական խոսք (ԲՀԽ) |
1 933 899 |
1,76% |
543 |
|
|
|
Բանավոր նպատակաուղղված խոսք (ԲՆԽ) |
70 010 |
0,06% |
22 |
|
|
|
|
|
|
|
|
|
+ |
Էլեկտրոնային հաղորդակցություն |
442 399 |
0,40% |
1 |
|
|
|
|
|
|
|
|
|
Բանավոր խոսք. ընդամենը` |
3 475 954 |
3,2% |
774 |
|
|
|
|
|
|
|
|
|
ԱՐԵՎԱԿ. ընդամենը` |
110 280 120 |
100% |
9 960 |
|
|
ԱՐԵՎԱԿ-ում ընդգրկված տեքստերի հիմնական մասը հավաքվել է տարբեր տպված աղբյուրների տեսածրման և տառաճանաչման միջոցով: Որոշ գեղարվեստական ստեղծագործություններ և մամուլի տեքստեր բեռնվել են համացանցի բաց արխիվներից (ավելի մանրամասն ինֆորմացիայի համար տե՛ս Հայերեն կորպուսներ և տեքստեր համացանցում բաժինը): Բանավոր խոսքի կորպուսն ամբողջովին վերծանվել է ԱՐԵՎԱԿ-ի կողմից 2006-2008 թթ., ինչպես նաև Վիկտորյա Խուրշուդյանի կողմից 2003-2005 թթ.: Ստորև բերված աղյուսակում ներկայացված է ԱՐԵՎԱԿ-ի բովանդակությունը ըստ տեքստերի ստացման աղբյուրների:
ԱՐԵՎԱԿ-ի բովանդակությունն ըստ աղբյուրի |
|
|
|
|
|
|
|
|
|
|
|
|
Գրավոր խոսք |
տեսածրված |
բեռնված |
այլ աղբյուրներ |
|
|
# բառանիշ |
% ԱՐԵՎԱԿ |
# բառանիշ |
% ԱՐԵՎԱԿ |
# բառանիշ |
% ԱՐԵՎԱԿ |
Գեղարվեստական |
38 672 087 |
36,2% |
1 580 |
1,5% |
674 541 |
0,6% |
Մամուլ |
12 709 536 |
11,9% |
34 555 199 |
32,4% |
|
|
Ոչ գեղարվեստական |
15 571 293 |
14,6% |
2 222 181 |
2,1% |
818 453 |
0,8% |
ԱՐԵՎԱԿ-ի բովանդակությունն ըստ աղբյուրի |
66 952 916 |
62,7% |
38 358 256 |
35,9% |
1 492 994 |
1,4% |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Էլեկտրոնային հաղորդակցություն |
442 399 |
100% |
բեռնված |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Բանավոր խոսք` ընդամենը |
3 033 555 |
100% |
վերծանված |
|
|
|
|