Корпус устной речи


По состоянию на март 2009 г. корпус устной речи, собранный в рамках проекта ВАНК, насчитывает более 3 млн. словоупотреблений, распределенных по типам текстов следующим образом:

Устный подкорпус

словоупотреблений

% от устной речи

% от ВАНК

спонтанная 1 029 646 29,6% 0,9%
публичная 1 933 899 55,6% 1,8%
стимулированная 70 010 2,0% 0,1%
       
электронная коммуникация 442 399 12,7% 0,4%
итого 3 475 954 100,0% 3,2%

Устная речь представлена в ВАНК ереванским диалектом. Выбор ереванского диалекта мотивирован не только его большей доступностью для записи, но и тем, что он более других диалектов близок к литературному варианту восточноармянского языка – языку письменного корпуса ВАНК. Именно ереванский (араратский) диалект послужил прототипом для восточноармянской письменной традиции.

Весь корпус устной речи был собран в рамках проекта ВАНК путем транскрибирования аудиоматериалов (в том числе полученных из видеозаписей), которые сохранялись в форматах mpeg и wav. 

Там, где это было возможно, запись устной речи осуществлялась с письменного разрешения респондентов.  Имена и прочие маркеры идентификации в спонтанном дискурсе были из этических соображений замещены произвольными прописными буквами.

В устный подкорпус добавлен небольшой объем текстов электронной коммуникации (блоги интернет-форума, 442 399 словоупотреблений). Эти тексты занимают положение, промежуточное между устными и письменными; к устному подкорпусу они отнесены условно.

Записи
Записи публичной устной речи насчитывают на настоящий момент 1,9 млн. словоупотреблений. Это видеозаписи различных телепрограмм, ток-шоу, теледебатов, интервью и др., транслировавшихся армянскими телеканалами (в том числе PTV1, PTV2, Kentron, Yerkirmedia, ArmeniaTV, TV5). Спонтанная и стимулированная (task-oriented) устная речь записывалась на аудио. Дикторами были носители ереванского диалекта. При записи мы стремились по возможности диверсифицировать возраст, пол и социальный статус говорящих. Спонтанные устные тексты (более миллиона словоупотреблений) включают полилоги, диалоги и нарративы разного типа. Корпус стимулированной устной речи (около 65 тыс. словоупотреблений) включает:
  • Рассказы о любимом кинофильме. На настоящий момент в корпус включено 18 рассказов общим объемом в 33 тыс. словоупотреблений.
  • Рассказы по картинкам. Этот корпус был составлен в рамках проекта В. Хуршудян по созданию четырехъязычного корпуса устных нарративов на армянском, русском, английском и итальянском языках. Армянская часть состоит из сорока нарративов (около 32,5 тыс. словоупотреблений). Записи проводились в 2003-2004 г. в Ереване, записано десять респондентов в возрасте от 20 до 30 лет.

Расшифровка

Аудиофайлы транскрибируются в упрощенной транскрипции, в основном следующей нормам армянской орфографии и пунктуации, но использующей несколько дополнительных помет, в том числе == для обозначения фальстартов, = для незаконченных слов, <> для неуверенно услышанных слов, ## для комментариев. В будущем для устного корпуса может быть разработана глубокая дискурсивная транскрипция, используемая в представлении некоторых устных корпусов. В качестве примера мы приводим три образца аудиозаписей устной речи с соответствующими им транскриптами.

Для того чтобы дать представление о диалектном разнообразии восточноармянского языка, приведен также образец записи на горисском диалекте. Запись и обработка текстовых материалов по армянскими диалектам являются одним из текущих направлений развития проекта.

Тип текста Описание Аудиофайл
(MP3)
Транскрибированная
запись
Публичная устная речь интервью с Ервандом Газанчяном, Erkir Media TV Аудио Расшифровка
Спонтанная устная речь разговор в магазине Аудио Расшифровка
Стимулированные нарративы рассказ по картинкам Аудио Расшифровка
Диалектная речь горисский диалект Аудио Расшифровка