| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Корпус устной речи
Устная речь представлена в ВАНК ереванским диалектом. Выбор ереванского диалекта мотивирован не только его большей доступностью для записи, но и тем, что он более других диалектов близок к литературному варианту восточноармянского языка – языку письменного корпуса ВАНК. Именно ереванский (араратский) диалект послужил прототипом для восточноармянской письменной традиции. Весь корпус устной речи был собран в рамках проекта ВАНК путем транскрибирования аудиоматериалов (в том числе полученных из видеозаписей), которые сохранялись в форматах mpeg и wav. Там, где это было возможно, запись устной речи осуществлялась с письменного разрешения респондентов. Имена и прочие маркеры идентификации в спонтанном дискурсе были из этических соображений замещены произвольными прописными буквами. В устный подкорпус добавлен небольшой объем текстов электронной коммуникации (блоги интернет-форума, 442 399 словоупотреблений). Эти тексты занимают положение, промежуточное между устными и письменными; к устному подкорпусу они отнесены условно. ЗаписиЗаписи публичной устной речи насчитывают на настоящий момент 1,9 млн. словоупотреблений. Это видеозаписи различных телепрограмм, ток-шоу, теледебатов, интервью и др., транслировавшихся армянскими телеканалами (в том числе PTV1, PTV2, Kentron, Yerkirmedia, ArmeniaTV, TV5). Спонтанная и стимулированная (task-oriented) устная речь записывалась на аудио. Дикторами были носители ереванского диалекта. При записи мы стремились по возможности диверсифицировать возраст, пол и социальный статус говорящих. Спонтанные устные тексты (более миллиона словоупотреблений) включают полилоги, диалоги и нарративы разного типа. Корпус стимулированной устной речи (около 65 тыс. словоупотреблений) включает:
РасшифровкаАудиофайлы транскрибируются в упрощенной транскрипции, в основном следующей нормам армянской орфографии и пунктуации, но использующей несколько дополнительных помет, в том числе == для обозначения фальстартов, = для незаконченных слов, <> для неуверенно услышанных слов, ## для комментариев. В будущем для устного корпуса может быть разработана глубокая дискурсивная транскрипция, используемая в представлении некоторых устных корпусов. В качестве примера мы приводим три образца аудиозаписей устной речи с соответствующими им транскриптами. Для того чтобы дать представление о диалектном разнообразии восточноармянского языка, приведен также образец записи на горисском диалекте. Запись и обработка текстовых материалов по армянскими диалектам являются одним из текущих направлений развития проекта.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||