Разметка ВАНК

ВАНК – это совокупность электронных текстов на восточноармянском языке, сопровождаемых базовыми библиографическими сведениями (метатекстовой информацией) и обработанных программой-лемматизатором (парсером), которая добавляет к словоформам лексическую и морфологическую аннотацию. ВАНК использует XML-разметку – набор тегов (помет), приписываемых текстам и словоупотреблениям. Разметка используется программным обеспечением ВАНК для эффективного поиска по текстам корпуса.

ВАНК содержит три базовых уровня разметки:
  • Метатекстовая разметка – набор библиографических помет, приписанных каждой текстовой единице (документу)
  • Грамматическая разметка – лексические и морфологические пометы, приписанные более чем 90% словоупотреблений, и краткие пословные переводы, приписанные более чем 85% словоупотреблений
  • Пунктуация, обозначения границ предложений и другая вспомогательная разметка

Большая часть грамматических помет доступна пользователю ВАНК непосредственно (например, в окне Выбора грамматических признаков или в подсветке лексико-грамматического разбора при наведении на словоформу указателя мыши). С метатекстовой и вспомогательной разметкой пользователь имеет дело лишь опосредованно, через интернет-интерфейс ВАНК (например, в окне Подкорпус). Кроме того, некоторые метатекстовые пометы отображаются в заголовке контекста при указании источника примера. Небольшая часть помет носит вспомогательный характер и предназначена исключительно для внутреннего использования при работе программного обеспечения.