Опубликованы первые два корпуса проекта INEL

Опубликованы первые два корпуса проекта INEL

Опубликованы первые версии двух электронных корпусов, подготовленных в рамках долгосрочного проекта INEL (https://inel.corpora.uni-hamburg.de/), — селькупского и камасинского языков.

Тексты снабжены поморфемным глоссированием (лексические глоссы на английском и русском), переводами на русский, английский и немецкий языки. Некоторые тексты имеют также (частичную) разметку семантических ролей, синтаксических функций, информационного статуса (данное/новое), переключения кодов, лексических заимствований.

Корпуса публикуются в открытом доступе по лицензии Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International Public License (CC BY-NC-SA 4.0). О возможностях работы с корпусами см. ниже.

Корпуса предназначены главным образом для типологически ориентированных исследований в области грамматики, но могут быть интересны лингвистам различных специальностей, а также специалистам по фольклору, антропологии, истории.

 

1. Селькупский корпус INEL / INEL Selkup Corpus (v0.1)

http://hdl.handle.net/11022/0000-0007-CAE5-3

Селькупский корпус INEL составляют тексты из архива Ангелины Ивановны Кузьминой (1924–2002), собравшей на протяжении более чем десятка лет (1962–1977) большое количество материалов по селькупскому языку во всех основных регионах, где жили говорящие на разных селькупских диалектах.
Основной массив текстов происходит из рукописного архива полевых записей А.И. Кузьминой, переданного ею в Гамбург в 2001 году. Другая часть текстов — расшифровки аудиозаписей из её архива, оцифрованных в 2001 году в Новосибирске и затранскрибированных в ходе проекта INEL с современными носителями селькупского языка.
Настоящая версия корпуса включает 78 текстов общим объёмом 18 673 слова, преимущественно из северных селькупских диалектов.

 

2. Камасинский корпус INEL / INEL Kamas Corpus (v0.1)

http://hdl.handle.net/11022/0000-0007-CAE6-2

Камасинский язык — самодийский язык, ушедший в XX в. со смертью последней носительницы, Клавдии Плотниковой (1895-1989). Все сохранившиеся тексты на камасинском языке записаны от носителей из с. Абалаково (совр. Красноярский край).
Камасинский корпус INEL — первый общедоступный электронный ресурс с аннотированными текстами на камасинском языке. Корпус состоит из двух частей. Первую часть составляют тексты, собранные Каем Доннером в 1912-1914 гг. Вторую часть составляют расшифровки аудиозаписей Клавдии Плотниковой, сделанных в 1963-1970 гг. в Абалаково, Тарту и Таллине. Подавляющее большинство из этих записей было затранскрибировано в рамках проекта INEL (в том числе были повторно затранскрибированы записи, фрагменты которых опубликованы Аго Кюннапом в 1976–1992 гг.).
Настоящая версия корпуса включает 137 текстов общим объёмом 48 293 слова; из них 16 текстов, собранных К. Доннером, и 121 текст из записей Клавдии Плотниковой (около 10,5 часов звучания).

 

Работа с корпусами

Данные в корпусах (как тексты с разметкой, так и метаданные к ним) представлены в XML-форматах свободно распространяемого программного пакета EXMARaLDA (http://exmaralda.org/en/).

Документация к корпусам (на английском языке):
INEL_Selkup_Corpus.pdf
INEL_Kamas_Corpus.pdf

Для просмотра (и прослушивания) отдельных текстов онлайн воспользуйтесь вкладкой «Sessions» на главной странице корпуса. Каждый текст можно просмотреть в одном из трёх онлайн-форматов (например, Visualizations: Score) и скачать в формате EXB (EXMARaLDA). Также доступны для просмотра/скачивания источники текстов: сканированные страницы (PDF) или аудиофайлы (WAV, MP3).

Для поиска по всему корпусу можно скачать полный архив с файлами корпуса и воспользоваться программой EXAKT из пакета EXMARaLDA.
Кроме того, в ближайшие недели будет открыт интерфейс для онлайн-поиска по обоим корпусам на базе платформы Tsakonian Corpus Platform (Tsakorpus). В настоящее время в тестовом режиме работает поиск по фрагменту селькупского корпуса.

Просим присылать отклики, замечания и предложения по адресу:  inel@uni-hamburg.de.