INEL Ressourcen Portal

Cite Däbritz, Chris Lasse; Kudryakova, Nina; Stapert, Eugénie. 2022. INEL Dolgan Corpus. Version 2.0. Publication date 2022-11-30. https://hdl.handle.net/11022/0000-0007-F9A7-4. Archived at Universität Hamburg. In: The INEL corpora of indigenous Northern Eurasian languages. https://hdl.handle.net/11022/0000-0007-F45A-1.

Dolganisch

Dolgan

Das Korpus beinhaltet Audioaufnahmen, deren zeitalignierte Transkriptionen des Dolganischen sowie weitere Beschreibungen wie Annotationen und Glossierungen. In der aktualisierten Version 2.0 ist das Korpus, das im Rahmen des INEL-Teilprojektes Dolganisch (Laufzeit September 2016-August 2019, Januar 2022-Juni 2022.) entstanden ist, unter Open-Access-Bedingungen zugänglich. Auf Grundlage des Korpus ist eine typologisch fundierte, grammatikalische Erforschung der dolganischen Sprache möglich. Zugleich wird ein weiterer Beitrag zur Dokumentation der bislang wenig beschriebenen indigenen Sprachen Nordeurasiens geleistet. Das INEL-Dolgan-Korpus setzt sich aus Materialien folgender Quellen zusammen:

Veröffentlichte, folkloristische Texte aus einem Sammelband ("Fol'klor Dolgan", P.E. Efremov 2000)
Transkripte von Aufnahmen aus dem Haus der Kulturen der Völker der Taimyrhalbinsel (TDNT ) in Dudinka
Transkripte aus der Sammlung von Dr. Eugénie Stapert, deren Aufnahmen auf mehreren Feldforschungsreisen in den Jahren 2007-2010 entstanden sind
Transkripte von Aufnahmen, die auf einer Feldforschungsreise im Jahr 2017 erhoben wurden.

Die aufgeführten Materialien unter 1. sowie Teile von 3. konnten bereits transkribiert und übersetzt übernommen werden, der Rest der Aufnahmen wurde im Rahmen des INEL-Projekts transkribiert und übersetzt. Sämtliche Texte im Korpus enthalten morphologische Glossierungen, Übersetzungen ins Englische, Russische und Deutsche, sowie Annotationen für Entlehnungen aus dem Russischen. Einige Texte verfügen zudem über Annotationen für syntaktische Funktionen, semantische Rollen und Informationsstruktur/Informationsstatus.

Zugang über das Zentrum für nachhaltiges Forschungsdatenmanagement der Universität Hamburg:

Download des gesamte Korpus als Zip-Archiv incl. WAV/MP3 Audio (11,7 GB), nur MP3 Audio (2,1 GB) und ohne Audio (40,4 MB)
Dokumentation
Online Suche mithilfe von Tsakorpus
Vollständige Übersicht über Korpusinhalte und Metadaten (oder siehe unten)
Remote Suche mithilfe des Suchwerkzeugs EXAKT (EXMARALDA Anaylse- und Konkordanzprogramm).

Neu in Version 2.0

20 glossierte Transkriptionen (2864 Äußerungen, 19989 Token) mit 03:33:14 Stunden Audioaufnahmen
37 Audiodateien mit 10:00:36 Stunden Ton ohne glossierte Transkriptionen
Korrekturen der grammatikalischen Analysen und Glossierungen nach den Erkenntnissen der Grammatik von Däbritz (2022) sowie korporaübergreifende Harmonisierungen
Zusätzliche Annotation von mongolischen Entlehnungen
Zusätzliche Annotation von Existential-, Lokativ- und Possessivprädikaten
Korrekturen in weiteren Annotationen, Übersetzungen und Metadaten

The corpus includes audio recordings, their time-aligned transcriptions of Dolgan, and other descriptions such as annotations and glosses. In the updated version 2.0, the corpus, which was created in the framework of the INEL subproject Dolgan (duration September 2016-August 2019, January 2022-June 2022.), is accessible under Open Access conditions. On the basis of the corpus, a typologically sound, grammatical research of the Dolgan language is possible. At the same time, a further contribution is made to the documentation of the little-described indigenous languages of northern Eurasia. The INEL Dolgan corpus is composed of materials from the following sources:

Published, folkloric texts from an anthology ("Fol'klor Dolgan," P.E. Efremov 2000)
transcripts of recordings from the House of Cultures of the Peoples of the Taimyr Peninsula (TDNT ) in Dudinka
transcripts from the collection of Dr. Eugénie Stapert, whose recordings were made during several field research trips in 2007-2010
transcripts of recordings collected during a field research trip in 2017

The listed materials under 1. as well as parts of 3. could already be transcribed and translated, the rest of the recordings were transcribed and translated within the INEL project. All texts in the corpus contain morphological glosses, translations into English, Russian, and German, and annotations for borrowings from Russian. Some texts also have annotations for syntactic functions, semantic roles, and information structure/status.

Access to the corpus via the Center for sustainable research data management:

Download the entire corpus as a zip-archive incl. WAV/MP3 audio (11,7 GB), only MP3 audio (2,1 GB) and without audio (40,4 MB)
Online search using Tsakorpus platform
Documentation
Complete overview of corpus materials and metadata (or see below)
Remote search using EXAKT (EXMARALDA analysis and concordance programm).

New in version 2.0

20 glossed transcriptions (2864 utterances, 19989 tokens) with 03:33:14 hours of audio
37 audio files with 10:00:36 hours of audio without glossed transcriptions
Corrections of grammatical analyses and glossing according to the findings of Däbritz's grammar (2022) as well as cross-corporeal harmonizations
Additional annotation of Mongolian borrowings
Additional annotation of existential, locative and possessive predicates
Corrections in other annotations, translations and metadata

Download Online (Tsakorpus)