Das INEL Evenki Korpus wurde im Rahmen des Langzeitprojekts INEL (Grammatiken, Korpora und Sprachtechnologie für indigene nordeurasische Sprachen,
2016-2033) erstellt.
Das Korpus ermöglicht typologisch orientierte, korpusbasierte grammatische Forschung zum Ewenkischen (< tungusisch) und erweitert die Dokumentation der weniger beschriebenen indigenen Sprachen Nordeurasiens.
Das INEL Evenki Korpus umfasst nördliche (Taimyr, Khantayskoe Ozero, Ilimpi, Yerbogachyon) und südliche (Sym, Barhahan und in geringerem Maße Stony Tunguska und Nepa) Dialekte. Dies sind genau die Dialekte, die in Kontakt mit anderen im INEL-Projekt einbezogenen Sprachen stehen oder standen, in erster Linie Dolganisch und Selkupisch.
Das INEL Evenki Korpus enthält Texte aus verschiedenen Quellen:
- Veröffentlichte Texte aus mehreren Textsammlungen: Vasilevich (1936): die Dialekte Ilimpi, Yerbogachyon, Sym, Nepa; Anisimov (1936): der Dialekt Stony Tunguska; Brodskaya (1967): der Dialekt Khantayskoe Ozero.
- Transkripte von Aufnahmen, die vom Haus der Nationalen Künste Taimyr (TDNT) in Dudinka (2000er Jahre) erhalten wurden, sowie Transkripte von Aufnahmen, die von Tat`yana V. Bolina gemacht wurden, alle im Dialekt Khantayskoe Ozero. Für diese Texte sind entsprechende zeitlich alignierte Audiodateien verfügbar.
- Texte aus dem handschriftlichen Archiv des russischen Ethnographen und Linguisten Konstantin M. Rychkov, die in den 1900er/1910er Jahren aufgenommen wurden und die Dialekte Taimyr, Ilimpi, Sym und Barhahan abdecken.
- Jeder Text im Korpus ist mit morphologischer Glossierung, Übersetzungen ins Englische, Russische und Deutsche sowie mit Annotationen zu russischen Lehnwörtern versehen. Einige Texte enthalten auch Annotationen zu syntaktischen Funktionen, semantischen Rollen, Informationsstatus sowie zu existenzieller, lokativer und possessiver Prädikation.
Zugang über das Zentrum für nachhaltiges Forschungsdatenmanagement der Universität Hamburg:
Neu in Version 2.0
- Die Gesamtgröße des Korpus hat sich verdoppelt (von 47.708 auf 93.264 Tokens):
- Neue Texte im Sym-Dialekt aus dem Rychkov-Archiv wurden hinzugefügt (15.495 Tokens), die gesamte Sym-Sammlung aus dem Archiv ist jetzt im Korpus enthalten.
- Eine Textsammlung im Barhahan-Dialekt aus dem Rychkov-Archiv wurde in den Korpus aufgenommen (30.061 Tokens).
- Einige Fehler in der Glossierung wurden behoben.
- Die Glossierung wurde an einigen Stellen vereinheitlicht (z.B. die Analyse von finiten Vergangenheitsformen als finite Verben vs. Partizipien: alle solche Formen werden jetzt als finite Verben glossiert).
- Viele Glossierungskennzeichnungen wurden geändert; insbesondere wurden die meisten mehrdeutigen grammatischen Glossen durch Zahlen und/oder semantische Spezifikationen eindeutig gemacht: z.B. DIM für vier Affixe ⇒ DIM1, DIM2, DIM3, DIM4; NMLZ ⇒ NMLZ.TMP, NMLZ.PT, usw.
- Die Struktur der Metadaten wurde leicht modifiziert (z.B. wurden Felder für den Quellentyp und die Verfügbarkeit von Audiodateien hinzugefügt).
The INEL Evenki Corpus has been created within the long-term INEL project (Grammatical Descriptions, Corpora and Language Technology for Indigenous Northern Eurasian Languages), 2016–2033.
The corpus makes possible typologically aware corpus-based grammatical research on the Evenki (< Tungusic) language and expands the documentation of the lesser described indigenous languages of Northern Eurasia.
The INEL Evenki Corpus covers Northern (Taimyr, Khantayskoe Ozero, Ilimpi, Yerbogachyon) and Southern (Sym, Barhahan, and to a smaller extent Stony Tunguska and Nepa) Evenki dialects. These are exactly the dialects which are or were in contact with other languages included in the INEL project, that is first and foremost Dolgan and Selkup. The INEL Evenki Corpus contains texts from different sources:
- Published texts from several text collections: Vasilevich (1936): the Ilimpi, Yerbogachyon, Sym, Nepa dialects; Anisimov (1936): the Stony Tunguska dialect; Brodskaya (1967): the Khantayskoe Ozero dialect.
- Transcripts of recordings obtained from the Taimyr House of National Arts (TDNT) in Dudinka (2000s) as well as transcripts of recordings made by and from Tat`yana V. Bolina, all of them representing the Khantayskoe Ozero dialect. For these texts, corresponding time-aligned audio files are available.
- Texts from the handwritten archive of the Russian ethnographer and linguist Konstantin M. Rychkov recorded in the 1900s/1910s, covering the Taimyr, Ilimpi, Sym, and Barhahan dialects.
- Each text in the corpus is provided with morphological glossing, translation into English, Russian, and German, as well as annotation of Russian borrowings. Some texts also have annotations for syntactic functions, semantic roles, information status, as well as for existential, locative, and possessive predication.
Access to the corpus via the Center for sustainable research data management:
New in release 2.0
- The total size of the corpus has increased about twice (from 47,708 to 93,264 tokens):
- new texts in the Sym dialect from the Rychkov archive have been added (15,495 tokens), the entire Sym collection from the archive is now included in the corpus
- a text collection in the Barhahan dialect from the Rychkov archive has been included in the corpus (30,061 tokens)
- Some errors in glossing have been fixed
- Glossing has been unified at some points (e.g. the analysis of finite past tense forms as finite verbs vs. participles: all such forms are now glossed as finite verbs)
- Many glossing labels have been changed; in particular, most ambiguous grammatical glosses have been disambiguated by numbers and/or by semantic specifications: e.g. DIM for four affixes ⇒ DIM1, DIM2, DIM3, DIM4; NMLZ ⇒ NMLZ.TMP, NMLZ.PT, etc.
- The structure of metadata has been slightly modified (e.g. fields for the source type and availability of audio files have been added)