INEL Mansi corpus
The annotated corpus of Mansi (< Uralic) is available for online search or download under a CC-BY-NC-SA license. Corpus size in words: 397146. You will find full documentation here.
About
The INEL Mansi Corpus has been created within the long-term INEL project (“Grammatical Descriptions, Corpora, and Language Technology for Indigenous Northern Eurasian Languages”) in the context of the Academies’ Programme, coordinated by the Union of the German Academies of Sciences and Humanities.
Mansi is a relatively well-documented language, with numerous grammatical descriptions and an existing corpus. However, not all varieties have been represented in previously available corpora. The present corpus addresses this gap by incorporating materials from the Tavda variety, alongside a number of texts from the Western dialect group. Most of the corpus data originate from the Northern dialect group.
The INEL Mansi Corpus comprises texts drawn from the following sources:
- Dolovai, Dorottya and Katalin Sipőcz 1996. Szoszvai vogul szövegek. In: Mészáros, Edit (ed.): Ünnepi könyv Mikola Tibor tiszteletére: 73-75. Szeged.
- K. Sal, Éva 1980. Szigvai vogul mesék. Nyelvtudományi Közlemények 82: 289-298.
- Kálmán, Béla 1959. Vogulin tutkimassa. Virittäjä 63/3: 411-416.
- Kálmán, Béla 1960. Manysi szövegmutatványok. Nyelvtudományi Közlemények 62: 23-32.
- Kálmán, Béla 1976a. Wogulische Texte mit einem Glossar. Budapest: Akadémia Kiadó.
- Kálmán, Béla 1976b. Chrestomathia Vogulica. Budapest: Tankönyvkiadó.
- Kannisto, Artturi and Matti Liimola 1951. Wogulische Volksdichtung gesammelt und übersetzt von Artturi Kannisto, bearbeitet und herausgegeben von Matti Liimola Volume I. Texte mythischen Inhalts. [Mémoires de la Société Finno-Ougrienne 101]. Helsinki: Suomalais-Ugrilainen Seura.
- Kannisto, Artturi and Matti Liimola 1955. Wogulische Volksdichtung gesammelt und übersetzt von Artturi Kannisto, bearbeitet und herausgegeben von Matti Liimola Volume II. Kriegs und Heldensagen. [Mémoires de la Société Finno-Ougrienne 109]. Helsinki: Suomalais-Ugrilainen Seura.
- Kannisto, Artturi and Matti Liimola 1956. Wogulische Volksdichtung gesammelt und übersetzt von Artturi Kannisto, bearbeitet und herausgegeben von Matti Liimola Volume III. Märchen. [Mémoires de la Société Finno-Ougrienne 111]. Helsinki: Suomalais-Ugrilainen Seura.
- Kannisto, Artturi and Matti Liimola 1958. Wogulische Volksdichtung gesammelt und übersetzt von Artturi Kannisto, bearbeitet und herausgegeben von Matti Liimola Volume IV. Bärenlieder. [Mémoires de la Société Finno-Ougrienne 114]. Helsinki: Suomalais-Ugrilainen Seura.
- Kannisto, Artturi and Matti Liimola 1963. Wogulische Volksdichtung gesammelt und übersetzt von Artturi Kannisto, bearbeitet und herausgegeben von Matti Liimola Volume VI. Schicksalslieder, Klagelieder, Kinderreime, Rätsel, Verschiedenes. [Mémoires de la Société Finno-Ougrienne 134]. Helsinki: Suomalais-Ugrilainen Seura.
- Lūimā sēripos, a Northern Mansi language newspaper published in the Khanty-Mansi Autonomous Okrug–Yugra, No. 29, 2012.
- Munkácsi, Bernát 1887. A vogul nyelvjárások (Szóragozás és nyelvmutatványok). Nyelvtudományi Közlemények 21: 321-455.
- Munkácsi, Bernát 1892. Vogul népköltési gyűjtemény II/1. Istenek hősi énekei, regéi és idéző igéi. Budapest: Magyar Tudományos Akadémia.
- Munkácsi, Bernát 1893. Vogul népköltési gyűjtemény III/1. Medveénekek. Budapest: Magyar Tudományos Akadémia.
- Munkácsi, Bernát 1896. Vogul népköltési gyűjtemény IV/1. Életképek. Budapest: Magyar Tudományos Akadémia.
- Munkácsi, Bernát 1902. Vogul népköltési gyűjtemény I/1-2. Regék és énekek a világ teremtéséről : vogul szövegek és fordításaik tárgyi és nyelvi magyarázatokkal : bevezetésül a vogulok népköltése és ősi hitvilága. Budapest: Magyar Tudományos Akadémia.
- Rombandeeva, Evgokiya 1956. Manki latnguv: Lovin'tan kniga man'si nachal'nyi shkola kitit klass magys [Nasha rech': Kniga dlia chteniia dlia 2-go klassa mansiiskoi nachal'noi shkoly / Our Speech: A Reader for the Second Grade of Mansi Primary Schools]. Leningrad: Uchpedgiz.
- Sipőcz, Katalin 2014. A manysi evidenciálisról. Folia Uralica Debreceniensia 21: 121140.
All texts in the corpus are provided with interlinear morpheme-by-morpheme glosses. All texts for which audio recordings are available have been time-aligned with the corresponding recordings.
Corpus size
The corpus contains 196 texts from 47 speakers, 6,179 sentences and 48,145 tokens. The total duration of the audio recordings is 1 hour 36 minutes.
Funding
The corpus has been produced in the context of the joint research funding of the German Federal Government and Federal States in the Academies’ Programme, with funding from the Federal Ministry of Education and Research and the Free and Hanseatic City of Hamburg. The Academies’ Programme is coordinated by the Union of the German Academies of Sciences and Humanities.
Search
The Tsakorpus search system is used for the online search. You can search by lemma (root), word form, glosses and grammatical tags. You can combine several parameters or specify a distance between search terms to make an advanced search query. You can also narrow down you search to a subcorpus. For more information, use the ❔ button at the top of the search page.
For offline search, you can download the corpus from the ZFDM Repository. A downloaded corpus can be browsed or searched locally using the EXMARaLDA software or, alternatively, ELAN. Remote search with EXMARaLDA is also possible without downloading all the files (see here).

