O korpusie


Korpus prezentowany na niniejszej stronie jest ręcznie znakowanym fleksyjnie podzbiorem korpusu zgromadzonego w ramach projektu Automatyczna analiza fleksyjna tekstów polskich z lat 1830-1918 z uwzględnieniem zmian w odmianie i pisowni. Oryginalny korpus ma wielkość ponad 1 miliona słów i został podzielny w równych proporcjach na pięć podkorpusów reprezentujących style funkcjonalne: popularnonaukowy, drobne wiadomości prasowe, publicystykę, prozę i dramat. Do ręcznej anotacji wybrano z niego 2944 próbki długości około 160 słów przy jednoczesnym zachowaniu proporcji stylów funkcjonalnych. W efekcie powstał ręcznie znakowany korpus obejmujący mniej więcej połowę oryginalnego zbioru (około 500 tys. słów, 625 tys. segmentów).

Anotacja korpusu odbyła się w ramach prac projektu Model formalny diachronicznego opisu fleksji polskiej i jego komputerowa implementacja finansowanego przez Narodowe Centrum Nauki (2014/15/B/HS2/03119) i prowadzonego w Instytucie Podstaw Informatyki PAN pod kierownictwem Marcina Wolińskiego.

W pracach anotacyjnych udział wzięli: Bartłomiej Alberski, Joanna Bilińska, Anna Bulińska, Agata Drozd, Monika Jabłońska, Witold Kieraś, Emanuel Modrzejewski, Paulina Rosalska i Sebastian Żurowski. Nadzór techniczny nad pracami sprawowała Dorota Komosińska. Korpus został zindeksowany za pomocą wyszukiwarki MTAS przez Michała Wasiluka, interfejs webowy wyszukiwarki przygotował Zbigniew Gawłowicz.

Oprócz ręcznie znakowanego korpusu na stronie dostępny jest również pełny automatycznie transkrybowany i oznakowany fleksyjnie korpus projektu Automatyczna analiza fleksyjna tekstów polskich z lat 1830-1918 z uwzględnieniem zmian w odmianie i pisowni oraz automatycznie transkrybowany i oznakowany zbiór stu powieści Józefa Ignacego Kraszewskiego wydanych oryginalnie w latach 1837-1887 (czyli za życia autora), pozyskanych z serwisu Wikisource.pl.

Ręcznie oznakowany korpus można pobrać również w postaci źródłowych plików w formacie TEI XML.

Szczegółowe pytania na temat korpusu prosimy kierować na adres: wkieras@ipipan.waw.pl.


Cytowanie korpusu

Oryginalny milionowy korpus tekstów został opisany w artykule:

  • Joanna Bilińska, Magdalena Derwojedowa, Witold Kieraś, Monika Kwiecień. Mikrokorpus polszczyzny 1830-1918. Komunikacja specjalistyczna, 11:149–161, 2016. [BibTeX]

Prezentowany na tej stronie ręcznie znakowany podzbiór tego korpusu został zaś opisany w artykule:

  • Witold Kieraś, Marcin Woliński. Manually annotated corpus of Polish texts published between 1830 and 1918. In Nicoletta Calzolari, Khalid Choukri, Christopher Cieri, Thierry Declerck, Sara Goggi, Koiti Hasida, Hitoshi Isahara, Bente Maegaard, Joseph Mariani, Hélène Mazo, Asuncion Moreno, Jan Odijk, Stelios Piperidis, Takenobu Tokunaga (red.), Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), pages 3854–3859, Paris, France, 2018. European Language Resources Association (ELRA). [BibTeX] [pdf]