Korpus prezentowany na niniejszej stronie jest ręcznie znakowanym fleksyjnie podzbiorem korpusu zgromadzonego w ramach projektu Automatyczna analiza fleksyjna tekstów polskich z lat 1830-1918 z uwzględnieniem zmian w odmianie i pisowni. Oryginalny korpus ma wielkość ponad 1 miliona słów i został podzielny w równych proporcjach na pięć podkorpusów reprezentujących style funkcjonalne: popularnonaukowy, drobne wiadomości prasowe, publicystykę, prozę i dramat. Do ręcznej anotacji wybrano z niego 2944 próbki długości około 160 słów przy jednoczesnym zachowaniu proporcji stylów funkcjonalnych. W efekcie powstał ręcznie znakowany korpus obejmujący mniej więcej połowę oryginalnego zbioru (około 500 tys. słów, 625 tys. segmentów).
Anotacja korpusu odbyła się w ramach prac projektu Model formalny diachronicznego opisu fleksji polskiej i jego komputerowa implementacja finansowanego przez Narodowe Centrum Nauki (2014/15/B/HS2/03119) i prowadzonego w Instytucie Podstaw Informatyki PAN pod kierownictwem Marcina Wolińskiego.
W pracach anotacyjnych udział wzięli: Bartłomiej Alberski, Joanna Bilińska, Anna Bulińska, Agata Drozd, Monika Jabłońska, Witold Kieraś, Emanuel Modrzejewski, Paulina Rosalska i Sebastian Żurowski. Nadzór techniczny nad pracami sprawowała Dorota Komosińska. Korpus został zindeksowany za pomocą wyszukiwarki MTAS przez Michała Wasiluka, interfejs webowy wyszukiwarki przygotował Zbigniew Gawłowicz.
Oprócz ręcznie znakowanego korpusu na stronie dostępny jest również pełny automatycznie transkrybowany i oznakowany fleksyjnie korpus projektu Automatyczna analiza fleksyjna tekstów polskich z lat 1830-1918 z uwzględnieniem zmian w odmianie i pisowni oraz automatycznie transkrybowany i oznakowany zbiór stu powieści Józefa Ignacego Kraszewskiego wydanych oryginalnie w latach 1837-1887 (czyli za życia autora), pozyskanych z serwisu Wikisource.pl.
Ręcznie oznakowany korpus można pobrać również w postaci źródłowych plików w formacie TEI XML.
Szczegółowe pytania na temat korpusu prosimy kierować na adres: wkieras@ipipan.waw.pl.
Oryginalny milionowy korpus tekstów został opisany w artykule:
Prezentowany na tej stronie ręcznie znakowany podzbiór tego korpusu został zaś opisany w artykule: