ELEKTRONICZNY KORPUS POLSKIEJ ŁACINY ŚREDNIOWIECZNEJ. KONTYNUACJA PRAC
Kierownik projektu: dr Krzysztof Nowak
Numer projektu: 11H 17 0116 85
Data rozpoczęcia: 2018-05-17
Data zakończenia: 2023-12-17
Jednostka finansująca: MEiN – NPRH 85
Opis projektu
Projekt obejmuje kontynuację prac nad „Elektronicznym korpusem łaciny średniowiecznej na ziemiach polskich”. Realizacja pilotażowej fazy prac w latach 2012-2016 była w dużej mierze nowatorskim przedsięwzięciem, które pozwoliło udostępnić badaczom na zasadach open access zawierający ok. 5 milionów segmentów ogólny korpus języka łacińskiego używanego w średniowieczu. Finansowany ze środków NPRH projekt przyczynił się do wypracowania skutecznych metod wyboru, obróbki i anotacji tekstów, a także stworzenia licznych prac naukowych i referatów konferencyjnych z zakresu użycia metod cyfrowych w językoznawstwie łacińskim.
Zarazem jednak w toku realizacji ujawniły się wyzwania, jakie stoją przed twórcami wszystkich korpusów historycznych, a prowadzone badania pozwoliły dokładniej rozpoznać wymagania, jakie winien korpus spełniać, aby być wartościowym narzędziem badań nad językiem i kulturą średniowiecza. Szczególną uwagę zwrócono na konieczność znaczącego i stałego rozszerzania bazy źródłowej, a także potrzebę bardziej rygorystycznej kontroli jej reprezentatywności.
Nowa edycja projektu przynosi zatem zasadnicze zmiany architektury zasobu. Po pierwsze, planuje się znaczące, trzykrotne powiększenie korpusu pełnotekstowego, tzw. corpus maius. Po drugie, zakłada się stworzenie w jego obrębie rygorystycznie kontrolowanego podkorpusu zrównoważonego, tzw. corpus minus, zawierającego próbki tekstów. Po trzecie, teksty podda się anotacji gramatycznej i lemmatyzacji na potrzeby przeszukiwania i prowadzenia statystycznych badań językoznawczych i historycznych.
Link do projektu: http://scriptores.pl/efontes/