Rozbudowa „Elektronicznego Korpusu Tekstów Polskich XVII i XVIII w.” i jego integracja z „Elektronicznym słownikiem języka polskiego XVII i XVIII w.”
Rozbudowa „Elektronicznego Korpusu Tekstów Polskich XVII i XVIII w.” i jego integracja z „Elektronicznym słownikiem języka polskiego XVII i XVIII w.”
Kierownik projektu: prof. Włodzimierz Gruszczyński
Wykonawcy: prof. Włodzimierz Gruszczyński, dr Dorota Adamiec, dr Joanna Bilińska, dr Renata Bronikowska, dr Witold Kieraś, mgr Katarzyna Kryńska, dr Magdalena Majdak, mgr Emanuel Modrzejewski, dr Maciej Ogrodniczuk, dr Ewa Rodek, dr Aleksandra Wieczorek, dr Marcin Woliński
Numer projektu: 0413/NPRH7/H11/86/2018
Data rozpoczęcia: I 2019 r.
Data zakończenia: XII 2023 r.
Jednostka finansująca: NPRH
Opis projektu
Projekt obejmuje kontynuację prac nad stworzonym w latach 2013-2018 „Elektronicznym Korpusem Tekstów Polskich XVII i XVIII w. (do 1772 r.)”. W pierwszym etapie powstał korpus liczący 13,5 mln segmentów (w rozumieniu przyjętym w NKJP), dostępny online. Zgromadzone w nim teksty, prezentowane w postaci transliteracji i transkrypcji, zostały poddane anotacji strukturalnej (odwzorowanie struktury dokumentu), językowej (znakowanie fragmentów obcych) i morfosyntaktycznej (lematyzacja, oznaczenie części mowy i wartości odpowiednich kategorii gramatycznych). Każdy tekst został również opatrzony dokładnymi metadanymi. Tak bogata anotacja daje możliwość zadawania różnorakich zapytań, filtrowania wyników oraz ich lokalizacji w źródle z dokładnością do numeru strony.
Celem obecnego projektu jest powiększenie korpusu o kolejne 12 mln segmentów, w tym dodanie tekstów z lat 1773-1800, dzięki czemu korpus obejmie dwa pełne stulecia rozwoju polszczyzny. Nowe teksty zostaną dobrane tak, by zapewnić większe zrównoważenie chronologiczne, genologiczne, geograficzne i stylistyczne korpusu. Wszystkie nowo dodane teksty zostaną przepisane oraz ręcznie zaanotowane strukturalnie i językowo zgodnie z zasadami przyjętymi w pierwszym etapie budowy korpusu. Anotacja morfosyntaktyczna zostanie wykonana automatycznie za pomocą tagera użytego do znakowania obecnie istniejącego korpusu, uzupełnionego o nowe reguły dezambiguacji. Również inne narzędzia powstałe w toku dotychczasowych prac zostaną dostosowane do obsługi rozbudowanego korpusu.
W ramach projektu przewidziane jest także zintegrowanie różnych zasobów językowych polszczyzny obejmujących okres XVII-XVIII w. Oprócz Elektronicznego Korpusu Tekstów Polskich XVII i XVIII w. należą do nich: Elektroniczny słownik języka polskiego XVII i XVIII w., papierowa kartoteka tego słownika oraz Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII Wieku. Integracja ta będzie prowadzona na dwóch poziomach. Po pierwsze, użytkownicy poszczególnych zasobów będą mieli możliwość łatwego łączenia informacji pochodzących z każdego z nich. Po drugie, redaktorzy Elektronicznego słownika języka polskiego XVII i XVIII w. zyskają narzędzia umożliwiające przeszukiwanie korpusu pod kątem wyboru najlepszych przykładów do haseł słownikowych i automatyczne przenoszenie wybranych cytatów z korpusu do słownika.
Przydatne strony internetowe