/  Rozbudowa „Elektronicznego Korpusu Tekstów Polskich XVII i XVIII w.” i jego integracja z „Elektronicznym słownikiem języka polskiego XVII i XVIII w.”

Rozbudowa „Elektronicznego Korpusu Tekstów Polskich XVII i XVIII w.” i jego integracja z „Elektronicznym słownikiem języka polskiego XVII i XVIII w.”

Kierownik projektu: prof. dr hab. Włodzimierz Gruszczyński

Numer projektu: 11H 180413 86
Data rozpoczęcia: 2018-12-06
Data zakończenia: 2023-12-05
Jednostka finansująca: MEiN – NPRH 86

Opis projektu

Projekt obejmuje kontynuację prac nad stworzonym w latach 2013-2018 „Elektronicznym Korpusem Tekstów Polskich XVII i XVIII w. (do 1772 r.)”. W pierwszym etapie powstał korpus liczący 13,5 mln segmentów (w rozumieniu przyjętym w NKJP), dostępny online. Zgromadzone w nim teksty, prezentowane w postaci transliteracji i transkrypcji, zostały poddane anotacji strukturalnej (odwzorowanie struktury dokumentu), językowej (znakowanie fragmentów obcych) i morfosyntaktycznej (lematyzacja, oznaczenie części mowy i wartości odpowiednich kategorii gramatycznych). Każdy tekst został również opatrzony dokładnymi metadanymi. Tak bogata anotacja daje możliwość zadawania różnorakich zapytań, filtrowania wyników oraz ich lokalizacji w źródle z dokładnością do numeru strony.

Celem obecnego projektu jest powiększenie korpusu o kolejne 12 mln segmentów, w tym dodanie tekstów z lat 1773-1800, dzięki czemu korpus obejmie dwa pełne stulecia rozwoju polszczyzny. Nowe teksty zostaną dobrane tak, by zapewnić większe zrównoważenie chronologiczne, genologiczne, geograficzne i stylistyczne korpusu. Wszystkie nowo dodane teksty zostaną przepisane oraz ręcznie zaanotowane strukturalnie i językowo zgodnie z zasadami przyjętymi w pierwszym etapie budowy korpusu. Anotacja morfosyntaktyczna zostanie wykonana automatycznie za pomocą tagera użytego do znakowania obecnie istniejącego korpusu, uzupełnionego o nowe reguły dezambiguacji. Również inne narzędzia powstałe w toku dotychczasowych prac zostaną dostosowane do obsługi rozbudowanego korpusu.

W ramach projektu przewidziane jest także zintegrowanie różnych zasobów językowych polszczyzny obejmujących okres XVII-XVIII w. Oprócz Elektronicznego Korpusu Tekstów Polskich XVII i XVIII w. należą do nich: Elektroniczny słownik języka polskiego XVII i XVIII w., papierowa kartoteka tego słownika oraz Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII Wieku. Integracja ta będzie prowadzona na dwóch poziomach. Po pierwsze, użytkownicy poszczególnych zasobów będą mieli możliwość łatwego łączenia informacji pochodzących z każdego z nich. Po drugie, redaktorzy Elektronicznego słownika języka polskiego XVII i XVIII w. zyskają narzędzia umożliwiające przeszukiwanie korpusu pod kątem wyboru najlepszych przykładów do haseł słownikowych i automatyczne przenoszenie wybranych cytatów z korpusu do słownika.

Link do projektu: https://korba.edu.pl

Przydatne strony internetowe:
https://sxvii.pl
https://www.rcin.org.pl/dlibra/publication/20029
https://cbdu.ijp.pan.pl/

 

Facebook

Facebook Pagelike Widget

YouTube

Instytut Języka Polskiego Polskiej Akademii Nauk

Skip to content