ROZBUDOWA „ELEKTRONICZNEGO KORPUSU TEKSTÓW POLSKICH XVII I XVIII W.” I JEGO INTEGRACJA Z „ELEKTRONICZNYM SŁOWNIKIEM JĘZYKA POLSKIEGO XVII I XVIII W.”

Kierownik projektu: prof. dr hab. Włodzimierz Gruszczyński

Wykonawcy

Pracownicy IJP PAN: Dorota Adamiec, Bartłomiej Borek, Renata Bronikowska, Mirella Gliwińska, Katarzyna Kryńska, Magdalena Majdak, Jagoda Marszałek, Wiesław Morawski, Ewa Rodek, Aleksandra Wieczorek

Pracownicy IPI PAN: Tomasz Bartosiak, Witold Kieraś, Dorota Komosińska, Bartłomiej Nitoń, Maciej Ogrodniczuk, Marcin Woliński, Alina Wróblewska

Pozostali: Magdalena Awianowicz, Halina Bedeniczuk, Joanna Bilińska-Brynk, Alina Borsewicz, Marta Chomaniuk, Anna Dzierżawska, Zbigniew Gawłowicz, Michał Godlewski, Norbert Gołdys, Artur Goszczyński, Bożena Itoya, Klaudia Jovanovska, Hanna Jurczyk, Ilona Jurkiewicz-Buchała, Ewa Karasińska-Gajo, Kacper Kardas, Agnieszka Kirsztejn, Ludwika Klejnowska, Joanna Koc, Magdalena Kołodziejczyk, Bartosz Kossakowski, Matylda Kozłowska, Grzegorz Kulesza, Weronika Lachowicz, Małgorzata Maciejewska, Agnieszka Małochleb, Emanuel Modrzejewski, Aleksandra Opalińska, Ewa Oranowska-Wróbel, Natalia Owsianka, Małgorzata Pachulska, Katarzyna Płońska, Paulina Rosalska, Martyna Sabała-Bolek, Andrea Smolarz, Katarzyna Stankiewicz, Olga Stolarczyk, Jacek Stwora, Monika Szafrańska, Agnieszka Szulińska, Bartosz Szymański, Renata Śliż, Klaudia Wieczorek, Michał Wieczorek, Patrycja Wojtasik, Krzysztof Wróbel, Maciej Zboch, Mateusz Żółtak

Numer projektu: 11H 180413 86
Data rozpoczęcia: 2018-12-06
Data zakończenia: 2023-12-05
Jednostka finansująca: MEiN – NPRH 86

Opis projektu

Celem projektu była kontynuacja prac nad stworzonym w latach 2013-2018 „Elektronicznym Korpusem Tekstów Polskich XVII i XVIII w. (do 1772 r.)”. Korpus liczący początkowo 13,5 mln segmentów i obejmujący teksty z okresu baroku (stąd skrótowa nazwa KorBa od „Korpus Barokowy”) został rozszerzony o teksty pochodzące z końca XVIII w., a należące do nurtu oświeceniowego. Ponieważ te nurty kulturalne odcisnęły wyraźne piętno na języku, w nowej wersji KorBy (tzw. KorBa 2.0) zostały stworzone dwa podkorpusy, które mogą być przeszukiwane osobno: barokowy (1601-1740) i oświeceniowy (1741-1800). Do korpusu zostały również dodane nowe teksty z XVII i początku XVIII w., wybrane tak, aby zapewnić jego większe zrównoważenie chronologiczne, geograficzne, gatunkowe i tematyczne. Ogółem KorBa 2.0 zawiera niemal 27 mln segmentów pochodzących z 2047 tekstów z XVII i XVIII w. Opracowany został także eksperymentalny korpus średniopolski anotowany składniowo, złożony z 1000 zdań z podkorpusu KorBy anotowanego ręcznie.

Budowa nowej wersji KorBy odbyła się z wykorzystaniem dwóch nowych narzędzi opartych na sieciach neuronowych: transkrybera, czyli narzędzia do automatycznego przekształcania transliterowanego tekstu do pisowni uwspółcześnionej, oraz tagera, czyli narzędzia dokonującego automatycznej tokenizacji, anotacji morfosyntaktycznej oraz lematyzacji. Zastosowanie nowoczesnych technologii pozwoliło ograniczyć liczbę błędów pojawiających się podczas przetwarzania danych i tym samym zwiększyć wiarygodność wyników. Dzięki swojej architekturze neuronowej Tager KFTT z dużą dokładnością radzi sobie z rzadziej spotykaną tokenizacją i pisownią w tekstach historycznych. Wprawdzie wykorzystuje on dane uzyskane w wyniku analizy morfologicznej, jednak nie jest nimi ograniczony.

W ramach projektu nastąpiło także zintegrowanie czterech źródeł do badań polszczyzny XVII i XVIII w.: KorBy, Elektronicznego słownika języka polskiego XVII i XVIII w. (e-SXVII), Cyfrowej Biblioteki Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII Wieku (CBDU) oraz Kartoteki Słownika języka polskiego XVII i 1. połowy XVIII wieku (KSXVII). W tym celu powstał serwis Polszczyzna XVII i XVIII wieku. Słowniki, korpusy, źródła, który pozwala na jednoczesne przeszukanie tych zasobów. Ponadto zostały stworzone połączenia pomiędzy poszczególnymi zasobami ukierunkowane na specjalne cele. Połączenia między witrynami KorBy i e-SXVII z jednej strony ułatwiają redaktorom słownika korzystanie z korpusu, a z drugiej umożliwiają użytkownikom obu źródeł uzyskanie dodatkowych informacji na temat poszukiwanych wyrazów. Z kolei archaiczne wyrazy występujące w tekstach CBDU są objaśniane poprzez odesłania do odpowiednich haseł e-SXVII. Wszystkie te połączenia są dynamiczne, co oznacza, że za każdym razem dane pobierane są z aktualnej bazy poszczególnych źródeł.

WYKAZ PUBLIKACJI ZWIĄZANYCH Z PROJEKTEM

Bilińska-Brynk, J., Rodek, E., Paper Quotation Slips to the Electronic Dictionary of the 17th- and 18th-Century Polish – Digital Index and its Integration with the Dictionary, [w:] Gavriilidou, Z., Mitsiaki, M., Fliatouras, A. (red.) Proceedings of the XIX EURALEX Congress: Lexicography for Inclusion, t. I, Democritus University of Thrace (2020), s. 465-470.

Bronikowska, R., Kryńska, K., Łacina w KorBie. Użyteczność Elektronicznego Korpusu Tekstów Polskich XVII i XVIII Wieku dla filologa neolatynisty, „Polonica” XL (2020), s. 123-135.

Bronikowska, R., Majdak, M., Wieczorek, A., Żółtak, M., The Electronic Dictionary of the 17th- and 18th-century Polish – towards the open formula asset of the historical vocabulary, [w:] Gavriilidou, Z., Mitsiaki, M., Fliatouras, A. (red.) Proceedings of the XIX EURALEX Congress: Lexicography for Inclusion, t. I, Democritus University of Thrace (2020), s. 471-475.

Bronikowska, R., Predykatywne użycia przymiotników w rodzaju żeńskim w dawnej polszczyźnie – semantyczna charakterystyka na podstawie danych korpusowych, „Prace Filologiczne” 76, 2021, s. 49-65. https://doi.org/10.32798/pf.869 .

Bronikowska, R., Unfinished “verbization” process – the development of predicative constructions with an adjective of the feminine gender in the 17th and 18th centuries in the light of corpus data, „Polonica”, 41(1), 2021, s. 97-110. https://doi.org/10.17651/POLON.41.7.

Bronikowska, R., Verbification of feminine forms of adjectives można ‘possible’, niemożna ‘impossible’ and niepodobna ‘impossible’ – corpus-based approach, “Jazykovedný Časopis”, t. 74(1) (2023), s. 9-18. https://www.juls.savba.sk/ediela/jc/2023/1/jc23-01.pdf

Gruszczyński, W., Adamiec, D., Bronikowska, R., Kieraś, W., Modrzejewski, E., Wieczorek, A. i  Woliński, M., The Electronic Corpus of 17th- and 18th-century Polish Texts, „Language Resources and Evaluation” t. 56, z. 1, 2021, s. 309-332. https://link.springer.com/article/10.1007%2Fs10579-021-09549-1

Gruszczyński, W., Adamiec, D., Bronikowska, R., Wieczorek, A., Elektroniczny Korpus Tekstów Polskich z XVII i XVIII w. – problemy teoretyczne i warsztatowe, „Poradnik Językowy” 8 (2020), s. 32–51.

Gruszczyński, W., Adamiec, D., Majdak, M., Barokowa polszczyzna w internecie, czyli Elektroniczny słownik języka polskiego XVII i XVIII wieku, „LingVaria” 1 (2023), s. 113–124. https://doi.org/10.12797/LV.18.2023.35.08

Majdak, M., Keywords in religious literature of 17th and 18th centuries in light of the data from the Electronic Corpus of 17th- and 18th-century Polish Texts, “Jazykovedný Časopis”, t. 74(1) (2023), s. 100-107. https://www.juls.savba.sk/ediela/jc/2023/1/jc23-01.pdf

Majdak, M., Znaczenia wyrazu głos w słownikach i tekstach, [w:] tejże, „Głos. Studium leksykograficzne” w serii Prace Instytutu Języka Polskiego PAN 153, Kraków 2019, s. 50-148.

Ogrodniczuk, M., Gruszczyński, W., Connecting Data for Digital Libraries: The Library, the Dictionary and the Corpus (w:) Jatowt A., Maeda A., Syn S. (red.) Digital Libraries at the Crossroads of Digital Information for the Future. ICADL 2019. Lecture Notes in Computer Science, t. 11853. Springer, Cham (2019), s. 125-138.

Ogrodniczuk, M., Gruszczyński, W., Wikipedia-Based Entity Linking for the Digital Library of Polish and Poland-Related News Pamphlets. [w:] Ishita E., Pang N.L.S., Zhou L. (red.) Digital Libraries at Times of Massive Societal Transition. ICADL 2020. Lecture Notes in Computer Science, t. 12504. Springer, Cham (2020), s. 81-88.

Ogrodniczuk, M., Kryńska, K., Evaluating Machine Translation of Latin Interjections in the Digital Library of Polish and Poland-related News Pamphlets, [w:] Tseng, YH., Katsurai, M., Nguyen, H.N. (red.) From Born-Physical to Born-Virtual: Augmenting Intelligence in Digital Libraries. ICADL 2022. Lecture Notes in Computer Science, vol 13636. Springer, Cham. https://doi.org/10.1007/978-3-031-21756-2_34

Rodek, E., Rzeczowniki żeńskoosobowe zakończone na -yni/ -ini, -ica, -iczka, -aczka, -anka, -arka w XVII i XVIII wieku (na materiale z Elektronicznego Korpusu Tekstów Polskich z XVII i XVIII w.), „Prace Filologiczne” 78 (2023), s. 337-358. https://wuw.pl/data/include/cms//Prace_Filologiczne_2023_78.pdf

Wieczorek, A., Integracja Elektronicznego słownika języka polskiego XVII i XVIII wieku i Elektronicznego Korpusu Tekstów Polskich z XVII i XVIII Wieku okiem użytkownika i redaktora, [w:] Język polski – między tradycją a współczesnością. Księga jubileuszowa z okazji stulecia Towarzystwa Miłośników Języka Polskiego, pod red. E. Horyń, E. Młynarczyk i P. Żmigrodzkiego, Kraków 2021, s. 547–560.

Przydatne strony internetowe

https://korba.edu.pl
https://sxvii.pl
https://www.rcin.org.pl/dlibra/publication/20029
https://cbdu.ijp.pan.pl/
https://polszczyzna17-18.ijp.pan.pl

Ikona z ludzikiem do otwierania panelu kontrolnego WCAG
Aa+
Aa-
Ikona kontrastu
Ikona linku
Ikona skali szarości
Ikona zmiany na czytelne czcionki
Ikona resetu ustawień WCAG