ELEKTRONICZNY KORPUS TEKSTÓW POLSKICH Z XVII I XVIII W. (DO 1772)

Kierownik: Włodzimierz Gruszczyński

Koordynatorka: Renata Bronikowska

Wykonawcy
Prace koncepcyjne: Dorota Adamiec, Anna Andrzejczuk, Renata Bronikowska, Włodzimierz Gruszczyński, Witold Kieraś, Małgorzata B. Majewska, Maciej Ogrodniczuk, Adam Przepiórkowski, Marcin Woliński

Stworzenie lub dostosowanie narzędzi informatycznych do obsługi tekstów dawnych:
Zbigniew Gawłowicz, Włodzimierz Gruszczyński, Witold Kieraś, Łukasz Kobyliński, Dorota Komosińska, Jakub Kostrzewa, Katarzyna Krasnowska-Kieraś, Monika Kresa, Michał Lenart, Emanuel Modrzejewski, Maciej Ogrodniczuk, Katarzyna Streich, Jan Szejko, Michał Wasiluk, Marcin Woliński, Aleksander Zabłocki, Bartosz Zaborowski, Mateusz Żółtak

Przepisywanie, znakowanie i korekta tekstów:
Anna Alfut, Agnieszka Adamiec, Dorota Adamiec, Anna Arendt, Alicja Bielak, Laura Bielak, Renata Bronikowska, Katarzyna Bury, Maciej Bury, Jolanta Czajkowska, Julia Domitrak, Mirella Gliwińska, Zuzanna Głuszczak, Jolanta Gomółka, Izabela Jagielska, Klaudia Jovanovska, Ewa Karasińska-Gajo, Magdalena Kołodziejczyk, Wojciech Kordyzon, Anna Krasowska, Katarzyna Kryńska, Agnieszka Łodzińska, Małgorzata Maciejewska, Magdalena Majdak, Olga Makarova, Ewelina Mantorska, Emanuel Modrzejewski, Wiesław Morawski, Małgorzata Pachulska, Aldona Przyborska-Szulc, Paweł Siemieniak, Dawid Siwicki, Paulina Wdowska, Emilia Zdankiewicz, Elżbieta Zemla, Anna Żółtak

Anotacja morfosyntaktyczna:
Dorota Adamiec, Renata Bronikowska, Włodzimierz Gruszczyński, Piotr Janas, Matylda Kozłowska, Dawid Lipiński, Magdalena Majdak, Emanuel Modrzejewski, Wiesław Morawski, Izabela Pawlak, Ewelina Pędzich, Marcin Podlaski, Aldona Przyborska-Szulc, Ewa Rodek, Paulina Rosalska, Aleksandra Wieczorek, Sebastian Żurowski

Sporządzenie listy frekwencyjnej oraz indeksów; udostępnienie korpusu, administrowanie serwerem: Bartłomiej Borek

Prace pomocnicze — opracowanie elektronicznego indeksu haseł z kartoteki słownika e-SXVII, opracowanie listy lematów występujących w korpusie: Mateusz Adamczyk, Ewa Balicka, Dagmara Banasiak, Agata Hącia, Aleksandra Wieczorek

Opracowanie tomów serii wydawniczej „Pisma Scjencji Pełne”: Dorota Adamiec, Alicja Bielak, Renata Bronikowska, Włodzimierz Gruszczyński, Wojciech Kordyzon, Paweł Kupiszewski, Aldona Przyborska-Szulc, Aleksandra Wieczorek

Numer projektu: 0036/NPRH2/H11/81/2012
Data rozpoczęcia: 27.03.2013
Data zakończenia: 26.03.2018
Jednostka finansująca: MNiSW w ramach NPRH

KONTEKST PROJEKTU

Korpus pomyślany jako poszerzenie Narodowego Korpusu Języka Polskiego (NKJP) o teksty dawne jest pierwszym większym (kilkunastomilionowym) korpusem dawnych tekstów polskich, który spełnia wymagania stawiane w dzisiejszej nauce przed takimi zasobami. Korpus ułatwia dostęp do dziedzictwa narodowego epoki baroku, w szczególności ułatwia zapoznanie się z ewolucją języka ojczystego. Stanowi nowe narzędzie badawcze przydatne w różnych dziedzinach humanistyki, np. w językoznawstwie, literaturoznawstwie, kulturoznawstwie, historii, socjologii. Ułatwia on bowiem przeszukiwanie i analizę dawnych polskich tekstów. Korpus stanowi jedno z podstawowych narzędzi i źródeł informacji dla twórców Elektronicznego słownika języka polskiego XVII i XVIII w. (http://sxvii.pl). Na liście wyrazów (leksemów) występujących w korpusie znajduje się ponad 10 tys. jednostek, które nie były poświadczone w kartotece słownika. Oznacza to, że siatka haseł słownika wzrośnie o 10–15 proc. Prócz tego wiele wyrazów wcześniej już poświadczonych występuje w korpusie w kontekstach wskazujących na ich inne, niepoświadczone, a nawet nieznane dotąd znaczenia.

OPIS PROJEKTU

Projekt został przygotowany i zrealizowany przez Pracownię Historii Języka Polskiego XVII i XVIII w. IJP PAN we współpracy z Zespołem Inżynierii Lingwistycznej w IPI PAN. Projekt miał charakter heterogeniczny. Z jednej strony polegał na wyborze reprezentatywnych tekstów z epoki, ich przeniesieniu na nośnik elektroniczny, opracowaniu językowym i edytorskim, a z drugiej — na stworzeniu narzędzi informatycznych służących do gromadzenia, przetwarzania, przeszukiwania i prezentowania fragmentów tekstów zawartych w korpusie lub na modyfikacji narzędzi już istniejących, stworzonych na potrzeby korpusów tekstów współczesnych.
Korpus, udostępniony pod adresem www.korba.edu.pl, liczy 13 453 367 segmentów (w rozumieniu przyjętym w NKJP). Składa się z 718 plików tekstowych, z których każdy zawiera albo pełny tekst z epoki (tzn. tekst napisany w latach 1601–1772), albo duży, samodzielny fragment takiego tekstu. Każdy z plików tekstowych opatrzony jest bogatymi metadanymi obejmującymi szczegółowe dane bibliograficzne, charakterystykę stylistyczno-genologiczną, charakterystykę tematyczną oraz charakterystykę socjolingwistyczną i geolingwistyczną.

Teksty są dostępne w formie transliteracji i transkrypcji. Każdy z nich ma dokładnie oznakowaną strukturę, dzięki czemu wyszukane fragmenty tekstu są lokalizowane w źródle z dokładnością do numeru strony. Specjalnymi znacznikami opatrzone są wszystkie słowa obcojęzyczne.

WYKAZ PUBLIKACJI ZWIĄZANYCH Z PROJEKTEM

Artykuły:

Kieraś W., Komosińska D., Modrzejewski E., Woliński M., Morphosyntactic Annotation of Historical Texts. The Making of the Baroque Corpus of Polish, [w:] Text, Speech, and Dialogue 20th International Conference, TSD 2017, Prague, Czech Republic, August 27–31, 2017, Proceedings (2017), s. 308–316.
Adamiec D., Kształtowanie się słownictwa hydrologicznego w polszczyźnie XVII i XVIII wieku, „Prace Filologiczne” LXXI (2017), s. 13–22.
Bronikowska R., Predykatywne konstrukcje z przymiotnikiem w rodzaju żeńskim w dawnej polszczyźnie — perspektywy badawcze, „Prace Filologiczne” LXXI (2017), s. 33–44.
Majdak M., Słowa ważniejsze niż inne — metoda słów kluczy w badaniu polszczyzny dawnej, „Tekst i dyskurs — text und diskurs” 10 (2017), s. 229–243.
Adamiec D., Bronikowska R., Wybór formy hasłowej jako problem opisu w Elektronicznym słowniku języka polskiego XVII i XVIII wieku (na tle tradycji leksykograficznej), „Prace Filologiczne” LXVIII (2016), s. 13–26.
Bronikowska R., Gruszczyński W., Ogrodniczuk M., Woliński M., The use of electronic historical dictionary data in corpus design, “Studies in Polish Linguistics”, vol. 11 (2016), issue 2, s. 47–56.
Magdalena Majdak, Słowa klucze w materiale historycznym, „Przegląd Humanistyczny” 3 (2016), s. 45–56.
Adamiec D., Kryteria doboru tekstów do „Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.)”, „Prace Filologiczne” LXVII (2015), s. 11–20.
Bronikowska R., Możliwości przeszukiwania korpusu barokowego — cele i założenia, „Prace Filologiczne”, LXVII (2015), s. 45–56.
Gruszczyński W., Adamiec D., Ogrodniczuk M., Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.), „Polonica” XXXIII (2013), s. 311–318.

Seria wydawnicza „Pisma Scjencji Pełne”

Ślad komety w Prognostyku Jana Bohomolca, wybór tekstów, redakcja i opracowanie P. Kupiszewski i A. Przyborska-Szulc, Oficyna Wydawnicza ASPRA–Instytut Języka Polskiego PAN, Warszawa–Kraków 2018, 477 s.
Delicje ziemi włoskiej, w opracowaniu W. Kordyzona i A. Wieczorek, Oficyna Wydawnicza ASPRA–Instytut Języka Polskiego PAN, Warszawa–Kraków 2017, 348 s.
Adamiec D., Nowy Świat w polskich opisach geograficznych z XVII i XVIII wieku, Oficyna Wydawnicza ASPRA–Instytut Języka Polskiego PAN, Warszawa 2016, 316 s.
Józef Epifani Minasowicz, Pochwała Niczego przypisana Nikomu. Pochwała Czegoś przypisana Komuś, opracowanie: A. Bielak, R. Bronikowska, Oficyna Wydawnicza ASPRA–Instytut Języka Polskiego PAN, Warszawa 2015, 224 s.

PRZYDATNE STRONY INTERNETOWE

http://korba.edu.pl
https://sxvii.pl