/  Język mieszkańców Spisza. Korpus tekstów i nagrań gwarowych

Język mieszkańców Spisza. Korpus tekstów i nagrań gwarowych

Kierownik: dr hab. Helena Grochola-Szczepanek, prof. IJP PAN
Wykonawcy: dr hab. Rafał L. Górski, prof. IJP PAN, mgr Beata Heller, mgr Magdalena Hojniak, mgr Marta Jasiczek, mgr Ilona Kulak, mgr Mariola Milaniak, mgr Monika Milaniak, mgr Krystian Pilch, mgr Szymon Pogwizd, mgr Barbara Pukalska, prof. Ruprecht von Waldenfels, dr Michał Woźniak

Numer projektu: 1bH 15 0166 83
Data rozpoczęcia: 23.09.2015
Data zakończenia: 22.03.2019
Jednostka finansująca: MNiSW w ramach NPRH

KONTEKST PROJEKTU

W Instytucie Języka Polskiego PAN w Krakowie powstaje pierwszy korpus języka mówionego mieszkańców wsi w Polsce. Opracowanie regionalnej odmiany języka w formie elektronicznej bazy jest pionierskim przedsięwzięciem w polskiej humanistyce oraz jednym z pierwszych — w całej słowiańszczyźnie.
Projekt ma na celu zbudowanie bazy tekstów i nagrań z regionu Spisza oraz opracowanie narzędzi do dokonywania wysublimowanych operacji na tym korpusie (wyszukiwanie, filtrowanie, tworzenie zestawień statystycznych itp.).
Projekt ma charakter heterogeniczny, jego celem jest unowocześnienie metod badań dialektologicznych oraz włączanie ich w nurt językoznawstwa korpusowego. Oryginalną mowę mieszkańców wsi będzie można obserwować nie tylko w zapisie, ale także słyszeć jej brzmienie. Wyszukiwarka pozwoli na przeszukiwanie tekstów według rozlicznych kryteriów, m.in.: lematów, postaci tekstowej, określonych form gramatycznych, metadanych (miejscowość, wiek, płeć, zawód, pobyt poza wsią informatora) oraz korespondującego fragmentu nagrania. Wyszukiwarka będzie obsługiwała także bardziej zaawansowane techniki, jak np. łączenie kryteriów, wyszukiwanie z pomocą wyrażeń regularnych, negację elementów zapytania.

OPIS PROJEKTU

Praca nad tworzeniem korpusu języka mówionego jest wieloetapowa i obejmuje różnorodne obszary działań, takie jak:

  1. Badania terenowe na polskim Spiszu;
  2. Transkrypcja materiałów w postaci zdigitalizowanej;
  3. Anotacja otrzymanych tekstów (lematyzacja i znakowanie morfosyntaktyczne);
  4. Opracowanie słownictwa typowo gwarowego, dyferencyjnego;
  5. Opracowanie bazy danych oraz interfejsu graficznego.

Podstawą materiałową bazy są aktualnie prowadzone wywiady z mieszkańcami wsi spiskich. Do transkrypcji tekstów w postaci cyfrowej wykorzystujemy narzędzie ELAN, pozwalające na łączenie warstwy tekstowej i dźwiękowej. Następnie materiały są rozszerzane o warstwę anotacji językoznawczej. Wypracowywane są rozwiązania metodologiczne dla kodu niestandardowego, m.in. zasady transkrypcji, klasyfikacja leksemów, wzorce odmiany gwarowej.
Szczególnie pracochłonnym etapem są transkrypcje nagrań oraz znakowanie ręczne wyrazów charakterystycznych tylko dla gwary. Wiele pracy zajmuje także dostosowanie istniejących narzędzi informatycznych (stworzonych dla odmiany ogólnej języka polskiego) do systemu gramatycznego gwary spiskiej.
Wypracowanie metodologii pracy z materiałami gwarowymi oraz rozbudowanie i przetestowanie narzędzi informatycznych, które do tej pory miały zastosowanie tylko w zakresie polszczyzny ogólnej, będzie bardzo ważnym krokiem w rozwoju dialektologicznych prac korpusowych w Polsce.

WYKAZ PUBLIKACJI ZWIĄZANYCH Z PROJEKTEM

  1. Grochola-Szczepanek H., Woźniak M., Transkrypcja języka mieszkańców wsi w aplikacji ELAN w Korpusie Spiskim, 2018 (w druku).
  2. Kulak I., Korpus spiskich tekstów i nagrań gwarowych. Założenia projektowanej bazy i możliwości jej wykorzystania jako źródła badań interdyscyplinarnych, Prace Etnograficzne, 2018, t. 46/1, s. 30-49.
  3. Grochola-Szczepanek H., Nowe badania języka mieszkańców wsi regionu polskiego Spisza, [w:] Język w regionie – region w języku 2, Poznańskie Studia Polonistyczne 47, Poznań 2017, s.103-119.
  4. Waldenfels R. von, Woźniak M., SpoCo – a simple and adaptable web interface for dialect corpora, Journal for Language Technology and Computational Linguistics, 2016, vol. 31, pp. 155-170.
  5. Grochola-Szczepanek H., Korpusowe badania języka mieszkańców Spisza w Polsce – cele i zadania, Jezikoslovni zapiski, Inštitut za slovenski jazik Frana Ramovša ZRC SAZU, 2016, s. 185-196.

PRZYDATNE STRONY INTERNETOWE

Strona projektu: https://spisz.ijp.pan.pl/ z dostępną wersją demonstracyjną korpusu przez logowanie. Osoby zainteresowane prosimy o kontakt spisz@ijp.pan.pl

Facebook: https://www.facebook.com/ijp.krakow.pan/

loading