WIELKOSKALOWA ANALIZA TEKSTU I METODOLOGICZNE PODSTAWY STYLISTYKI KOMPUTEROWEJ
Kierownik: prof. dr hab. Maciej Eder
Numer projektu: 2017/26/E/HS2/01019
Data rozpoczęcia: 2018-05-08
Data zakończenia: 2024-05-07
Jednostka finansująca: NCN – SONATA BIS 7
Opis projektu
W naukach społecznych, naukach przyrodniczych, a nade wszystko w humanistyce jesteśmy świadkami zjawiska określanego mianem „przełom cyfrowy” (Digital Turn), a przetwarzanie wielkich zbiorów danych (tzw. Big Data) stało się obecnie jednym z najwyżej rozwijających się obszarów informatyki, a także wielu innych dyscyplin – w tym humanistyki – które używają technologii informatycznych. „Przełom cyfrowy” oznacza dostęp do danych, których ilość wymyka się liczbom i wyobraźni, ale zarazem stwarza wyzwania, które również są nietrywialne. Należą do nich m.in. przeszukiwanie wielkoskalowe, przetwarzanie języka naturalnego, analiza danych, klasyfikacja, wykrywanie plagiatów i wiele innych. Ujmując rzecz w pewnym uproszczeniu: po dziesięcioleciach poszukiwań danych tekstowych, dziś ludzkość stoi przed następnym wielkim wyzwaniem – wykorzystania tych danych. Projekt, choć dotyczy stylistyki komputerowej tekstów literackich, stanowi niewielki, lecz znaczący wkład w rozwiązanie owego wielkiego wyzwania: jeden z głównych celów projektu zakłada stworzenie, przetestowanie i zastosowanie innowacyjnej metody porównywania tekstów, dzięki której będzie możliwe odnajdywanie ukrytych podobieństw stylistycznych i niewidocznych gołym okiem zależności w dużych korpusach tekstowych. Wypracowana metoda stylometryczna pozwoli automatycznie rozróżniać płeć autora, znajdować np. pierwszoosobową narrację (czy inne cechy gatunkowe) w wielkich zbiorach danych, rozpoznawać trendy chronologiczne itd. Poza tym, pragniemy wypracować nowatorską metodę przedstawiania relacji tekstowych w formie graficznej: o ile przedstawienie na wykresie kilkudziesięciu próbek jednocześnie nie stanowi dziś problemu, o tyle zobrazowanie kilku czy kilkudziesięciu tysięcy tekstów staje się zadaniem niebanalnym.