Przejdź do treści

Nazwa projektu: Cyfrowa infrastruktura badawcza dla humanistyki i nauk o sztuce DARIAH-PL (DARIAH.LAB)

Kierownik projektu: mgr inż. Tomasz Parkoła (PCSS)

Kierownik projektu w IJP PAN: dr Krzysztof Nowak

Numer projektu: POIR.04.02.00-00-D006/20

Data rozpoczęcia: 2021-01-01

Data zakończenia: 2023-12-31

Jednostka finansująca: Rozwój Nowoczesnej Infrastruktury Badawczej Sektora Nauki; POIR 2014-2020

Wartość projektu: 129 496 338,73 PLN

Dofinansowanie UE: 99 800 000 PLN

Charakter projektu

Projekt miał charakter infrastrukturalny i był realizowany w skali ogólnokrajowej w ramach konsorcjum DARIAH-PL – krajowej części europejskiej infrastruktury badawczej DARIAH ERIC. Jego celem było tworzenie i rozwijanie trwałych rozwiązań technologicznych oraz organizacyjnych wspierających badania w obszarze humanistyki i nauk o sztuce. Przedsięwzięcie wpisywało się w strategiczne działania na rzecz budowy nowoczesnej infrastruktury badawczej, umożliwiającej długofalowe gromadzenie, przetwarzanie, integrację i udostępnianie zasobów cyfrowych.

Zakres działań

Zakres działań obejmował rozwój i doskonalenie narzędzi cyfrowych przeznaczonych do przetwarzania, analizy i wizualizacji danych humanistycznych, a także integrację rozproszonych zasobów badawczych w spójne środowisko infrastrukturalne. Istotnym elementem prac była standaryzacja danych, w tym opracowywanie modeli ich opisu oraz wdrażanie rozwiązań zapewniających interoperacyjność i długoterminową trwałość zasobów. Projekt wspierał również rozwój metodologii humanistyki cyfrowej poprzez tworzenie rozwiązań umożliwiających prowadzenie zaawansowanych badań z wykorzystaniem narzędzi informatycznych oraz współpracę międzyinstytucjonalną w ramach infrastruktury DARIAH-PL.

Instytut Języka Polskiego PAN aktywnie uczestniczył w realizacji projektu DARIAH.LAB, rozwijając zasoby i narzędzia wspierające badania językoznawcze w środowisku humanistyki cyfrowej.

Rozwój narzędzi cyfrowych

Projektowanie i doskonalenie narzędzi do analizy danych językowych oraz integracji zasobów leksykalnych i korpusowych.

Standaryzacja i interoperacyjność

Opracowywanie standardów opisu danych oraz wdrażanie rozwiązań zapewniających kompatybilność zasobów w ramach infrastruktury DARIAH-PL.

Współpraca naukowa

Udział w pracach konsorcjum, konsultacje metodologiczne oraz współpraca z partnerami instytucjonalnymi przy rozwijaniu infrastruktury badawczej.

Realizacja projektu DARIAH.LAB przyczyniła się do rozwoju infrastruktury badawczej w obszarze humanistyki cyfrowej, w tym do wzmocnienia zasobów językowych oraz narzędzi analitycznych wykorzystywanych w badaniach naukowych.

Korpus Mowy 2011-2020 i lat późniejszych

W ramach projektu DARIAH.LAB w Instytucie Języka Polskiego PAN opracowano obszerny korpus nagrań mowy obejmujący materiały z lat 2011–2020, z założeniem jego dalszej systematycznej rozbudowy.

Korpus zawiera zarówno warstwę dźwiękową, jak i szczegółowe transkrypcje tekstowe, co umożliwia wieloaspektową analizę danych językowych.

    • nagrania mowy z lat 2011–2020

    • transkrypcje tekstowe

    • wyszukiwanie form wyrazowych, lemmatów i tagów gramatycznych

    • platforma internetowa umożliwiająca przeglądanie i analizę danych

Przejdź do Korpusu Mowy:

Utworzenie Korpusu Mowy 2011–2020 umożliwiło uzupełnienie Narodowego Korpusu Języka Polskiego o aktualne dane dokumentujące współczesną polszczyznę mówioną oraz stworzenie trwałej infrastruktury pozwalającej na systematyczne włączanie nowych nagrań w kolejnych latach.

Zintegrowana Baza Leksykalna

Zintegrowana Baza Leksykalna to infrastruktura badawcza służąca opracowaniu, integracji i udostępnianiu naukowych zasobów leksykograficznych — zarówno słowników drukowanych, jak i kartotek rękopiśmiennych.

Zintegrowany workflow przetwarzania danych

    • digitalizacja (OCR, HTR)

    • segmentacja mikrostruktury haseł

    • postkorekta

    • konwersja do XML zgodnego z TEI

    • nadawanie identyfikatorów

    • interoperacyjność i integracja z ekosystemem danych językowych

Zasoby objęte pracami

OCR: Słownik staropolski, Słownik polszczyzny Jana Kochanowskiego, Słownik gwar polskich, Nazwy miejscowe Polski, Słownik staropolskich nazw osobowych, Nazwiska Polaków, słowniki gwar przesiedleńców

segmentacja i konwersja do TEI XML: Słownik gwar polskich, Słownik staropolskich nazw osobowych, Nazwy miejscowe Polski, słowniki gwar przesiedleńców

Kartoteka Słownika XVII i XVIII wieku

Narzędzia

    • Tesseract (OCR, detekcja regionów i linii)

    • PoCoTo (korekta post-OCR, trening modeli)

    • Python (przetwarzanie wsadowe)

    • XSLT (strukturyzacja i transformacje)

    • Oxygen XML Editor (anotacja)

    • OpenRefine (rekoncyliacja danych)

    • ODD, Schematron (walidacja modeli danych)

Wypracowany workflow umożliwia przekształcanie skanów materiałów drukowanych i rękopiśmiennych w ustrukturyzowane zasoby XML zgodne ze standardem TEI, zapewniając interoperacyjność, długoterminową trwałość oraz możliwość zaawansowanej eksploracji danych leksykograficznych.

Nadzór instytucjonalny

dr hab. Maciej Eder

Dyrektor Instytutu Języka Polskiego PAN

Zespół koordynujący projekt

Kierownik projektu w IJP PAN

dr Krzysztof Nowak

Koordynator merytoryczny

dr Dorota Mika

Koordynator finansowy

mgr Szymon Seweryn

Zespoły badawcze i wykonawcy

Przedstawiciele pracowni IJP PAN w projekcie

    • Pracownia Dialektologii Polskiej – dr Emil Popławski

    • Pracownia Etymologii i Geolingwistyki – dr Rafał Szeptyński

    • Pracownia Historii Języka Polskiego XVII i XVIII Wieku – dr Ewa Rodek

    • Pracownia Języka Staropolskiego – dr Magdalena Klapper

    • Pracownia Łaciny Średniowiecznej – mgr Iwona Krawczyk

    • Pracownia Metodologiczna – dr Dorota Mika

    • Pracownia Onomastyki – dr Paweł Swoboda

    • Pracownia Polszczyzny Kresowej – dr Katarzyna Czarnecka

    • Pracownia Wielkiego Słownika Języka Polskiego – dr Ewa Kozioł-Chrzanowska

Wykonawcy

Dorota Adamiec, Renata Bronikowska, Maria Bugajska, Olga Chymkowska, Małgorzata Czachor, Piotr Giedziun, Rafał L. Górski, Wojciech Guz, Jan Idziak, Iwona Krawczyk, Katarzyna Kryńska, Paweł Kupiszewski, Halina Kurowska, Albert Leśniak, Wojciech Łukasik, Agnieszka Maciąg, Magdalena Majdak, Jagoda Marszałek, Jakub Młynarczyk, Jan Niewiarowski, Wiesław Morawski, Marcel Nowakowski, Michaił Osłon, Szymon Pogwizd, Emil Popławski, Ewa Rodek, Aleksandra Rykowska, Katarzyna Sucharska, Paweł Swoboda, Michał Woźniak.

Projekt „Cyfrowa infrastruktura badawcza dla humanistyki i nauk o sztuce DARIAH-PL” (POIR.04.02.00-00-D006/20) był realizowany w latach 2021–2023 w ramach Programu Operacyjnego Inteligentny Rozwój 2014–2020, działanie 4.2 „Rozwój nowoczesnej infrastruktury badawczej sektora nauki”.

Całkowita wartość projektu wyniosła 129 496 338,73 PLN, z czego 99 800 000 PLN stanowiło dofinansowanie ze środków Unii Europejskiej.

Prace rozpoczęte w ramach projektu DARIAH.LAB (2021–2023) są kontynuowane w Instytucie Języka Polskiego PAN w ramach badań statutowych od 2024 roku. Faza pierwsza miała charakter techniczno-infrastrukturalny i obejmowała digitalizację zasobów drukowanych, rozpoznawanie tekstu metodą OCR, wstępną segmentację oraz anotację danych leksykograficznych, a także przygotowanie materiałów treningowych do dalszego rozwoju narzędzi HTR. W jej wyniku powstały ucyfrowione i częściowo ustrukturyzowane zasoby zapisane w formacie XML, stanowiące podstawę dalszych prac. Drugi etap koncentruje się na pogłębionym oczyszczaniu i normalizacji danych, ich standaryzacji oraz udostępnianiu w środowisku zgodnym z aktualnymi standardami humanistyki cyfrowej. Kluczowym elementem jest kodowanie zasobów w standardzie TEI XML, integracja semantyczna oraz publikacja danych w modelu interoperacyjnym (w tym jako Linked Open Data).

Projekt Dariah.lab w Instytucie Języka Polskiego PAN

DARIAH-PL (Digital Research Infrastructure for the Arts and Humanities) – największe konsorcjum humanistyczne w Polsce, uzyskało dofinansowanie projektu „Cyfrowa infrastruktura badawcza dla humanistyki i nauk o sztuce DARIAH-PL”

 

Celem projektu DARIAH-PL jest utworzenie krajowej inteligentnej cyfrowej infrastruktury badawczej dla humanistyki i nauk o sztuce. Infrastruktura służyć będzie pozyskiwaniu, przechowywaniu i integracji danych badawczych oraz przetwarzaniu, wizualizacji i udostępnianiu zasobów cyfrowych.

Postęp prac

 IJP PAN dostarcza opisu danych lingwistycznych na potrzeby tworzenia modułów infrastruktury oraz odkrywania powiązań między danymi. Wspólnie z IPI PAN prowadzimy prace nad uzupełnieniem danych korpusowych współczesnej polszczyzny. Razem budujemy Korpus Dekady 2011-2020 oraz lat następnych. 

organizacja pracy W dariah.lab

LABORATORIUM ŹRÓDEŁ

Laboratorium wyposażone jest w urządzenia do pozyskiwania wysokiej jakości cyfrowych reprezentacji obiektów fizycznych, krajobrazów, danych archeologicznych oraz obiektów dziedzictwa materialnego.

LABORATORIUM ZAUTOMATYZOWANEGO WZBOGACANIA

Laboratorium oferuje usługi przetwarzania zgromadzonych materiałów źródłowych w celu pozyskania reprezentacji umożliwiającej automatyczną analizę oraz uzupełnienia metadanych.

LABORATORIUM NADZOROWANEGO SEMANTYCZNIE ODKRYWANIA

Laboratorium oferuje mechanizmy konsolidacji danych pozyskanych w Laboratorium źródeł oraz metadanych pozyskanych w Laboratorium zautomatyzowanego wzbogacania, wykorzystujące metody normalizacji, standaryzacji i semantycznego ujednolicania.

LABORATORIUM INTELIGENTNEJ ANALIZY I INTERPRETACJI

Laboratorium wyposażone jest w narzędzia umożliwiające dalsze przetwarzanie semantycznie powiązanych zasobów informacyjnych w zakresie wielokryterialnej analizy danych, ich szczegółowej interpretacji oraz bieżącej interakcji z danymi.

LABORATORIUM ZAAWANSOWANEJ WIZUALIZACJI

Dane źródłowe, ich metadane, informacje o ich semantycznym powiązaniu oraz wyniki analiz i interpretacji wymagają stosownych mechanizmów wizualizacji. Temu celowi służy infrastruktura i usługi bazujące na zaawansowanych systemach wizualizacyjnych oferowane w ramach laboratorium.

Kontakt

 

dr Krzysztof Nowak

e-mail: krzysztof.nowak@ijppan.pl

 

dr Dorota Mika

e-mail: dorota.mika@ijppan.pl

 

Instytut Języka Polskiego Polskiej Akademii Nauk

Adres:

al. Mickiewicza 31
31-120 Kraków

 

E-mail: ijp@ijppan.pl

Telefon: +48 (12) 632-56-92

Faks: +48 (12) 632-92-41