DARIAH.lab to ogólnopolski projekt infrastrukturalny realizowany w ramach konsorcjum DARIAH-PL w latach 2021–2023. Jego celem było rozwijanie i integracja narzędzi, usług oraz zasobów cyfrowych wspierających badania w humanistyce i naukach o sztuce.
PODSTAWOWE INFORMACJE O PROJEKCIE
Nazwa projektu: Cyfrowa infrastruktura badawcza dla humanistyki i nauk o sztuce DARIAH-PL (DARIAH.LAB)
Kierownik projektu: mgr inż. Tomasz Parkoła (PCSS)
Kierownik projektu w IJP PAN: dr Krzysztof Nowak
Numer projektu: POIR.04.02.00-00-D006/20
Data rozpoczęcia: 2021-01-01
Data zakończenia: 2023-12-31
Jednostka finansująca: Rozwój Nowoczesnej Infrastruktury Badawczej Sektora Nauki; POIR 2014-2020
Wartość projektu: 129 496 338,73 PLN
Dofinansowanie UE: 99 800 000 PLN
CEL I ZAKRES PROJEKTU
Charakter projektu
Projekt miał charakter infrastrukturalny i był realizowany w skali ogólnokrajowej w ramach konsorcjum DARIAH-PL – krajowej części europejskiej infrastruktury badawczej DARIAH ERIC. Jego celem było tworzenie i rozwijanie trwałych rozwiązań technologicznych oraz organizacyjnych wspierających badania w obszarze humanistyki i nauk o sztuce. Przedsięwzięcie wpisywało się w strategiczne działania na rzecz budowy nowoczesnej infrastruktury badawczej, umożliwiającej długofalowe gromadzenie, przetwarzanie, integrację i udostępnianie zasobów cyfrowych.
Zakres działań
Zakres działań obejmował rozwój i doskonalenie narzędzi cyfrowych przeznaczonych do przetwarzania, analizy i wizualizacji danych humanistycznych, a także integrację rozproszonych zasobów badawczych w spójne środowisko infrastrukturalne. Istotnym elementem prac była standaryzacja danych, w tym opracowywanie modeli ich opisu oraz wdrażanie rozwiązań zapewniających interoperacyjność i długoterminową trwałość zasobów. Projekt wspierał również rozwój metodologii humanistyki cyfrowej poprzez tworzenie rozwiązań umożliwiających prowadzenie zaawansowanych badań z wykorzystaniem narzędzi informatycznych oraz współpracę międzyinstytucjonalną w ramach infrastruktury DARIAH-PL.
UDZIAŁ IJP PAN W PROJEKCIE DARIAH.LAB
Instytut Języka Polskiego PAN aktywnie uczestniczył w realizacji projektu DARIAH.LAB, rozwijając zasoby i narzędzia wspierające badania językoznawcze w środowisku humanistyki cyfrowej.
Rozwój narzędzi cyfrowych
Projektowanie i doskonalenie narzędzi do analizy danych językowych oraz integracji zasobów leksykalnych i korpusowych.
Standaryzacja i interoperacyjność
Opracowywanie standardów opisu danych oraz wdrażanie rozwiązań zapewniających kompatybilność zasobów w ramach infrastruktury DARIAH-PL.
Współpraca naukowa
Udział w pracach konsorcjum, konsultacje metodologiczne oraz współpraca z partnerami instytucjonalnymi przy rozwijaniu infrastruktury badawczej.
REZULTATY PRAC IJP PAN W RAMACH DARIAH.LAB
Realizacja projektu DARIAH.LAB przyczyniła się do rozwoju infrastruktury badawczej w obszarze humanistyki cyfrowej, w tym do wzmocnienia zasobów językowych oraz narzędzi analitycznych wykorzystywanych w badaniach naukowych.
Korpus Mowy 2011-2020 i lat późniejszych
W ramach projektu DARIAH.LAB w Instytucie Języka Polskiego PAN opracowano obszerny korpus nagrań mowy obejmujący materiały z lat 2011–2020, z założeniem jego dalszej systematycznej rozbudowy.
Korpus zawiera zarówno warstwę dźwiękową, jak i szczegółowe transkrypcje tekstowe, co umożliwia wieloaspektową analizę danych językowych.
- nagrania mowy z lat 2011–2020
- transkrypcje tekstowe
- wyszukiwanie form wyrazowych, lemmatów i tagów gramatycznych
- platforma internetowa umożliwiająca przeglądanie i analizę danych
Przejdź do Korpusu Mowy:
Utworzenie Korpusu Mowy 2011–2020 umożliwiło uzupełnienie Narodowego Korpusu Języka Polskiego o aktualne dane dokumentujące współczesną polszczyznę mówioną oraz stworzenie trwałej infrastruktury pozwalającej na systematyczne włączanie nowych nagrań w kolejnych latach.
Zintegrowana Baza Leksykalna
Zintegrowana Baza Leksykalna to infrastruktura badawcza służąca opracowaniu, integracji i udostępnianiu naukowych zasobów leksykograficznych — zarówno słowników drukowanych, jak i kartotek rękopiśmiennych.
Zintegrowany workflow przetwarzania danych
- digitalizacja (OCR, HTR)
- segmentacja mikrostruktury haseł
- postkorekta
- konwersja do XML zgodnego z TEI
- nadawanie identyfikatorów
- interoperacyjność i integracja z ekosystemem danych językowych
Zasoby objęte pracami
OCR: Słownik staropolski, Słownik polszczyzny Jana Kochanowskiego, Słownik gwar polskich, Nazwy miejscowe Polski, Słownik staropolskich nazw osobowych, Nazwiska Polaków, słowniki gwar przesiedleńców
segmentacja i konwersja do TEI XML: Słownik gwar polskich, Słownik staropolskich nazw osobowych, Nazwy miejscowe Polski, słowniki gwar przesiedleńców
Kartoteka Słownika XVII i XVIII wieku
Narzędzia
- Tesseract (OCR, detekcja regionów i linii)
- PoCoTo (korekta post-OCR, trening modeli)
- Python (przetwarzanie wsadowe)
- XSLT (strukturyzacja i transformacje)
- Oxygen XML Editor (anotacja)
- OpenRefine (rekoncyliacja danych)
- ODD, Schematron (walidacja modeli danych)
Wypracowany workflow umożliwia przekształcanie skanów materiałów drukowanych i rękopiśmiennych w ustrukturyzowane zasoby XML zgodne ze standardem TEI, zapewniając interoperacyjność, długoterminową trwałość oraz możliwość zaawansowanej eksploracji danych leksykograficznych.
ZESPÓŁ PROJEKTU DARIAH.LAB W IJP PAN
Nadzór instytucjonalny
dr hab. Maciej Eder
Dyrektor Instytutu Języka Polskiego PAN
Zespół koordynujący projekt
Kierownik projektu w IJP PAN
dr Krzysztof Nowak
Koordynator merytoryczny
dr Dorota Mika
Koordynator finansowy
mgr Szymon Seweryn
Zespoły badawcze i wykonawcy
Przedstawiciele pracowni IJP PAN w projekcie
- Pracownia Dialektologii Polskiej – dr Emil Popławski
- Pracownia Etymologii i Geolingwistyki – dr Rafał Szeptyński
- Pracownia Historii Języka Polskiego XVII i XVIII Wieku – dr Ewa Rodek
- Pracownia Języka Staropolskiego – dr Magdalena Klapper
- Pracownia Łaciny Średniowiecznej – mgr Iwona Krawczyk
- Pracownia Metodologiczna – dr Dorota Mika
- Pracownia Onomastyki – dr Paweł Swoboda
- Pracownia Polszczyzny Kresowej – dr Katarzyna Czarnecka
- Pracownia Wielkiego Słownika Języka Polskiego – dr Ewa Kozioł-Chrzanowska
Wykonawcy
Dorota Adamiec, Renata Bronikowska, Maria Bugajska, Olga Chymkowska, Małgorzata Czachor, Piotr Giedziun, Rafał L. Górski, Wojciech Guz, Jan Idziak, Iwona Krawczyk, Katarzyna Kryńska, Paweł Kupiszewski, Halina Kurowska, Albert Leśniak, Wojciech Łukasik, Agnieszka Maciąg, Magdalena Majdak, Jagoda Marszałek, Jakub Młynarczyk, Jan Niewiarowski, Wiesław Morawski, Marcel Nowakowski, Michaił Osłon, Szymon Pogwizd, Emil Popławski, Ewa Rodek, Aleksandra Rykowska, Katarzyna Sucharska, Paweł Swoboda, Michał Woźniak.
FINANSOWANIE I REALIZACJA PROJEKTU
Projekt „Cyfrowa infrastruktura badawcza dla humanistyki i nauk o sztuce DARIAH-PL” (POIR.04.02.00-00-D006/20) był realizowany w latach 2021–2023 w ramach Programu Operacyjnego Inteligentny Rozwój 2014–2020, działanie 4.2 „Rozwój nowoczesnej infrastruktury badawczej sektora nauki”.
Całkowita wartość projektu wyniosła 129 496 338,73 PLN, z czego 99 800 000 PLN stanowiło dofinansowanie ze środków Unii Europejskiej.
PRACE Z WYKORZYSTANIEM INFRASTRUKTURY DARIAH.LAB W IJP PAN
Prace rozpoczęte w ramach projektu DARIAH.LAB (2021–2023) są kontynuowane w Instytucie Języka Polskiego PAN w ramach badań statutowych od 2024 roku. Faza pierwsza miała charakter techniczno-infrastrukturalny i obejmowała digitalizację zasobów drukowanych, rozpoznawanie tekstu metodą OCR, wstępną segmentację oraz anotację danych leksykograficznych, a także przygotowanie materiałów treningowych do dalszego rozwoju narzędzi HTR. W jej wyniku powstały ucyfrowione i częściowo ustrukturyzowane zasoby zapisane w formacie XML, stanowiące podstawę dalszych prac. Drugi etap koncentruje się na pogłębionym oczyszczaniu i normalizacji danych, ich standaryzacji oraz udostępnianiu w środowisku zgodnym z aktualnymi standardami humanistyki cyfrowej. Kluczowym elementem jest kodowanie zasobów w standardzie TEI XML, integracja semantyczna oraz publikacja danych w modelu interoperacyjnym (w tym jako Linked Open Data).



Projekt Dariah.lab w Instytucie Języka Polskiego PAN
DARIAH-PL (Digital Research Infrastructure for the Arts and Humanities) – największe konsorcjum humanistyczne w Polsce, uzyskało dofinansowanie projektu „Cyfrowa infrastruktura badawcza dla humanistyki i nauk o sztuce DARIAH-PL”
Celem projektu DARIAH-PL jest utworzenie krajowej inteligentnej cyfrowej infrastruktury badawczej dla humanistyki i nauk o sztuce. Infrastruktura służyć będzie pozyskiwaniu, przechowywaniu i integracji danych badawczych oraz przetwarzaniu, wizualizacji i udostępnianiu zasobów cyfrowych.
Postęp prac
IJP PAN dostarcza opisu danych lingwistycznych na potrzeby tworzenia modułów infrastruktury oraz odkrywania powiązań między danymi. Wspólnie z IPI PAN prowadzimy prace nad uzupełnieniem danych korpusowych współczesnej polszczyzny. Razem budujemy Korpus Dekady 2011-2020 oraz lat następnych.
organizacja pracy W dariah.lab
LABORATORIUM ŹRÓDEŁ
Laboratorium wyposażone jest w urządzenia do pozyskiwania wysokiej jakości cyfrowych reprezentacji obiektów fizycznych, krajobrazów, danych archeologicznych oraz obiektów dziedzictwa materialnego.
LABORATORIUM ZAUTOMATYZOWANEGO WZBOGACANIA
Laboratorium oferuje usługi przetwarzania zgromadzonych materiałów źródłowych w celu pozyskania reprezentacji umożliwiającej automatyczną analizę oraz uzupełnienia metadanych.
LABORATORIUM NADZOROWANEGO SEMANTYCZNIE ODKRYWANIA
Laboratorium oferuje mechanizmy konsolidacji danych pozyskanych w Laboratorium źródeł oraz metadanych pozyskanych w Laboratorium zautomatyzowanego wzbogacania, wykorzystujące metody normalizacji, standaryzacji i semantycznego ujednolicania.
LABORATORIUM INTELIGENTNEJ ANALIZY I INTERPRETACJI
Laboratorium wyposażone jest w narzędzia umożliwiające dalsze przetwarzanie semantycznie powiązanych zasobów informacyjnych w zakresie wielokryterialnej analizy danych, ich szczegółowej interpretacji oraz bieżącej interakcji z danymi.
LABORATORIUM ZAAWANSOWANEJ WIZUALIZACJI
Dane źródłowe, ich metadane, informacje o ich semantycznym powiązaniu oraz wyniki analiz i interpretacji wymagają stosownych mechanizmów wizualizacji. Temu celowi służy infrastruktura i usługi bazujące na zaawansowanych systemach wizualizacyjnych oferowane w ramach laboratorium.
Kontakt
dr Krzysztof Nowak
e-mail: krzysztof.nowak@ijppan.pl
dr Dorota Mika
e-mail: dorota.mika@ijppan.pl
Instytut Języka Polskiego Polskiej Akademii Nauk
Adres:
al. Mickiewicza 31
31-120 Kraków
E-mail: ijp@ijppan.pl
Telefon: +48 (12) 632-56-92
Faks: +48 (12) 632-92-41


