Elementor #2148 – DARIAH.lab w IJP PAN

Infrastruktura DARIAH.LAB

DARIAH.LAB jest infrastrukturą badawczą przeznaczoną dla humanistyki i nauk o sztuce, umożliwiającą pozyskiwanie, przechowywanie oraz integrację danych badawczych.

Sieć rozproszonych laboratoriów tworzących DARIAH.LAB wyposażona jest w narzędzia i zasoby umożliwiające prowadzenie interdyscyplinarnych badań z wykorzystaniem różnorodnych materiałów źródłowych, takich jak teksty, nagrania, dane przestrzenne czy materiały audiowizualne.

Infrastruktura zapewnia środowisko badawcze pozwalające na systematyczne gromadzenie i opracowywanie danych, ich standaryzację oraz integrację z innymi zasobami naukowymi. Dzięki temu możliwe jest prowadzenie zaawansowanych analiz oraz rozwijanie nowych metod badawczych wykorzystujących technologie cyfrowe.

Rozwiązania rozwijane w ramach DARIAH.LAB wspierają również współpracę między instytucjami naukowymi, umożliwiając wspólne wykorzystanie narzędzi, zasobów oraz wyników badań w ramach infrastruktury DARIAH-PL.

Elementy infrastruktury

zasoby sprzętowe

Urządzenia badawcze służące do pozyskiwania i przetwarzania danych cyfrowych.

narzędzia i usługi

Oprogramowanie do przetwarzania i analizy danych, umożliwiające m.in. automatyczne pozyskiwanie i interpretację treści materiałów źródłowych.

zbiory danych i korpusy

Zbiory danych i korpusy tekstowe wraz z narzędziami umożliwiającymi ich analizę i wykorzystanie w badaniach naukowych.

IJP PAN w projekcie DARIAH.LAB

Instytut Języka Polskiego PAN aktywnie uczestniczył w realizacji projektu DARIAH.LAB, rozwijając zasoby i narzędzia wspierające badania językoznawcze w środowisku humanistyki cyfrowej. Prace prowadzone w Instytucie koncentrowały się na rozwoju infrastruktury danych językowych, standaryzacji zasobów oraz współpracy naukowej w ramach konsorcjum DARIAH-PL.

Rozwój narzędzi cyfrowych

Projektowanie i rozwijanie narzędzi do przetwarzania oraz analizy danych językowych, wspierających pracę z zasobami leksykograficznymi i korpusami językowymi w środowisku humanistyki cyfrowej.

Standardyzacja danych

Opracowywanie modeli opisu danych oraz wdrażanie standardów umożliwiających integrację i interoperacyjność zasobów językowych w ramach infrastruktury DARIAH-PL.

Współpraca naukowa

Udział w pracach konsorcjum DARIAH-PL, konsultacje metodologiczne oraz współpraca z partnerami instytucjonalnymi przy rozwijaniu infrastruktury badawczej dla humanistyki cyfrowej.

Rezultaty prac IJP PAN w projekcie DARIAH.LAB

Instytut Języka Polskiego PAN realizował w projekcie DARIAH.LAB prace związane z rozwojem infrastruktury danych językowych oraz narzędzi wspierających ich przetwarzanie. W ramach projektu powstały zasoby i rozwiązania technologiczne dla humanistyki cyfrowej.

Korpus Mowy 2011-2020 i lat późniejszych

Korpus Mowy 2011–2020 powstał w Instytucie Języka Polskiego PAN w ramach projektu DARIAH.LAB jako odpowiedź na potrzebę udokumentowania współczesnej polszczyzny mówionej po roku 2010. Jego celem było zarówno uzupełnienie istniejących zasobów referencyjnych o nowszy materiał foniczny, jak i stworzenie trwałej infrastruktury umożliwiającej systematyczne pozyskiwanie, przetwarzanie i udostępnianie nagrań w kolejnych latach.

Zasób obejmuje nagrania mowy pochodzące z lat 2011–2020 wraz z ich transkrypcjami tekstowymi, metadanymi oraz anotacją gramatyczną. Dzięki temu korpus umożliwia badania nad współczesną polszczyzną mówioną, analizę zmian językowych zachodzących w środowisku cyfrowym oraz rozwój narzędzi przetwarzania mowy i technologii językowych dla języka polskiego.

Infrastruktura: SpoCo

Integralnym elementem Korpusu Mowy 2011–2020 jest rozwijana w IJP PAN infrastruktura wyszukiwawcza SpoCo, dostosowana do pracy z danymi mówionymi. Narzędzie to umożliwia przeszukiwanie transkrypcji powiązanych z warstwą dźwiękową oraz korzystanie z rozbudowanego systemu metadanych opisujących każde nagranie.

SpoCo pozwala m.in. na wyszukiwanie form wyrazowych, lematów i tagów morfosyntaktycznych, formułowanie zapytań w języku CQL, generowanie konkordancji, analizę kolokacji oraz eksport wyników. Istotną funkcją systemu jest także filtrowanie wyników według kanału, kategorii tematycznej, źródła internetowego czy typu materiału. Dzięki temu infrastruktura stanowi trwałe środowisko badawcze wspierające zarówno analizy językoznawcze, jak i dalszy rozwój korpusów mówionych.

Zasoby

Korpus Mowy 2011–2020 obejmuje ponad 1 000 godzin nagrań pochodzących z źródeł internetowych, takich jak podcasty, wywiady i audycje. Materiał dźwiękowy został przekształcony na tekst z wykorzystaniem technologii automatycznego rozpoznawania mowy, a wybrana część zasobu została dodatkowo poddana ręcznej korekcie.

Każde nagranie opisano zestandaryzowanym zestawem metadanych, obejmującym m.in. tytuł, źródło, kategorię tematyczną, datę publikacji, liczbę rozmówców i długość nagrania. Korpus zawiera również warstwę anotacji gramatycznej zgodną z praktyką Narodowego Korpusu Języka Polskiego. Dzięki połączeniu warstwy dźwiękowej, tekstowej i metadanych zasób stanowi nowoczesne narzędzie do badań nad współczesną polszczyzną mówioną oraz materiał referencyjny dla rozwoju technologii mowy.

Infrastruktura danych leksykograficznych

Baza Leksyki Polskiej (PoliLex) to rozwijana w Instytucie Języka Polskiego PAN infrastruktura badawcza, której celem jest digitalizacja, integracja i udostępnianie zasobów polskiej leksykografii. Projekt został zainicjowany w ramach infrastruktury DARIAH.LAB (2021–2023) i jest obecnie kontynuowany oraz rozwijany w ramach badań statutowych Instytutu.

Powstanie PoliLex jest odpowiedzią na potrzeby badawcze zespołów IJP PAN zajmujących się historią języka polskiego, dialektologią, onomastyką i leksykografią. Projekt umożliwia przekształcenie rozproszonych zasobów — słowników, kartotek i korpusów — w ustrukturyzowane dane cyfrowe.

Infrastruktura badawcza

Zintegrowana Baza Leksykalna to rozwijana w IJP PAN infrastruktura badawcza zaprojektowana z myślą o opracowaniu i integracji zasobów leksykograficznych. Projekt stanowi odpowiedź na potrzeby językoznawców pracujących nad słownikami historycznymi, gwarowymi, onomastycznymi i współczesnymi. Celem przedsięwzięcia jest stworzenie środowiska technologicznego umożliwiającego systematyczne przetwarzanie takich danych w ramach nowoczesnej infrastruktury humanistyki cyfrowej.

Rdzeniem rozwiązania jest zintegrowany proces opracowania danych językowych obejmujący kolejne etapy ich przygotowania: cyfryzację materiałów źródłowych, strukturyzację danych leksykograficznych, nadawanie trwałych identyfikatorów oraz publikację w środowisku cyfrowym. Proces ten umożliwia przekształcanie materiałów w ustrukturyzowane dane zapisane w standardzie TEI XML, które mogą być następnie wykorzystywane w badaniach językoznawczych oraz analizach prowadzonych z wykorzystaniem metod humanistyki cyfrowej.

Opracowana infrastruktura została zaprojektowana jako środowisko umożliwiające integrację przetwarzanych danych z innymi bazami, dzięki temu może ona wspierać łączenie różnych typów zasobów — słowników, kartotek i korpusów — w ramach szerszego ekosystemu danych językowych, tworząc podstawę dla nowych metod badań nad historią i zróżnicowaniem języka polskiego.

Proces opracowania danych leksykograficznych

digitalizacja zasobów

Pozyskanie cyfrowych kopii słowników i kartotek oraz rozpoznawanie tekstu metodami OCR i HTR, umożliwiające przejście od skanów do tekstu możliwego do dalszego przetwarzania

strukturyzacja danych

Automatyczne i półautomatyczne wyodrębnianie elementów artykułów hasłowych, takich jak forma hasłowa, definicja, kwalifikatory, cytaty źródłowe i dane bibliograficzne.

kodowanie w standardzie TEI

Konwersja danych do formatu TEI XML, który umożliwia precyzyjne odwzorowanie struktury słowników i zapewnia interoperacyjność z innymi zasobami humanistyki cyfrowej.

integracja i publikacja

Udostępnianie danych w środowisku cyfrowym umożliwiającym przeszukiwanie, analizę oraz łączenie z innymi zasobami językowymi w ramach Linked Open Data.