Infrastruktura dla zasobów leksykograficznych

infrastruktura badawcza

Infrastruktura dla zasobów leksykograficznych

W ramach projektu DARIAH.LAB w Instytucie Języka Polskiego PAN powstała infrastruktura badawcza do opracowywania, integracji i udostępniania zasobów leksykograficznych. System łączy metody pracy leksykografów z narzędziami cyfrowymi, umożliwiając pełny cykl życia danych — od pozyskania i przetworzenia do wersji cyfrowej po opracowanie i integrację z zewnętrznymi bazami danych.

O projekcie

Informacje o projekcie

Nazwa projektu:

Cyfrowa infrastruktura badawcza dla humanistyki i nauk o sztuce DARIAH-PL (DARIAH.LAB)

Nr projektu:

POIR.04.02.00-00-D006/20

Kierownik projektu:

mgr inż. Parkoła Tomasz (IJP: dr Krzysztof Nowak)

Finansowanie:

Projekt realizowany w ramach Działania 4.2 Programu Operacyjnego Inteligentny Rozwój 2014–2020

Okres realizacji:

2021-2023

CEL i założenia

Cel projektu

Zasoby leksykograficzne języka polskiego — słowniki, kartoteki materiałowe i korpusy — są obecnie rozproszone zarówno w obrębie poszczególnych instytucji, jak i pomiędzy nimi, co znacząco utrudnia ich łączne przeszukiwanie oraz wykorzystanie w badaniach nad rozwojem i zróżnicowaniem języka. W odpowiedzi na te wyzwania w ramach projektu DARIAH.LAB opracowano infrastrukturę umożliwiającą przetwarzanie, integrację i udostępnianie różnorodnych danych leksykograficznych w ustrukturyzowanej formie. Projekt wpisuje się w nurt współczesnej humanistyki cyfrowej, rozwijając podejścia oparte na pracy z danymi. Celem przedsięwzięcia było stworzenie środowiska, które wspiera zarówno zachowanie i upowszechnienie dziedzictwa polskiej leksykografii, jak i rozwój nowych metod badawczych, opartych na integracji danych, ich semantycznym powiązaniu oraz wykorzystaniu narzędzi automatycznego przetwarzania języka.

Infrastruktura

Infrastruktura badawcza

Infrastruktura obejmuje zestaw narzędzi do przetwarzania tekstu, standardy, modele danych i ontologie, które wspierają opracowanie oraz integrację zasobów leksykograficznych. Tworzy spójne środowisko umożliwiające gromadzenie, przetwarzanie, strukturyzację i udostępnianie danych w ujednoliconej formie.

Pozyskiwanie źródeł

Gromadzenie i przygotowanie materiałów źródłowych.

Rozpoznawanie tekstu

Rozpoznawanie tekstu ze skanów z przy użyciu technologii OCR i HTR.

Konwersja
danych

Konwersja danych do ustrukturyzowanego formatu TEI XML.

Anotacja i strukturyzacja

Oznaczanie i porządkowanie danych, anotacja tekstu.

Prezentacja
danych

Prezentacja i udostępnianie danych w środowisku cyfrowym.

Zastosowane rozwiązania umożliwiają realizację kolejnych etapów pracy z danymi leksykograficznymi, zapewniając ich spójność, interoperacyjność oraz gotowość do dalszego wykorzystania w badaniach.

Baza Leksyki Polskiej PoliLex: środowisko pracy z danymi leksykograficznymi

Baza Leksyki Polskiej została przygotowana jako środowisko dla danych leksykograficznych, umożliwiające ich gromadzenie, opracowywanie i udostępnianie. Jej struktura i funkcjonalności rozwijano oraz dostosowywano w toku pracy z materiałami Instytutu Języka Polskiego PAN, co pozwoliło na wypracowanie rozwiązań odpowiadających specyfice tego typu zasobów. System wspiera spójne zarządzanie danymi oraz ich wykorzystanie w badaniach językoznawczych. Opracowane rozwiązania umożliwiają digitalizację, segmentację i anotację danych leksykograficznych, ich integrację w postaci ustrukturyzowanych plików XML zgodnych ze standardem TEI, a także udostępnianie w formie przeszukiwalnej i semantycznie powiązanej.

Standardy danych

W procesie opracowania danych leksykograficznych wykorzystywane są ustandaryzowane formaty i języki opisu, które zapewniają ich spójność, interoperacyjność oraz możliwość integracji w środowisku cyfrowym. Zastosowane standardy umożliwiają strukturyzację danych, ich walidację oraz zachowanie jednolitego sposobu zapisu, co stanowi podstawę dalszego przetwarzania, analizy i udostępniania zasobów.

ODD

narzędzie TEI do definiowania i dokumentowania modeli danych

Python

język programowania wykorzystywany do automatyzacji i przetwarzania danych

Schematron

język walidacji XML do definiowania reguł i kontroli poprawności struktury danych

SPARQL

standard języka zapytań umożliwiający wyszukiwanie i analizę danych zapisanych w modelu semantycznym (RDF)

TEI XML

standard zapisu danych tekstowych i leksykograficznych

WordPress

system zarządzania treścią wykorzystywany do tworzenia i utrzymania serwisu internetowego projektu

XSLT

język transformacji XML wykorzystywany do strukturyzacji i przetwarzania danych

Narzędzia wykorzystywane w procesie przetwarzania danych

W kolejnych etapach opracowania danych leksykograficznych wykorzystywany jest zestaw wyspecjalizowanych narzędzi wspierających ich przetwarzanie — od rozpoznawania tekstu, przez jego strukturyzację i anotację, po przygotowanie do publikacji i integracji.

Label Studio

środowisko do anotacji danych i przygotowania zbiorów uczących dla modeli językowych

OpenRefine

czyszczenie i normalizacja danych

Oxygen XML Developer

edytor XML do anotacji i pracy z danymi TEI

PoCoTo

korekta wyników OCR i przygotowanie danych treningowych

PoCoWeb

przeglądarkowa wersja narzędzia do korekty OCR

Prodigy

środowisko do anotacji danych i przygotowania zbiorów uczących dla modeli językowych

Tesseract

rozpoznawanie tekstu, detekcja struktury dokumentu

TEI Publisher

środowisko do publikacji i prezentacji danych w standardzie TEI, umożliwiające ich przeszukiwanie i udostępnianie w formie aplikacji webowej.

WordPress

system zarządzania treścią wykorzystywany do tworzenia i utrzymania serwisu internetowego projektu

Modele danych i ontologie

Modele danych i ontologie definiują schematy oraz relacje semantyczne między elementami zasobów leksykograficznych, umożliwiając ich spójne opisywanie, integrację i semantyczne przetwarzanie w środowisku cyfrowym.

lemon

model reprezentacji danych leksykalnych w środowisku Linked Data

LexInfo

ontologia opisująca kategorie i właściwości leksykalne w modelach danych językowych

OntoLex

model opisu zasobów leksykalnych w ramach Linked Data

model_turtle

reprezentacja modelu danych w formacie Turtle wykorzystywanym w Linked Data

REALIZACJA

Przebieg prac i rozwój infrastruktury

Prace nad opracowaniem zasobów leksykograficznych realizowane były etapowo — początkowo w ramach projektu DARIAH.LAB, a następnie w oparciu o wypracowaną infrastrukturę, rozwijaną w dalszych działaniach badawczych.

FAZA I: Projekt DARIAH.LAB (2021–2023)

Pierwszy etap projektu koncentrował się na przygotowaniu zaplecza technicznego oraz wypracowaniu procesu przetwarzania danych leksykograficznych. Kluczowe działania obejmowały rozwój metod rozpoznawania pisma odręcznego i druku oraz opis struktury danych, co pozwoliło na przygotowanie ustrukturyzowanych zasobów wykorzystywanych w procesie tworzenia i testowania infrastruktury. Równolegle opracowano metody segmentacji i anotacji danych, umożliwiające wyodrębnienie elementów struktury artykułów hasłowych oraz ich dalsze przetwarzanie. Rezultatem fazy I były wstępnie ucyfrowione i częściowo ustrukturyzowane zasoby zapisane w formacie XML, które stanowiły podstawę doskonalenia narzędzi automatycznego rozpoznawania i analizy tekstu.

FAZA II: Badania statutowe IJP PAN (od 2024-)

Drugi etap koncentruje się na pogłębionym opracowaniu danych oraz ich wykorzystaniu w środowisku cyfrowym. Prace obejmują porządkowanie i ujednolicanie zapisów, a także doprecyzowanie struktury i opisu danych. Istotnym kierunkiem działań jest również udostępnianie zasobów w formie umożliwiającej ich wygodne przeszukiwanie i analizę, w tym zestawianie danych z materiałami źródłowymi. Równolegle prowadzone są działania związane z ich dalszą formalizacją i integracją, które pozwalają na łączenie danych z innymi zasobami.

ZESPÓŁ

Zespół projektowy

Dziękujemy wszystkim osobom zaangażowanym w prowadzone prace.

Krzysztof Nowak (kierownik IJP PAN)

Dorota Mika (koordynator IJP PAN)

Wojciech Łukasik

Ewa Rodek

Maria Bugajska

Iwona Krawczyk

Małgorzata Czachor

Michaił Osłon

Magdalena Majdak

Dorota Adamiec

Renata Bronikowska

Katarzyna Kryńska

Paweł Kupiszewski

Olga Chymkowska

Wiesław Morawski

Halina Hurowska

Jan Idziak

Piotr Giedziun

Albert Leśniak

Bartłomiej Borek

infrastruktura badawcza