Przejdź do treści

Infrastruktura dla zintegrowanych zasobów leksykograficznych

Słowniki języka polskiego, kartoteki materiałowe i korpusy językowe tworzone tak w obrębie jednej, jak i wielu instytucji są silnie rozproszone. Sprawia to, że nie sposób wspólnie odpytywać czy generować na ich podstawie wiedzy o rozwoju czy zróżnicowaniu języka. W ramach projektu Dariah.lab powstała infrastruktura dla zasobów leksykograficznych. Projekt zakładał wypracowanie i wdrożenie metod automatycznego i półautomatycznego wiązania zasobów leksykalnych. Dane są udostępniane poprzez stronę WWW oraz REST API.

Zasoby

Słowniki akademickie

Kartoteki materiałowe

Korpusy językowe

Etapy prac

Pozyskiwanie tekstu drukowanego

Tesseract (OCR, automatyczna detekcja regionów, linii i wyrazów); PoCoTo (dodatkowy post-OCR)

Segmentacja i semantyzacja

XSLT (strukturyzacja plików hOCR), ODD (anotacja layoutu), Oxygen (semantyzacja, zgodnie z TEI XML)

Zintegrowane udostępnianie

udostępnianie zasobów w ramach platformy integrated.ijppan.pl i poprzez REST API

Pozyskiwanie pisma odręcznego

algorytm rozpoznawania regionów tekstu

Tworzenie materiałów treningowych

Prodigy (generowanie predykcji), Label Studio (korekta rozpoznanych regionów i predykcji)

Model HTR

Na podstawie materiałów treningowych przygotowane są modele do rozpoznawania pisma odręcznego dla języka polskiego i łaciny

W projekcie powstały

CYFROWE SŁOWNIKI

Środowisko do digitalizacji i anotacji słowników akademickich

HTR

Modele rozpoznawania pisma odręcznego (HTR) dla języka polskiego i łaciny

METODY INTEGRACJI

Opracowujemy i wdrażamy metody automatycznego i półautomatycznego wiązania zasobów leksykalnych.

WWW i API

Zapewniamy użytkownikom dostęp do danych z poziomu nowoczesnego i łatwego w użytkowaniu interfejsu WWW oraz poprzez API wyposażone w dokumentację przedstawiającą strukturę i składnię zapytań.

Nasz zespół

Dziękujemy wszystkim osobom zaangażowanym w prowadzone prace.

Krzysztof NowakDorota MikaWojciech Łukasik
Jan IdziakPiotr GiedziunAlbert Leśniak
Ewa RodekMaria BugajskaIwona Krawczyk
Agnieszka MaciągJagoda MarszałekMałgorzata Czachor
Paweł SwobodaKatarzyna SucharskaEmil Popławski
Michaił OsłonDorota AdamiecRenata Bronikowska
Katarzyna KryńskaMagdalena MajdakPaweł Kupiszewski
Olga ChymkowskaWiesław MorawskiHalina Hurowska
Bartłomiej Borek

Standardy i narzędzia