
Infrastruktura dla zintegrowanych zasobów leksykograficznych
Słowniki języka polskiego, kartoteki materiałowe i korpusy językowe tworzone tak w obrębie jednej, jak i wielu instytucji są silnie rozproszone. Sprawia to, że nie sposób wspólnie odpytywać czy generować na ich podstawie wiedzy o rozwoju czy zróżnicowaniu języka. W ramach projektu Dariah.lab powstała infrastruktura dla zasobów leksykograficznych. Projekt zakładał wypracowanie i wdrożenie metod automatycznego i półautomatycznego wiązania zasobów leksykalnych. Dane są udostępniane poprzez stronę WWW oraz REST API.
Zasoby

Słowniki akademickie

Kartoteki materiałowe

Korpusy językowe
Etapy prac
Pozyskiwanie tekstu drukowanego
Tesseract (OCR, automatyczna detekcja regionów, linii i wyrazów); PoCoTo (dodatkowy post-OCR)

Segmentacja i semantyzacja
XSLT (strukturyzacja plików hOCR), ODD (anotacja layoutu), Oxygen (semantyzacja, zgodnie z TEI XML)

Zintegrowane udostępnianie
udostępnianie zasobów w ramach platformy integrated.ijppan.pl i poprzez REST API

Pozyskiwanie pisma odręcznego
algorytm rozpoznawania regionów tekstu

Tworzenie materiałów treningowych
Prodigy (generowanie predykcji), Label Studio (korekta rozpoznanych regionów i predykcji)

Model HTR
Na podstawie materiałów treningowych przygotowane są modele do rozpoznawania pisma odręcznego dla języka polskiego i łaciny

W projekcie powstały
CYFROWE SŁOWNIKI
Środowisko do digitalizacji i anotacji słowników akademickich

HTR
Modele rozpoznawania pisma odręcznego (HTR) dla języka polskiego i łaciny

METODY INTEGRACJI
Opracowujemy i wdrażamy metody automatycznego i półautomatycznego wiązania zasobów leksykalnych.

WWW i API
Zapewniamy użytkownikom dostęp do danych z poziomu nowoczesnego i łatwego w użytkowaniu interfejsu WWW oraz poprzez API wyposażone w dokumentację przedstawiającą strukturę i składnię zapytań.


Nasz zespół
Dziękujemy wszystkim osobom zaangażowanym w prowadzone prace.
Krzysztof Nowak | Dorota Mika | Wojciech Łukasik |
Jan Idziak | Piotr Giedziun | Albert Leśniak |
Ewa Rodek | Maria Bugajska | Iwona Krawczyk |
Agnieszka Maciąg | Jagoda Marszałek | Małgorzata Czachor |
Paweł Swoboda | Katarzyna Sucharska | Emil Popławski |
Michaił Osłon | Dorota Adamiec | Renata Bronikowska |
Katarzyna Kryńska | Magdalena Majdak | Paweł Kupiszewski |
Olga Chymkowska | Wiesław Morawski | Halina Hurowska |
Bartłomiej Borek |
Standardy i narzędzia




