Przejdź do treści

Infrastruktura dla zintegrowanych zasobów leksykograficznych

Słowniki języka polskiego, kartoteki materiałowe i korpusy językowe tworzone tak w obrębie jednej, jak i wielu instytucji są silnie rozproszone. Sprawia to, że nie sposób wspólnie odpytywać czy generować na ich podstawie wiedzy o rozwoju czy zróżnicowaniu języka. W ramach projektu Dariah.lab powstała infrastruktura dla zasobów leksykograficznych. Projekt zakładał wypracowanie i wdrożenie metod automatycznego i półautomatycznego wiązania zasobów leksykalnych. Dane są udostępniane poprzez stronę WWW oraz REST API.

Zasoby

Słowniki akademickie

 

Kartoteki materiałowe

 

Korpusy językowe

 

Etapy prac

Pozyskiwanie tekstu drukowanego

Tesseract (OCR, automatyczna detekcja regionów, linii i wyrazów); PoCoTo (dodatkowy post-OCR)

Segmentacja i semantyzacja

XSLT (strukturyzacja plików hOCR), ODD (anotacja layoutu), Oxygen (semantyzacja, zgodnie z TEI XML)

Zintegrowane udostępnianie

udostępnianie zasobów w ramach platformy integrated.ijppan.pl i poprzez REST API

Pozyskiwanie pisma odręcznego

algorytm rozpoznawania regionów tekstu

Tworzenie materiałów treningowych

Prodigy (generowanie predykcji), Label Studio (korekta rozpoznanych regionów i predykcji)

Model HTR

Na podstawie materiałów treningowych przygotowane są modele do rozpoznawania pisma odręcznego dla języka polskiego i łaciny

W projekcie powstały

CYFROWE SŁOWNIKI

Środowisko do digitalizacji i anotacji słowników akademickich

HTR

Modele rozpoznawania pisma odręcznego (HTR) dla języka polskiego i łaciny

METODY INTEGRACJI

Opracowujemy i wdrażamy metody automatycznego i półautomatycznego wiązania zasobów leksykalnych.

WWW i API

Zapewniamy użytkownikom dostęp do danych z poziomu nowoczesnego i łatwego w użytkowaniu interfejsu WWW oraz poprzez API wyposażone w dokumentację przedstawiającą strukturę i składnię zapytań.

 

Nasz zespół

Dziękujemy wszystkim osobom zaangażowanym w prowadzone prace.

Krzysztof Nowak Dorota Mika Wojciech Łukasik
Jan Idziak Piotr Giedziun Albert Leśniak
Ewa Rodek Maria Bugajska Iwona Krawczyk
Agnieszka Maciąg Jagoda Marszałek Małgorzata Czachor
Paweł Swoboda Katarzyna Sucharska Emil Popławski
Michaił Osłon Dorota Adamiec Renata Bronikowska
Katarzyna Kryńska Magdalena Majdak Paweł Kupiszewski
Olga Chymkowska Wiesław Morawski Halina Hurowska
Bartłomiej Borek    

Standardy i narzędzia