Zasoby IJP PAN

Zasoby językowe IJP PAN

Instytut Języka Polskiego PAN rozwija i współtworzy zasoby językowe o kluczowym znaczeniu dla badań nad językiem polskim. Obejmują one słowniki, korpusy, kartoteki oraz bazy danych, które wspierają zarówno badania naukowe, jak i rozwój humanistyki cyfrowej.

Zasoby

Zasoby tworzone i współtworzone w IJP PAN

Zasoby opracowywane i współtworzone w IJP PAN obejmują różne typy danych językowych. Poniżej przedstawiono ich główne kategorie wraz z odnośnikami do szczegółowych informacji.

Słowniki

Zasoby leksykograficzne dokumentujące słownictwo języka polskiego w ujęciu historycznym i współczesnym.

Kartoteki

Uporządkowane zbiory materiałów językowych stanowiące podstawę opracowań słownikowych i badań leksykalnych.

Korpusy

Zbiory tekstów i nagrań języka polskiego wykorzystywane do analiz językowych i badań nad użyciem języka.

bazy danych

Zasoby cyfrowe integrujące dane językowe i umożliwiające ich przeszukiwanie, analizę oraz udostępnianie.

Szczegółowe informacje o poszczególnych zasobach, obejmujące ich charakterystykę, zakres oraz możliwości wykorzystania w badaniach, dostępne są na stronach Instytutu Języka Polskiego PAN.

INfrastruktura DARIAH

Infrastruktura DARIAH wsparciem dla zasobów językowych

Infrastruktura DARIAH stanowi istotne wsparcie dla zasobów językowych, umożliwiając przekształcanie tradycyjnych zasobów w dane cyfrowe. W ramach jej tworzenia testowano i rozwijano metody digitalizacji materiałów drukowanych i rękopiśmiennych, automatycznego rozpoznawania tekstu, jego strukturyzacji i anotacji, a także przygotowania danych do dalszego przeszukiwania, analizy i integracji z innymi zasobami, w tym zewnętrznymi bazami danych, takimi jak bazy osób, nazw geograficznych czy zasoby bibliograficzne. Dzięki temu zasoby stają się bardziej dostępne, mogą być szerzej wykorzystywane w badaniach oraz integrowane z nowoczesnymi narzędziami humanistyki cyfrowej, wspierając rozwój metod badawczych i współpracę naukową.

Zasoby IJP PAN w procesach przetwarzania danych językowych

Zasoby językowe IJP PAN stanowiły podstawę testowania i rozwoju narzędzi oraz metod przetwarzania danych – od rozpoznawania tekstu i mowy, przez anotację i analizę, po integrację i ich prezentację.

Rozpoznawanie tekstu i mowy (OCR, HTR, ASR)

rozpoznawanie tekstu drukowanego, pisma odręcznego oraz mowy i przygotowanie danych do przetwarzania

Korekta i poprawa jakości danych językowych

automatyczna i półautomatyczna korekta błędów oraz podnoszenie jakości danych tekstowych

Segmentacja i anotacja tekstu
(TEI XML)

podział tekstu na jednostki oraz opis jego struktury i znaczenia zgodnie ze standardem TEI XML

Udostępnianie i przeszukiwanie danych

prezentacja zasobów w środowisku cyfrowym oraz ich efektywne przeszukiwanie i analiza

Integracja danych i łączenie zasobów (Linked Data)

łączenie danych językowych z bazami zewnętrznymi: osób, miejsc i zasobami bibliograficznymi

Połączenie zasobów językowych IJP PAN z infrastrukturą DARIAH umożliwia ich efektywne przetwarzanie, analizę i integrację w środowisku cyfrowym. Tworzy to nowe możliwości prowadzenia badań oraz rozwijania narzędzi humanistyki cyfrowej.

ZASOBY IJP PAN