Kolokacje składniowe
Niniejsza strona pozwala na wyszukiwanie i porównywanie kolokacji składniowych słów w korpusach języka polskiego. Kolokacje składniowe to rodzaj kolokacji opartych nie na bezpośrednim sąsiedztwie słów w tekście, ale na sąsiedztwie w zależnościowym drzewie składniowym rozumianym jako bezpośrednie połączenie relacją zależności między dwoma węzłami (słowami) w tym drzewie. Główną motywacją dla takiego ujęcia kolokacji jest fakt, że w wypadku języków o swobodnym szyku słowa oddalone od siebie w porządku linearnym mogą być ze sobą ściśle powiązane składniowo i stanowić dla siebie wzajemnie typowe połączenia. Ujęcie składniowe wzmacnia zatem sygnał statystycznego współwystępowania słów, który swobodniejszy szyk może niekiedy osłabiać. Ma to znaczenie zwłaszcza w polszczyźnie wcześniejszych epok, w których nieciągłości składniowe były statystycznie znacznie częstszym zjawiskiem niż w polszczyźnie współczesnej.
W aplikacji zostały zindeksowane formy hasłowe z dwóch korpusów — Korpusu Współczesnego Języka Polskiego (KWJP) oraz Elektronicznego Korpusu Tekstów Polskich z XVII i XVIII w. (KorBa) — występujące w nich co najmniej 5 razy. Każdemu słowu przypisano listy słów bezpośrednio połączonych z nimi krawędzią w drzewie zależnościowym (z pewnymi rozszerzeniami dotyczącymi przede wszystkim jednostek skoordynowanych) wraz z etykietą tej krawędzi wskazującą na ich funkcję składniową, a następnie obliczono współczynnik współwystępowania (logDice). Współczynnik osiąga teoretyczną maksymalną wartość 14, która oznacza, że wszystkie wystąpienia danych dwóch słów w korpusie zostały użyte wyłącznie w takim połączeniu. Realnie ta wartość jest zwykle wyraźnie niższa (szczegółowy opis samej miary oraz jej interpretacji można znaleźć w artykule [1]). W aplikacji uwzględniono wyłącznie kolokacje o wartości logDice równej co najmniej 4, za pomocą filtrów użytkownik może tę wartość zwiększyć, ograniczając w ten sposób widok do silniejszych kolokacji.
Na widok kolokacji danego słowa składa się zbiór list — osobno dla każdej funkcji składniowej. Każda lista posortowana została według wartości logDice, czyli od najsilniejszych kolokacji do najsłabszych. Oprócz tego przy każdej kolokacji podano jej częstość bezwzględną i względną (w przeliczeniu na milion słów) w danym korpusie. Można również wyświetlić kilka przykładowych konkordancji dla danego połączenia wyrazowego (klikając symbol ). Zaznaczono także kolokacje istotnie częstsze w konkretnych typach tekstów w obrębie danego korpusu. Poszczególne typy oznaczone są symbolami graficznymi — np. dla prasy — objaśnianymi dymkiem po najechaniu myszą. Brak symboli oznacza, że dana kolokacja występuje względnie równomiernie we wszystkich typach tekstów.
Aplikacja pozwala również na porównanie kolokacji dwóch słów z danego korpusu lub kolokacji tego samego słowa w dwóch różnych korpusach (o ile dane słowo występuje w obu). Porównanie prezentowane jest w postaci list podobnych do tych dla pojedynczego słowa, ale na ich dwóch krańcach znajdują się kolokacje najbardziej charakterystyczne dla każdego ze słów/korpusu — liczba wyświetlana przy każdej z nich jest różnicą wartości logDice dla każdej z kolokacji (nieobecność danego słowa na liście kolokacji dla któregoś z porównywanych słów jest traktowana jako logDice = 0). Kolokacjom bardziej typowym dla słowa/korpusu, względem którego dokonywane jest porównanie, odpowiadają zatem wartości ujemne.
Podstawą wszystkich obliczeń w aplikacji są teksty opracowane i oznakowane automatycznie — od uwspółcześnienia pisowni (w wypadku tekstów dawniejszych) aż po lematyzację i znakowanie składniowe. Dołożyliśmy wszelkich starań, by wyniki tych automatycznych analiz były jak najlepsze, mimo to jednak listy kolokacji mogą zawierać pewne błędy.
[1] P. Rychlý, A lexicographer-friendly association score, in Proceedings of Recent Advances in Slavonic Natural Language Processing, P. Sojka and A. Horák, eds. Brno, Czech Republic: Masaryk University, 2008, p. 6–9.