Tworzenie konta

Korzystanie z Korpusomatu należy rozpocząć od rejestracji, czyli założenia konta użytkownika, w ramach którego będzie można zarządzać tworzonymi korpusami. Do założenia konta wystarczy podanie adresu e-mail i hasła użytkownika.

Konto można stworzyć klikając tutaj lub w przycisk w menu w prawym górnym rogu.

Tworzenie korpusu

Aby utworzyć nowy korpus (po uprzednim zalogowaniu się) należy kliknąć odnośnik "Nowy korpus" (1) z górnego menu.


Następnie należy wybrać nazwę dla korpusu (2) i kliknąć przycisk "Utwórz" (3).


Po utworzeniu korpusu zostaniemy przeniesieni do ekranu "Moje korpusy językowe". Aby rozpocząć dodawanie tekstów do nowo utworzonego korpusu należy kliknąć jego nazwę (4) na liście korpusów. Na tym ekranie wyświetlane są także dodatkowe informacje o korpusach, jest tu również możliwe usunięcie niepotrzebnego korpusu.


Aby dodać nowy tekst do korpus należy następnie kliknąć ikonę "+" (5) w prawym dolnym rogu ekranu.


Po kliknięciu zostaniemy przeniesieni do ekranu dodawania tekstu. Lista dozwolonych formatów znajduje się tutaj. Dodać teksty możemy na dwa sposoby.

Pierwszym jest kliknięcie górnego przycisku "+ Dodaj pliki" (6), który pozwala na dodawanie plików z lokalnego dysku. Po kliknięciu pojawi się okno wyboru plików, w którym możemy wskazać jeden lub wiele plików jednocześnie do dodania do korpusu.

Drugim sposobem jest podanie bezpośrednio linku do tekstu w polu tekstowym "Lub podaj URL:" (7), a następnie kliknięcie przycisku "Pobierz" (8). Korpusomat pobierze wtedy plik automatycznie i przetworzy go. W takim przypadku możliwe jest również podanie linku do artykułu (np z portalu internetowego), z którego zostanie wydobyta treść i przetworzona do pliku txt.


Po przetworzeniu wybranych tekstów istnieje możliwość edycji metadanych (9) lub dodania kolejnych tekstów (10). Korpusomat automatycznie próbuje uzyskać metadane z dodanego pliku, jednak nie zawsze jest to możliwe. Automatyczne rozpoznawanie metadanych "spodziewa się" nazwy pliku w formacie: "autor - tytuł (miejsce, rok)". Przykładowo, aby korpusomat automatycznie rozpoznał metadane Pana Tadeusza z nazwy pliku, dodany plik powinien nazywac się "Adam Mickiewicz - Pan Tadeusz (Paryż, 1834).txt". Powyższe dotyczy plików w formatach, które nie posiadają dedykowanych pól na metadane - nie dotyczy np plików epub, z których metadane zostaną uzyskane z samego pliku, a nie z jego nazwy.

Przed zatwierdzeniem istnieje możliwość ręcznej edycji metadanych.

Do dodawania kolejnych tekstów służą przyciski na górze (10). Metoda dodawania jest identyczna jak w przypadku pierwszego tekstu.

Gdy wszystkie teksty są już dodane, a ich metadane są poprawnie ustawione, należy kliknąć przycisk "Dodaj" (11) na dole ekranu, aby dodać wybrane teksty do korpusu.


Po dodaniu tekstów zostaniemy przeniesieni do ekranu korpusu, a korpusomat zacznie analizę fleksyjną i ujednoznacznianie dodanych plików. Przy nazwie korpusu pojawi się stan korpusu (12). Przy każdym z tekstów będzie wyświetlony status przetwarzania (13). Podczas analizy będzie to "Trwa przetwarzanie". Czas przetwarzania przeciętnej wielkości książki o objętości ok. 80-100 tys. słów powinien wynieść około 4-5 minut, choć częściowo zależy to również od aktualnego obciążenia serwera. Obecnie maksymalny czas przetwarzania pliku wynosi 10 minut – zadania dłuższe zakończą się niepowodzeniem. Podczas przetwarzania tekstów można nadal dodawać następne teksty za pomocą przycisku (14).


Gdy wszystkie teksty zostaną przetworzone, a ich stan będzie "Gotowy" (15), stan korpusu zostanie również automatycznie zaktualizowany do stanu "Gotowy" (14). Na tym etapie zostaną odblokowane przyciski u dołu ekranu i można przystąpić do dalszej pracy z korpusem. Dostępne akcje to:

  • Przeszukiwanie korpusu - przycisk (16)
  • Dane statystyczne - przycisk (17)
  • Pobranie przetworzonych plików - przycisk (18)

Kliknięcie przycisku (17) spowoduje przeniesienie do ekranu statystyk oraz rozpoczęcie ich przetwarzania. Obecnie wyświetlana jest tutaj jedynie lista frekwencyjna słów w korpusie oraz słownictwo charakterystyczne wybrane przez oprogramowanie TermoPL.

Kliknięcie przycisku (18) spowoduje pobranie archiwum z przetworzonymi plikami XML tekstów w korpusie. Pliki te są w formacie zgodnym ze specyfikacją CCL.


Na tym etapie nadal można edytować korpus. Dodawanie oraz usuwanie tekstów spowoduje automatyczne uruchomienie procesu przetwarzania, po zakończeniu którego korpus z powrotem otrzyma status "Gotowy".

Korzystanie z korpusu

Wyszukiwanie online

Kliknięcie przycisku (16) spowoduje przeniesienie do ekranu wyszukiwania. W polu "Zapytanie" (19) należy wpisać zapytanie, które chcemy wykonać, a następnie wcisnąć przycisk "Wyszukaj" (23). Opis języka zapytań dostępny jest w instrukcji. Przycisk (20) uruchamia graficzny konstruktor zapytań. Przycisk (21) rozwija menu ograniczenia wyszukiwania do tekstów o konkretnych metadanych. Przycisk (22) pozwala na dołączenie do zapytania prostych informacji statystycznych.


Kliknięcie przycisku (20) spowoduje otwarcie ekranu konstruktora zapytań. Pozwala on na "wyklikanie" interesującego zapytania poprzez wybranie cech segmentów z rozwijanych list. Po wybraniu wszystkich cech należy kliknąć przycisk "Zapisz", aby powrócić do ekranu wyszukiwania. W polu zapytanie pojawi się wtedy interesujące nas zapytanie przetworzone na język zapytań wyszukiwarki.


Kliknięcie przycisku (24) spowoduje rozwinięcie menu metadanych (25). Możemy tutaj ograniczyć wyniki wyszukiwania jedynie do tekstów, które spełniają wyspecyfikowane kryteria.


Kliknięcie przycisku (26) spowoduje rozwinięcie menu statystyk (27). Możemy tutaj dołączyć do wyników wyszukiwania pewne proste dane statystyczne. Przykładowo możemy wyświetlić listę frekwencyjną wyników wg konkretnego atrybutu segmentu lub wykres pokazujący rozkład wyników ze względu na wybrane metadane.


Po wykonaniu zapytania zostaniemy przeniesieni do strony z wynikami, które możemy przeglądać. Dodatkowo możemy wyświetlić dodatkowe informacje o kontekście znalezionego wyniku, klikając na niego (28) lub pobrać całą listę wyników w formie pliku csv (29).