jDALabeler - Uživatelská příručka

Funkčnost aplikace jDALabeler bude popsána co nejvíce stručně, avšak pochopitelně.

Požadavky

Aplikace byla vytvořena v programovacím jazyce Java. Pro její spuštění je nutné mít nainstalovan JRE (Java Runtime Enviroment) minimálně verze 1.6.0_16. Pro rozsáhlejší anotační dokumenty (kolem 3MB, tj. cca 3000 vět) je potřeba mít alespoň 512MB operační paměti. Tento nárok se pochopitelně s rozsáhlejším dokumentem zvětšuje. Většina anotovaných dokumentů by však této velikosti neměla dosahovat. Pro obsluhu programu by měl stačit procesor s frekvencí 1GHz.

Uchovávání nastavení

Část nastavených hodnot si aplikace uchovává v souboru application.properties. Jde o xml soubor obsažený v samotné JAR souboru aplikace. Jde o nastavení jako jazyk GUI, cesta k externímu adresáři s anotačními schématy nebo cesta k poslednímu otevřenému anotačnímu dokumentu. Tento interní soubor však obsahuje pouze jakési základní hodnoty.

Aplikace si po svém spuštění ukládá aktuální hodnoty do externího souboru application.properties. Ten má potom větší váhu než interní application.properties soubor. Pokud je například v interním application.properties souboru požadavek na jazyk GUI v angličtině a v externím požadavek na češtinu, bude zvolena čeština.

Logování

Program podporuje také logování některých informací. Ty se zapisují do souboru application.log.

Spuštění

Aplikace se pouští pomocí spustitelného JAR souboru příkazem java -jar jaae_2.0.jar. Jak je vidět z obrázku A, není zatím otevřený žádný dokument. Je načteno výchozí anotační schéma DA (MRDA, neboli Meeting Recorder Dialog Act), jehož struktura je zobrazena v pravé dolní části obrázku A.

Obrázek aplikace po spuštění
Obrázek aplikace po spuštění

Vstupní dokument

Aplikace pracuje s vlastním formátem dokumentů. Jde o xml soubory definované struktury se zavedenou koncovkou adxml. Pro vytvoření takovéhoto dokumentu lze použít aplikaci DocumentDaXmlConvertorPlainText.jar. Ta umí z obyčejného textového dokumentu vytvořit vstupní dokument pro aplikaci jDALabeler. Jako argumenty souštění je nutné zadat cestu ke vstupnímu souboru a cestu k výstupnímu souboru. Spuštení tak vypadá takto:


java -jar DocumentDaXmlConvertorPlainText.jar “vstupni soubor“ “vystupni soubor“

Pro běh aplikace je nutné připojení k internetu (pro tokenizaci textu je použit online program Web Services For Morphological Analysis(WSMA), více informací na http://liks.fav.zcu.cz/mediawiki/index.php/WebServicesForMorphologicalAnalysis. WSMA využívá The Prague Dependency Treebank 2.0. Tento systém je navržen pro tokenizaci českého jazyka. Pro jiné jazyky tedy výsledky tokenizace mohou být nepřesné, což však není pro anotaci pomocí jDALabeler závažnou chybou.

Ostatní info

Veškeré zdrojové kódy aplikace jsou kódovány pomocí UTF-8. Hlavní třídou aplikace je ApplicationLauncher umístěná v cz/zcu/fav/liks/jaae/app.

Ovládání

Zde bude popsáno ovládání jednotlivých funkcí a možností programu. Pro lepší přehlednost se tedy ovládání rozdělí do bloků pro každou funkci. Tyto bloky na sebe budou pokud možno navazovat. V jejich obsahu se nejdříve stručně nastíní proč program podporuje popisovanou funci a potom se stručně popíše princip ovládání.


Změna klávesové zkratky tagu DA

Více anotovaných dokumentů může například obsahovat různý počet výskytu jednotlivých DA. V jenom dokumentu se například DA tag použije ve velké míře, zatímco v dalším dokumentu vůbec. Jednotlivé zkratky tagů DA (písmena) pro anotaci je tedy možné měnit a nastavit si tyto zkratky tak, aby vyhovovaly dokumentu. Zkratky DA se mění kliknutím pravým tlačítkem myši na jednotlivá zobrazení DA tagů. To vyvolá nabídku volných tagů, jak je také vidět na obrázku A vpravo dole.


Uložení anotačního schématu

Po změně klávesové zkratky tagu DA je možnost si toto schéma uložit pro použití v příštím spuštění programu. K tomu slouží tlačítko Save schema v levé dolní části okna. Po jeho stisknutí se zobrazí standardní systémový dialog pro uložení souboru, který umožní uložení schématu.


Načtení anotačního dokumentu

Pro načtení anotačního dokumentu je možné použít tlačítko Open v horní části okna. To zobrazí standardní systémový dialog pro výběr souboru. Načtený dokument se potom zobrazí v okně anotačního textového okna (viz obrázek B). Toto okno neumožňuje text dokumentu měnit.

Obrázek aplikace po otevření dokumentu
Obrázek aplikace po otevření dokumentu

Zobrazení aktuální věty dokumentu

Aktuální větu dokumentu určuje pozice textového kurzoru v textu dokumentu. V anotačním textovém okně je pro lepší přehlednost aktuální věta slabě vybarvena. Na obrázku B je částečně vidět, že aktuální větou dokumentu je první věta.


Zobrazení anotace anotačního dokumentu

Jednotlivé anotace dokumentu se zobrazí ve třech panelech v levé dolní části okna programu. Tyto vybrané anotace závisí na aktuální větě dokumentu. Pokud by aktuální věta dokumentu nebyla anotovaná, zobrazí se prostřední panel prázdný. Jednotlivé zobrazené anotace obsahují vlastní popis tagů DA a pak také část věty ke které patří. DA totiž nutně nemusí patřit k celé větě. Pojmem předchozí anotace je myšlena předchozí anotace od aktuální věty (a aktuálního slova věty, protože jedna věta může mít více anotací DA).


Vytvoření vlasního anotačního schématu

Anotační schéma lze napsat buď ručně pomocí předlohy již existujících schémat, nebo lze využít implementovaný program pro vytváření a upravování anotačních schémat dialogových aktů. Ten se spustí pomocí tlačítka Scheme creation... viditelného na obrázku B


Zobrazení tabulky barevného odlišení mluvčích a vět

Každá věta může mít svého mluvčího. Pro anotaci tak někdy může být užitečné vědět kdo jakou větu pronesl. Pro zobrazení barevného odlišení mluvčích (barva písma) slouží tlačítko Show colored speakers, které je vidět v otevřeném menu na obrázku B

Důležité je také znát hranice vět. Protože aplikace nepodporuje formátování textu, jsou jednotlivé věty také barevně odlišeny (barva pozadí). Tuto funkci zapne tlačítko Show colored sentences nacházející se v otevřeném menu obrázku B

Jak takto barevně vyznačený dokument vypadá je částečně vidět na obrázku C

Obrázek aplikace se seznamem mluvčích
Barevné odlišení vět a mluvčích a samostatné okno se seznamem mluvčích

Zobrazení tabulky mluvčích dokumentu

Aby měla smysl předchozí funkce (zobrazení barevného odlišení mluvčích dokumentu), umožňuje program zobrazit seznam mluvčích dokumentu s jejich barvou v anotačním textovém okně a definovaným „číslem klávesové zkratky“. Tento seznam zobrazí v samostatném okně tlačítko Frame with list of speakers colors... nacházející se v otevřeném menu obrázku B Vlastní okno je vidět na obrázku C


Anotace mluvčích

Jak již bylo zmíněno výše, program umožňuje přiřadit větám jednotlivé mluvčí. Pro tuto definici je nutné označit alespoň část anotované věty a stisknout „klávesovou zkratku“ mluvčího. Podle obrázku C je tedy pro anotaci mluvčího spk1 nutné stisknout kombinaci kláves CRTL + 1 (na numerické klávesnici). Pokud dokument obsahuje více mluvčích než 9, budou klávesové zkratky vypadat následovně: CRTL + 10, CRTL + 11, atd. Nejde tedy o klasické klávesové zkratky, ale o číslo napsané na numerické klávesnici při stisknuté klávese CRTL.


Změna rozsahu vět

Jak je vidět na předchozích obrázcích, dokument je rozdělen do jednotlivých vět. Může se stát, že rozsah věty je chybný. Tj. část věty na konci nebo na začátku patří jiné větě (případně je třeba větu rozdělit na více vět). Program tedy poskytuje i funkci pro změnu rozsahu vět. Tato funkce se může aplikovat při třech (čtyřech, vezme-li se v potaz kombinace první a druhé situace) různých situacích:

  1. V textu jsou dvě věty za sebou. Druhá věta na svém začátku chybně obsahuje část první věty. Např. interpunkci na konci věty, nebo i některá další slova.
  2. V textu jsou dvě věty za sebou. První věta na svém konci chybně obsahuje část druhé věty. Např. prvních několik slov druhé věty.
  3. Dvě skutečné věty jsou v dokumentu nesprávně označeny jako jedna věta.

Pro opravu rozsahu vět se v anotačním textovém okně se označí text, který obsahuje celou větu. Tj. věta a část okolní věty (případně celých vět) které k této celé větě patří. Potom se stiskne klávesová zkratka CRTL + SHIFT + Mezerník. Pro opravu situace 3. se samozřejmě označí pouze část věty, z které chceme vytvořit novou větu. Z jedné věty pak tedy vzniknou věty dvě.

Po této akci se odstraní veškerá anotace zúčastněných vět. Ta by se totiž mohla chybně odkazovat na již neexistující část věty.


Anotace DA

Nejdůležitější částí programu je vlastní anotace dialogových aktů. Probíhá podobně jako funkce Změna rozsahu vět. Také je nutné označit část textu věty, který se bude anotovat a potom stisknout příslušnou klávesovou zkratku.

Jednotlivé klávesové zkratky jsou definovány různě pro každé anotační schéma (viz obrázek A). Jejich kostra vypadá takto CRTL + SHIFT + „písmeno definované u tagu DA“. Všem předchozím anotacím obsahující stejnou část věty je tato část odebrána. Pokud již tyto starší anotace neobsahují po tomto kroku žádnou část věty (tokeny), jsou smazány.

Anotace se vytvoří maximálně pro celou jednu větu. Není tedy možné označit celý text v anotačním textovém okně a anotovat ho jedním DA najednou.


Změna rozsahu vět + anotace DA

Program také obsahuje funkci pro sjednocení předchozích dvou akcí. Kdyby tak bylo potřeba změnit rozsah věty a rovnou tuto novou větu anotovat, stačí pro to jeden krok. Stejně jako v předchozích funcích je nutné označit anotovanou část textu a stiknout klávesovou zkratku CRTL + SHIFT + ALT „písmeno definované u tagu DA“.


Alternativní anotace DA

Dokument lze také anotovat alternativním způsobem, který umožňuje anotovat aktuální větu dokumentu pomocí menu vyvolaném pravým tlačítkem myši v panelu zobrazujícím aktuální anotaci (viz obrázek D).

Obrázek aplikace se alternativním způsobem anotace
Obrázek aplikace se alternativním způsobem anotace

Jak je vidět na obrázku, tato akce vyvolá menu obsahující všechny DA tagy, které může vybraný tag obsahovat (Statement) a seznam slov aktuální věty, které může tato anotace obsahovat. Tlačítko Custom value zobrazí okno se seznamem všech slov dokumentu, které se zde mohou vybrat. Tlačítko No value umožňuje odebrat anotaci všechna případně vybraná slova věty. Poslední tlačítko Remove entire theme odebere DA tag z aktuální věty.


Export anotačního dokumentu

Z anotovaného dokumentu DA by měla vycházet sémantická anotace, kterou program také umožňuje. Tato anotace však potřebuje jiný formát dokumentu. Proto program umožňuje export anotovaného dokumentu DA do sémantického formátu.

Export je možný pomocí tlačítka Export... v menu (viz obrázek A), které zobrazí standardní systémový dialog umožňující „uložení“ dokumentu.


Uložení dokumentu

Pro uložení dokumentu lze použít například tlačítko Save v levé horní části okna. Program otevřený dokument ukládá do souboru, ze kterého byl otevřen.


Zavření dokumentu

Pro zavření dokumentu lze použít tlačítko Close v menu viditelné na obrázku A. Pokud byl dokument změněn, bude zobrazen dialog pro volbu uložení.


Ukončení programu

Pro ukončení programu lze použít systémové tlačítko Exit v pravé horní části programu.