jDALabeler - Uživatelská příručka
Funkčnost aplikace jDALabeler
bude popsána co nejvíce stručně, avšak pochopitelně.
Požadavky
Aplikace byla vytvořena v programovacím jazyce Java. Pro její spuštění je nutné mít nainstalovan JRE (Java Runtime Enviroment) minimálně verze 1.6.0_16. Pro rozsáhlejší anotační dokumenty (kolem 3MB, tj. cca 3000 vět) je potřeba mít alespoň 512MB operační paměti. Tento nárok se pochopitelně s rozsáhlejším dokumentem zvětšuje. Většina anotovaných dokumentů by však této velikosti neměla dosahovat. Pro obsluhu programu by měl stačit procesor s frekvencí 1GHz.
Uchovávání nastavení
Část nastavených hodnot si aplikace uchovává v souboru
application.properties
. Jde o xml soubor obsažený v samotné JAR souboru
aplikace. Jde o nastavení jako jazyk GUI, cesta k externímu adresáři s
anotačními schématy nebo cesta k poslednímu otevřenému anotačnímu
dokumentu. Tento interní soubor však obsahuje pouze jakési základní
hodnoty.
Aplikace si po svém spuštění ukládá aktuální hodnoty do externího
souboru application.properties
. Ten má potom větší váhu než interní
application.properties
soubor. Pokud je například v interním
application.properties
souboru požadavek na jazyk GUI v angličtině a v
externím požadavek na češtinu, bude zvolena čeština.
Logování
Program podporuje také logování některých informací. Ty se
zapisují do souboru application.log
.
Spuštění
Aplikace se pouští pomocí spustitelného JAR souboru příkazem java
-jar jaae_2.0.jar. Jak je vidět z obrázku A, není zatím otevřený
žádný dokument. Je načteno výchozí anotační schéma DA (MRDA
,
neboli Meeting Recorder Dialog Act
), jehož struktura je zobrazena
v pravé dolní části obrázku A.
Vstupní dokument
Aplikace pracuje s vlastním formátem dokumentů. Jde o xml soubory
definované struktury se zavedenou koncovkou adxml. Pro vytvoření takovéhoto
dokumentu lze použít aplikaci DocumentDaXmlConvertorPlainText.jar
. Ta umí z obyčejného
textového dokumentu vytvořit vstupní dokument pro aplikaci jDALabeler. Jako
argumenty souštění je nutné zadat cestu ke vstupnímu souboru a cestu k výstupnímu
souboru. Spuštení tak vypadá takto:
java -jar DocumentDaXmlConvertorPlainText.jar “vstupni soubor“ “vystupni soubor“
Pro běh aplikace je nutné připojení k internetu (pro tokenizaci textu je použit online
program Web Services For Morphological Analysis(WSMA
), více informací na
http://liks.fav.zcu.cz/mediawiki/index.php/WebServicesForMorphologicalAnalysis.
WSMA
využívá The Prague Dependency Treebank 2.0
. Tento systém je navržen pro
tokenizaci českého jazyka. Pro jiné jazyky tedy výsledky tokenizace mohou být nepřesné,
což však není pro anotaci pomocí jDALabeler
závažnou chybou.
Ostatní info
Veškeré zdrojové kódy aplikace jsou kódovány pomocí UTF-8
. Hlavní třídou aplikace je ApplicationLauncher
umístěná v cz/zcu/fav/liks/jaae/app
.
Ovládání
Zde bude popsáno ovládání jednotlivých funkcí a možností programu. Pro lepší přehlednost se tedy ovládání rozdělí do bloků pro každou funkci. Tyto bloky na sebe budou pokud možno navazovat. V jejich obsahu se nejdříve stručně nastíní proč program podporuje popisovanou funci a potom se stručně popíše princip ovládání.
Změna klávesové zkratky tagu DA
Více anotovaných dokumentů může například obsahovat různý počet výskytu jednotlivých DA. V jenom dokumentu se například DA tag použije ve velké míře, zatímco v dalším dokumentu vůbec. Jednotlivé zkratky tagů DA (písmena) pro anotaci je tedy možné měnit a nastavit si tyto zkratky tak, aby vyhovovaly dokumentu. Zkratky DA se mění kliknutím pravým tlačítkem myši na jednotlivá zobrazení DA tagů. To vyvolá nabídku volných tagů, jak je také vidět na obrázku A vpravo dole.
Uložení anotačního schématu
Po změně klávesové zkratky tagu DA je možnost si toto schéma
uložit pro použití v příštím spuštění programu. K tomu slouží tlačítko
Save schema
v levé dolní části okna. Po jeho stisknutí se zobrazí
standardní systémový dialog pro uložení souboru, který umožní uložení
schématu.
Načtení anotačního dokumentu
Pro načtení anotačního dokumentu je možné použít tlačítko Open
v
horní části okna. To zobrazí standardní systémový dialog pro výběr
souboru. Načtený dokument se potom zobrazí v okně anotačního textového
okna (viz obrázek B). Toto okno neumožňuje text
dokumentu měnit.
Zobrazení aktuální věty dokumentu
Aktuální větu dokumentu určuje pozice textového kurzoru v textu dokumentu. V anotačním textovém okně je pro lepší přehlednost aktuální věta slabě vybarvena. Na obrázku B je částečně vidět, že aktuální větou dokumentu je první věta.
Zobrazení anotace anotačního dokumentu
Jednotlivé anotace dokumentu se zobrazí ve třech panelech v levé dolní části okna programu. Tyto vybrané anotace závisí na aktuální větě dokumentu. Pokud by aktuální věta dokumentu nebyla anotovaná, zobrazí se prostřední panel prázdný. Jednotlivé zobrazené anotace obsahují vlastní popis tagů DA a pak také část věty ke které patří. DA totiž nutně nemusí patřit k celé větě. Pojmem předchozí anotace je myšlena předchozí anotace od aktuální věty (a aktuálního slova věty, protože jedna věta může mít více anotací DA).
Vytvoření vlasního anotačního schématu
Anotační schéma lze napsat buď ručně pomocí předlohy již existujících schémat,
nebo lze využít implementovaný program pro vytváření a upravování anotačních
schémat dialogových aktů. Ten se spustí pomocí tlačítka Scheme creation...
viditelného na obrázku B
Zobrazení tabulky barevného odlišení mluvčích a vět
Každá věta může mít svého mluvčího. Pro anotaci tak někdy může
být užitečné vědět kdo jakou větu pronesl. Pro zobrazení barevného
odlišení mluvčích (barva písma) slouží tlačítko Show colored speakers
,
které je vidět v otevřeném menu na obrázku B
Důležité je také znát hranice vět. Protože aplikace nepodporuje
formátování textu, jsou jednotlivé věty také barevně odlišeny (barva
pozadí). Tuto funkci zapne tlačítko Show colored sentences
nacházející
se v otevřeném menu obrázku B
Jak takto barevně vyznačený dokument vypadá je částečně vidět na obrázku C
Zobrazení tabulky mluvčích dokumentu
Aby měla smysl předchozí funkce (zobrazení barevného odlišení
mluvčích dokumentu), umožňuje program zobrazit seznam mluvčích dokumentu
s jejich barvou v anotačním textovém okně a definovaným „číslem
klávesové zkratky“. Tento seznam zobrazí v samostatném okně tlačítko
Frame with list of speakers colors...
nacházející se v otevřeném menu obrázku B Vlastní okno je vidět na obrázku
C
Anotace mluvčích
Jak již bylo zmíněno výše, program umožňuje přiřadit větám
jednotlivé mluvčí. Pro tuto definici je nutné označit alespoň část
anotované věty a stisknout „klávesovou zkratku“ mluvčího. Podle obrázku C
je tedy pro anotaci mluvčího spk1
nutné stisknout kombinaci kláves
CRTL
+ 1
(na numerické klávesnici). Pokud dokument obsahuje více mluvčích než
9
, budou klávesové zkratky vypadat následovně: CRTL
+ 10
, CRTL
+ 11
,
atd. Nejde tedy o klasické klávesové zkratky, ale o číslo napsané na
numerické klávesnici při stisknuté klávese CRTL
.
Změna rozsahu vět
Jak je vidět na předchozích obrázcích, dokument je rozdělen do jednotlivých vět. Může se stát, že rozsah věty je chybný. Tj. část věty na konci nebo na začátku patří jiné větě (případně je třeba větu rozdělit na více vět). Program tedy poskytuje i funkci pro změnu rozsahu vět. Tato funkce se může aplikovat při třech (čtyřech, vezme-li se v potaz kombinace první a druhé situace) různých situacích:
- V textu jsou dvě věty za sebou. Druhá věta na svém začátku chybně obsahuje část první věty. Např. interpunkci na konci věty, nebo i některá další slova.
- V textu jsou dvě věty za sebou. První věta na svém konci chybně obsahuje část druhé věty. Např. prvních několik slov druhé věty.
- Dvě skutečné věty jsou v dokumentu nesprávně označeny jako jedna věta.
Pro opravu rozsahu vět se v anotačním textovém okně se označí
text, který obsahuje celou větu. Tj. věta a část okolní věty (případně
celých vět) které k této celé větě patří. Potom se stiskne klávesová
zkratka CRTL
+ SHIFT
+ Mezerník
. Pro opravu situace 3. se samozřejmě
označí pouze část věty, z které chceme vytvořit novou větu. Z jedné věty
pak tedy vzniknou věty dvě.
Po této akci se odstraní veškerá anotace zúčastněných vět. Ta by se totiž mohla chybně odkazovat na již neexistující část věty.
Anotace DA
Nejdůležitější částí programu je vlastní anotace dialogových aktů. Probíhá podobně jako funkce Změna rozsahu vět. Také je nutné označit část textu věty, který se bude anotovat a potom stisknout příslušnou klávesovou zkratku.
Jednotlivé klávesové zkratky jsou definovány různě pro každé
anotační schéma (viz obrázek A). Jejich kostra vypadá takto CRTL
+ SHIFT
+
„písmeno definované u tagu DA“. Všem předchozím anotacím obsahující
stejnou část věty je tato část odebrána. Pokud již tyto starší anotace
neobsahují po tomto kroku žádnou část věty (tokeny), jsou smazány.
Anotace se vytvoří maximálně pro celou jednu větu. Není tedy možné označit celý text v anotačním textovém okně a anotovat ho jedním DA najednou.
Změna rozsahu vět + anotace DA
Program také obsahuje funkci pro sjednocení předchozích dvou
akcí. Kdyby tak bylo potřeba změnit rozsah věty a rovnou tuto novou větu
anotovat, stačí pro to jeden krok. Stejně jako v předchozích funcích je
nutné označit anotovanou část textu a stiknout klávesovou zkratku CRTL
+
SHIFT
+ ALT
„písmeno definované u tagu DA“.
Alternativní anotace DA
Dokument lze také anotovat alternativním způsobem, který umožňuje anotovat aktuální větu dokumentu pomocí menu vyvolaném pravým tlačítkem myši v panelu zobrazujícím aktuální anotaci (viz obrázek D).
Jak je vidět na obrázku, tato akce vyvolá menu obsahující všechny
DA tagy, které může vybraný tag obsahovat (Statement
) a seznam slov
aktuální věty, které může tato anotace obsahovat. Tlačítko Custom value
zobrazí okno se seznamem všech slov dokumentu, které se zde mohou
vybrat. Tlačítko No value
umožňuje odebrat anotaci všechna případně
vybraná slova věty. Poslední tlačítko Remove entire theme
odebere DA tag
z aktuální věty.
Export anotačního dokumentu
Z anotovaného dokumentu DA by měla vycházet sémantická anotace, kterou program také umožňuje. Tato anotace však potřebuje jiný formát dokumentu. Proto program umožňuje export anotovaného dokumentu DA do sémantického formátu.
Export je možný pomocí tlačítka Export...
v menu (viz obrázek A),
které zobrazí standardní systémový dialog umožňující „uložení“
dokumentu.
Uložení dokumentu
Pro uložení dokumentu lze použít například tlačítko Save
v levé
horní části okna. Program otevřený dokument ukládá do souboru, ze
kterého byl otevřen.
Zavření dokumentu
Pro zavření dokumentu lze použít tlačítko Close
v menu
viditelné na obrázku A. Pokud byl dokument změněn, bude zobrazen dialog
pro volbu uložení.
Ukončení programu
Pro ukončení programu lze použít systémové tlačítko Exit
v
pravé horní části programu.