CST's danske tagger

Tagging i traditionel forstand vil sige at tildele morfosyntaktiske kategorier til ord i en tekst.

Brills tagger

Den danske tagger bygger på den såkaldte Brill-tagger (Taggeren kan frit downloades fra: www.cs.jhu.edu/~brill) som er en automatisk tagger der bliver trænet på et allerede tagget korpus. Dette kan fx være et manuelt tagget korpus eller et semiautomatisk tagget korpus. Træningen foregår ved at taggeren automatisk lærer nogle regler hvorefter den er i stand til at tagge en ny og ukendt tekst.

Træning af taggeren

Under træningen arbejdes med to versioner af samme korpus: den oprindelige taggede version samt en version hvor alle taggene er fjernet. Først tildeles ordene i det "nøgne" korpus et tilfældigt tag. Derefter ændres taggene ved hjælp af transformationer på en måde så den transformationsregel der får det "nøgne" korpus til at nærme sig det oprindelige, får en højere vægtning, mens de regler der får korpus til at fjerne sig fra det oprindelige, bliver smidt væk. På den måde opbygges lister af ordnede regler: leksikalske regler og kontekstuelle regler. De leksikalske regler bruges til at analysere ukendte ord; mens de kontekstuelle regler bruges til at fjerne syntaktisk flertydighed.

En leksikalsk regel kan fx se således ud:

ede hassuf 3 V_PAST 316.266946778711

hvilket betyder:

"Hvis ordet har suffikset -ede skal tagget (hvad det end er) ændres til V_PAST".
Dvs. at hvis et ord ender på -ede er det datidsformen af et verbum.
Tallet efter reglen er en form for vægtning af reglen.

En kontekstuel regel kan se således ud:

V_PAST V_INF PREVWD at

hvilket betyder:

"Ændr V_PAST til V_INF hvis det foregående ord var at"
Dvs. at der er tale om infinitivformen af et verbum hvis det foregående ord var at

PAROLE-korpusset

Taggeren er trænet på den delmængde at det danske PAROLE-korpus der er morfosyntaktisk annoteret, dvs. på 250.000 løbende tekstord. Det danske PAROLE-korpus' morfosyntaktiske annotation består af 151 forskellige tags der hver indeholder information om ordformens ordklasse og morfologiske træk. Før træningen er tagsættet dog reduceret til 30 forskellige tags, hovedsageligt bestående af oplysninger om ordklasserne. Grunden til denne reduktion er en formodning om at et mindre tagsæt vil give en bedre analyse, dvs. en mindre fejlprocent. Generelt er fejlprocenten da også meget lille, nemlig på ca. 4%.


Tagget tekst

En stump tagget tekst ser fx således ud:

Flere/ADJ tusinde/N_INDEF_PLU familier/N_INDEF_PLU i/PRÆP det/PRON_DEMO centrale/ADJ Århus*CITYNAMEX/EGEN kan/V_PRES slet/ADV ikke/ADV se/V_INF Tv-2/FORM_DEMO centrale/ADJ Århus/EGEN kan/V_PRES slet/ADV ikke/ADV se/V_INF TV-2/FORK ./TEGN


Blå linie
Emil Holms Kanal 2, bygn. 22, 3., DK-2300 KBH S
Valid HTML 4.01 Strict