Tip
Peg på de fede ord for at få forklaring.
Sprog
Navnegenkenderen og navneordsfrasegenkenderen understøtter kun dansk.
De danske bøjningsregler til lemmatiseren er baseret på STO, en fuldformsordbog med ca. 594.000 indgange, mens den tilsvarende engelske ordbog pt. indeholder ca. 87.000 indgange (CELEX).
Flere optioner
Du kan vælge flere optioner til fx lemmatiseren.
Færre optioner
For at skabe bedre overblik kan du få vist færre optioner - kun de mest anvendte.
Bonuskode
Bonuskoden giver mulighed for at analysere større tekstmængder.
Få en aftale med os hvis du er interesseret.
Henvendelse til
bart
@
cst
.
dk eller til
hanne
@
cst
.
dk.
Tokeniser
Adskiller enhederne (tokens) i teksten fra hinanden. Fx
Ups, → Ups ,
Nogle flerordsudtryk bindes derimod sammen til enheder. Fx
for længst → for_længst
Programmet deler desuden teksten op i sætninger.
Navnegenkender
Finder og markerer navne og datoer i teksten.
POS-tagger
(Part-Of-Speech Tagger)
Bestemmer ordklasse og morfologiske træk for alle tokens i teksten.
NP-genkender
(eller navneordsfrasegenkender)
Samler leddene i et NP, et substantivsyntagme, til en enhed.
Lemmatiser
Danner grundformen af et givet ord.
Fx 'gik' → 'gå', 'husets' → 'hus'.
I demoen står valget mellem løbende tekst (med eller uden ordenes bøjede form) eller en alfabetisk liste (alle bøjede former pr. lemma eller omvendt).
Gentagelsestjekker
Bruger en probabilistisk model til at finde og vægte gentagne sekvenser af ord (egentlig: tokens) i teksten.
Teksten skal have mindst to sætninger.
Find termkandidater i en tekstmængde.
Teksterne tokeniseres, evt. navnegenkendes, POS-tagges og lemmatiseres.
Lemmaerne udskrives som en liste.
Det markeres om ordene findes i ordbogen.
Nu kan fx substantiver der er markeret med '-' udtrækkes.
Kandidater til flerordstermer kan søges med gentagelsestjekkeren.
Find de indholdstunge elementer i en tekst.
Teksten tokeniseres, evt. navnegenkendes, POS-tagges og markeres for navneordsfraser.
Anonymiser en tekst
Teksten tokeniseres og navnegenkendes.
Personnavnene, som nu er markeret med "*PERSONNAMEX"
(fx "Ole=P.=Dam*PERSONNAMEX"), kan nu erstattes med fx "XXX".