CST's online tools

Tip

Peg på de fede ord for at få forklaring.

Sprog

Navnegenkenderen og navneordsfrasegenkenderen understøtter kun dansk.

De danske bøjningsregler til lemmatiseren er baseret på STO, en fuldformsordbog med ca. 594.000 indgange, mens den tilsvarende engelske ordbog pt. indeholder ca. 87.000 indgange (CELEX).

Flere optioner

Du kan vælge flere optioner til fx lemmatiseren.

Færre optioner

For at skabe bedre overblik kan du få vist færre optioner - kun de mest anvendte.

Bonuskode

Bonuskoden giver mulighed for at analysere større tekstmængder.
Få en aftale med os hvis du er interesseret.

Henvendelse til bart @ cst . dk eller til hanne @ cst . dk.

Tokeniser

Adskiller enhederne (tokens) i teksten fra hinanden. Fx
Ups, → Ups ,

Nogle flerordsudtryk bindes derimod sammen til enheder. Fx
for længst → for_længst

Programmet deler desuden teksten op i sætninger.

Navnegenkender

Finder og markerer navne og datoer i teksten.

POS-tagger

(Part-Of-Speech Tagger)

Bestemmer ordklasse og morfologiske træk for alle tokens i teksten.

NP-genkender

(eller navneordsfrasegenkender)

Samler leddene i et NP, et substantivsyntagme, til en enhed.

Lemmatiser

Danner grundformen af et givet ord.
Fx 'gik' → 'gå', 'husets' → 'hus'.

I demoen står valget mellem løbende tekst (med eller uden ordenes bøjede form) eller en alfabetisk liste (alle bøjede former pr. lemma eller omvendt).

Gentagelsestjekker

Bruger en probabilistisk model til at finde og vægte gentagne sekvenser af ord (egentlig: tokens) i teksten.

Teksten skal have mindst to sætninger.

Lemmatiseringsvalg

Løbende tekst:
bøjet form + lemma
kun lemma
Sorteret liste:
lemma + bøjede former
bøjet form + lemmaer

Vis kun ikke fundne ord Vis kun de ord som ikke fundet i ordbogen

Ordbogen

Den danske ordbog er STO, den engelske stammer fra CELEX.

Ordbogen

Den danske ordbog er STO, den engelske stammer fra CELEX.

Ordbog

Ordfrekvenserne i ordbogen kan bruges til at fjerne flertydigheder. Desuden kan ordbogen håndtere små fejl i klassetildelingen.

Vis om ordet er fundet

Ord som ikke er i ordbogen, markeres det med '-'.
Ord som kan tilhøre flere end ét lemma, markeres det med '+'.
De øvrige ord markeres ikke.

Flertydigheder

Nogle ord kan strængt taget ikke entydigt lemmatiseres på basis af ordform (og ordklasse) alene. Lemmatiserens heuristik kan dog altid "løse" problemet.

Løbende tekst

Alle ord i samme rækkefølge som i teksten.

Bøjet form + lemma

Viser både ordenes bøjede form og deres lemmaer.

Kun lemma

Viser kun ordenes lemmaer.

Sorteret liste

Alfabetisk sorteret liste uden dubletter.

Lemma + bøjede former

Liste sorteret på lemma. For hvert lemma gives en liste med de fundne bøjede former.

Bøjet form + lemmaer

Liste sorteret på bøjede former. For hver bøjede form gives lemmaet/lemmaerne.

Find termkandidater i en tekstmængde.

Teksterne tokeniseres, evt. navnegenkendes, POS-tagges og lemmatiseres. Lemmaerne udskrives som en liste. Det markeres om ordene findes i ordbogen. Nu kan fx substantiver der er markeret med '-' udtrækkes.

Kandidater til flerordstermer kan søges med gentagelsestjekkeren.

Find de indholdstunge elementer i en tekst.

Teksten tokeniseres, evt. navnegenkendes, POS-tagges og markeres for navneordsfraser.

Anonymiser en tekst

Teksten tokeniseres og navnegenkendes.

Personnavnene, som nu er markeret med "*PERSONNAMEX"
(fx "Ole=P.=Dam*PERSONNAMEX"), kan nu erstattes med fx "XXX".

CST's online-værktøjer

Tip

Sprog

Flere optioner

Færre optioner

Bonuskode

Tokeniser

Navnegenkender

POS-tagger

NP-genkender

Lemmatiser

Gentagelsestjekker

Lemmatiseringsvalg

Ordbogen

Ordbogen

Ordbog

Vis om ordet er fundet

Flertydigheder

Løbende tekst

Bøjet form + lemma

Kun lemma

Sorteret liste

Lemma + bøjede former

Bøjet form + lemmaer

Find termkandidater i en tekstmængde.

Find de indholdstunge elementer i en tekst.

Anonymiser en tekst

Anvendelsesmuligheder

Links