Download af software
GNU
Softwaren i følgende liste er under GNU General Public License (GPL).
- CST's lemmatiser
-
Pakken omfatter kildeteksten (C++) til CST's lemmatiser. Efter kompilering til dit
foretrukne platform (Linux, Unix, Windows) kan du selv træne programmet. Man
skal bruge store fuldformsordlister (>100 000) for at opnå et hæderligt
resultat. Lemmatiseringsregler for dansk er fra 2010/11/22 blevet en del af pakken,
men ikke den optionelle indbyggede ordbog. Kontakt CST hvis du vil bruge yderligere
lingvistiske ressurser til lemmatiseren.
Disse er ikke dækket af GPL.
- Bracmat
-
Bracmat er et fortolket programmeringssprog som er udviklet af en af CST's medarbejdere
i egen regi siden 1986. Oprindeligt tænkt som Computer Algebra system har
det vist sig at være aldeles brugbart som værktøj til håndtering
af sprog. Foruden dets oprindelige formål indenfor den Almene Relativitetsteori
- beregning af Ricci tensoren fra givne metrikker - er det blevet anvendt til implementering
af en dialog-manager i Staging-projektet, til analyse af
tekster i "Kontroleret Sprog"-delen af VID-projektet og til automatisk
fejlrettelse i CST's mange html-sider. Også "udenfor huset" har Bracmat vist sig
at være nyttigt: programmet bruges til at identificere personer, instanser o.l.
i pre-taggede tekser som skal anonymiseres. Den til dato mest avancerede anvendelse
er som workflow-planner og -afvikler i DK-Clarins
værktøjsmodul, hvor brugeren ikke behøver at vælge mellem værktøjer, som brugeren
muligvis ikke har nok kendskab til, men kan nøjes med at specificere det ønskede
output, hvorefter værktøjsmodulet beregner alle mulige, ikke nødvendigvis i sekventielle,
sammensætninger af værktøjer som brugeren kan vælge imellem.
Læs mere om Bracmat.
Andre licenser end GNU
CST bruger nogle gratis tredjepartsprogrammer som vi har tilpasset til vores behov,
typisk for at kunne køre programmet på et platform som det ikke var
skrevet til. Disse programmer vil vi gerne give videre og det sker under deres oprindelige
licensbetingelser.
Det drejer sig om følgende programmer:
- POS-tagger skrevet af
Eric Brill
-
CST bruger POS-taggeren i rigtig mange sammenhænge til analyse af både
engelske (med Eric Brill's lingvistiske ressurser, evt. med modifikationer) og danske
(med CST's lingvistiske ressurser) tekster. Distributionen omfatter Eric Brills
oprindelige distributionsfil og en zip-fil med CST's tilpasninger. Bemærk
at disse tilpasninger ikke berører træningsdelen! Hovedtræk i
tilpasningerne er:
- Omformattering fra UNIX-stil C til standard C++,
- Erstatning af nogle UNIX-specifikke funktioner med standard C funktioner,
- Bedre håndtering af store bogstaver i hvad der må formodes at være
overskrifter, og
- Oprettelsen af en optionsfil "xoptions" for at gøre kildeteksten sprog- og
tagset-uafhængigt.
- CASS parser skrevet af Steven
Abney
-
CST har bl.a. brugt CASS-parseren i VID-projektet til markering
af navneordsfraser i store tekstmængder. Distributionen omfatter Steven Abneys
oprindelige distributionsfil og en zip-fil med CST's tilpasninger. Tilpasningerne
er minimale men relevante hvis man vil kompilere programmet med en af de nyere GNU-C++
kompilere. (BEMÆRK: efter vi havde lavet vores tilpasninger, har også
Steven Abney selv udbragt en version som skulle være kompatibel med nyere
versioner af GNU C++ kompileren. Det viser sig dog at GNU++ kompilere nyere end
version 4 ikke vil kompilere hværken CST's version af CASS-taggeren eller
Steven Abneys egen.)
Lingvistiske ressurser
Hvis du er interesseret i lingvistiske ressurser som er udviklet under CST's regi
(STO, træningsdata til POS-taggeren eller lemmatiseren, grammatikker til np-genkenderen,
regler til navnegenkenderen) bedes du tage kontakt med Hanne Fersøe (hanne@cst.dk).
|