Udkom i Proceedings fra Dalfs Årsmøde 1997.

 

 

 

                                                                                                                                                      

                          En stor dansk sprogteknologisk ordbog

                                        - et nationalt projekt

                                                                           

Anna Braasch, Bente Maegaard, Bolette Sandford Pedersen

                                                        Center for Sprogteknologi

 

 

1. Baggrund

Forskning i sprogteknologi og datalingvistik producerer dels ny viden om sproget, dels resultater og metoder som kan anvendes i sprogte­knologiske produkter. Til sprogteknologiske produkter henregnes her alle former for programmer, der tjener til forbedring og effektivisering af menneskers arbejde med tekster i naturligt sprog: stave- og grammatikkontrol, informations­søgning, oversættelse, ord­bogsopslag, undervisningsprogrammer osv., samt sproglige moduler der er integreret i andre produkter. I alle sådanne produkter indgår en ordbog, og hvis produktet skal have en rimelig dækningsgrad, skal ordbogen være ganske stor.

 

Sprogteknologien kan være med til at sikre at der fortsat vil blive skrevet på dansk i fagsproglige sammen­hænge. Hvis de sprogteknologiske værktøjer kun findes til andre sprog, mangler et væsentligt incitament til at skrive på dansk. Det er også vigtigt, med henblik på de opvoksende generationer, at sikre at computeren 'kan dansk'. De diskussioner der i foråret 1997 fandt sted i Nordisk Råd om at bevare vores sprog levende omfatter også dette budskab.

 

Udover den forskningsmæssige interesse har udvikling af sprogteknologien således også samfundsmæssig og kulturel betydning.

 

Denne problemstilling var baggrunden for, at Teknologinævnet i 1994 lod udarbejde en rapport om dansk sprogteknologi (se Bech et al. 1994). En af forudsætningerne for at udvikle avancerede sprogteknologiske værktøjer er som nævnt, at der findes en sprogteknologisk ordbog for dansk. Det er en meget stor og kompleks opgave at opbygge en sprogteknologisk ordbog, fordi den skal indeholde langt flere og mere detaljerede oplysninger end en ordbog for mennesker, og det er en opgave som markedet på ingen måde selv kan løfte. Derfor foreslår Teknologi­nævns­rappor­ten, at Center for Sprogteknologi tager initiativ til at igangsætte et ordbogsprojekt.

 

1.2 Projektets organisering

Det projekt der her lægges op til, er et samarbejdsprojekt med mange partnere. Center for Sprogteknologi har taget initiativ til projektet og forventer at udføre en stor del af arbejdet, herunder at styre projektet. Andre medvirkende vil være  datalingvistiske og leksikografiske miljøer, forlag m.v., jf. afsnit 3.

 

Der er flere grunde til at vi foreslår et samarbejdsprojekt: For det første har vel ingen enkelt institution i Danmark al den ekspertise, der skal til; den er spredt på et stort antal institutio­ner og mennesker. For det andet er der store fordele ved at sprede projektet: projektet vil kunne drage nytte af flere menneskers forskning, og den inspiration der udgår fra projektet vil igen kunne bidrage til flere institutio­ners forskning.

 

 

 

2. Projektets relevans og perspektiver

Formålet med projektet er at skabe en dansk sprogteknologisk ordbog til brug for sprogteknologisk forskning og udvikling. Behovet for en sådan ordbog er fremhævet i Teknologinævnets rapport 1994, men allerede i DANLEX [1] -gruppens rapport til SHF i 1989, Behov og Brugerprofiler for Dansk Ordbank, er både brugerprofilen 'datalingvistisk forsker' og brugerprofilen 'systemudvikler' medtaget og beskrevet. 

 

I EUs forskningsprogrammer har man, som noget naturligt for et flersproget og informationsteknologiorienteret samfund, taget udvikling af sprogteknolo­giske ordbøger på programmet i indeværende rammeprogram. Således deltager Danmark i det 2-årige PAROLE [2] -projekt, der vil producere de første knap 20.000 indgange i en sprogteknologisk ordbog for dansk. Det er denne ordbog, som CST er ansvarlig for, der skal bygges videre på.

 

En stor sprogteknologisk ordbog er som nævnt nødvendig for udviklingen af de allerfleste avancerede sprogteknologiske anvendelsesprogrammer; men det vil også være en uvurderlig ressource i forskningssammenhæng. I første omgang vil selve udviklingsarbejdet i forbindelse med ordbogen skabe en del forskning, ikke blot på de områder, som vi peger på i denne artikel fx semantik, men også i form af forskning afledt af iagttagel­ser eller problemer i forbindelse med selve ord­bogsarbejdet; områder der endvidere vil skabe en udmærket baggrund for specialer og studenterprojekter.

 

På længere sigt vil ordbogen imidlertid også have forsknings­mæssig betydning som en ressource i sig selv. Det skal bemærkes, at ordbogen ikke blot handler om leksemer og deres beskrivelse, men i meget høj grad også om deres kombinatorik i  form af syntaks. Der er altså tale om et projekt der primært er syntaktisk orienteret og som giver mulighed for datamati­ske syntakti­ske analyser i stort omfang, når ordbogen er færdig eller når projektet er afsluttet. Dette har betydning på flere planer. Ordbogen kan anvendes

1)     som ressource i datalingvistiske udviklingsprojekter: fordi ordbogen udgør flaskehalsen i et datalingvistisk projekt bliver resultatet ofte, at den i forbindelse med forskning, der har formelle grammatikker som sit kerneområde, ned­prioriteres og vedbliver med at være ganske lille og snævert projektspecifik.  Adgangen til en stor og mere generel ordbog som kan tilpasses projektets specifikationskrav vil kunne ændre på dette; en stor ordbog vil således kunne styrke af­prøvningsgrund­laget for sådanne systemer betydeligt,

2)     som platform for forskningsrelaterede eksperimenter af metodisk art: ordbogen vil kunne anvendes til afprøvning af forskellige sprogvidenskabelige metoder,

3)     som ressource i forbindelse med statistisk orienterede forskningsprojekter: ordbogen vil være med til at muliggøre forskning der kræver større mængder af struk­turere­de ordbogsdata, så som statistiske beregninger, maskinel korpusana­lyse m.v.

 

På anvendelsesområdet vil en stor sprogteknologisk ordbog indgå i fx udviklingen af maskinoversættelse til og fra dansk, en dansk stil- og grammatik­checker, en ny generation af sprogundervisningsprogrammer baseret på et stort ordforråd, intelligen­te program­mer til infor­mations­søgning og -filtrering, automatisk resumering m.v. Fraværet af en stor basisordbog gør udviklings­op­gaver af denne type næsten uover­kommelige, både arbejds­mæssigt og økonomisk.

 

En vigtig sideeffekt vil være det frugtbare samarbejde mellem 'forlagsleksikografi' og 'forskningsleksikografi'. Et eksempel herpå: maskinlæsbart materiale fra trykte ordbøger bliver i den sprogte­kno­lo­gi­ske ordbog udbygget med hensyn til detal­jeringsgrad og antallet af oplysnings­typer; dermed får det oprindelige materiale tilført nye kvaliteter. Det producerede materiale kan efter konvertering udnyttes i traditionel leksikografi fx i en ny udgave af den trykte ordbog.

 

For at sikre at ordbogen bliver anvendelig for så bred en bruger­kreds ­som muligt skal alle interesserede have adgang til at udnytte ordbogen, under forudsætning af, at de rettigheder som knytter sig til ordbogen, respekteres. Ordbogen bør distribueres så vidt som muligt, formentlig med forskellig pris til forskning og til kommercielle anvendelser.

 

 

3. Muligheder for genbrug af eksisterende ordbogsdata, tekstsamlinger m.v., samt muligheder for samarbejde

Det er klart, at allerede eksisterende datamatiske ordbogsdata skal genbruges i videst muligt omfang. Disse er imidlertid ganske be­grænsede og vil i vidt omfang allerede være taget med i PAROLE-ordbogen. Hertil kommer mulig­heden for at genbruge traditionelle ord­bøgers materiale, hvilket som regel forefindes i maskinlæsbar form, da ordbogsfremstillingen i dag sker ved brug af edb. Selv om der er store forskelle på, hvordan ordbøger formuleres for mennesker og for maskiner, så er der dog også en del fællestræk. Som eksempler på ord­bogsarbejde som kan være af interesse for den store danske sprogteknologi­ske ordbog kan nævnes Den Danske Ordbog, der er under udarbejdelse under Det Danske Sprog- og Litteratur­selskab, det SHF-støttede UDOG [3] -projekts valens­delprojekt på Odense Universitet og Handelshøjskole Syd, samt de store ord­bogsarbejder der udføres i det danske leksikografiske miljø og på de danske forlag. Det skal tilføjes at ikke kun leksikalske beskrivelser, men også tekstsam­linger m.v. er af interesse.

 

Vi har i den indledende fase af projektet etableret en lang række værdifulde kontakter, både til datalingvistiske og til leksikografiske miljøer, herunder også til ordbogsforlag. Vi er i skrivende stund i gang med projektets pilotfase hvor vi arbejder med en række centrale opgaver inden for to områder: genbrug/udnyt­tel­se af ek­sisterende leksikalske datasamlinger (datamatiske ordbogsdata og traditionel­le ordbøgers materiale) hhv. indsamling af maskinlæsbart korpusmateriale som basis for ordbogens fagsproglige dækning. Blandt de vigtigste opgaver kan nævnes udarbejdelse af STOs leksikalske beskrivelses­model, samt analyse af ordbogsdata og afprøvning og justering af korpusudvalgskriterier osv. I pilotprojektet skal der fortrinsvis løses samme slags opgaver som i hovedprojektet, men i langt mindre målestok; resultaterne derfra vil ikke kun bidrage til afklaring af både teoretiske og praktiske spørgsmål, men vil også udgøre de første ordbogsdata i STO.

 

4. Ordbogens størrelse og indhold

 

4.1 Ordbøger til sprogteknologiske anvendelser

Maskinel anvendelse stiller specielle krav til ordbogsdata fordi computeren kun kan arbejde med fuldt tilgængelige oplysninger. Dermed menes at en sprogteknologisk ordbog [4] har et veldefineret dækningsområde både hvad ordforråd og hvad oplysningstyper angår. Oplysningstyperne kan i stor udstrækning være de samme som i en almindelig ordbog, omend det sprogteknologiske aspekt påvirker valget af dem, eksempelvis er der ikke brug for etymologiske oplysninger i sprogteknologiske ordbøger beregnet for maskinoversættelse. Oplysningerne skal altid formuleres eksplicit, entydigt, udtømmende og for­maliseret i overensstemmelse med det fastlagte formelle beskrivelsessprog.

 

Sprogteknologiske ordbøger kan have meget omfattende og komplicerede oplysnings­strukturer; informationerne kan være forbundet med hinanden fx i en relationel struktur (vha. tabeller og sammenkædninger), dvs. der kan søges på mange forskellige måder i materialet og man kan udnytte og restrukturere indholdet efter behov.

 

Indholdet i sådan en ordbog er ikke umiddel­bart læseligt eller forståeligt for en menneske­lig bruger fordi oplysningerne er udtrykt i et formelt beskrivelsessprog. På den anden side er det vigtigt at fastholde, at til trods for de ovenfor skitserede forskelle er der ikke tale om to helt adskilte 'ord­bogsverde­ner', men om forskellig realisering af samme. Og netop de særlige krav om systematisk, entydig og præcis beskrivelse af op­slagsenheders lingvistiske (fx morfologi­ske og syntaktiske) egen­skaber gør indholdet i en sprogteknologisk ordbog til en værdifuld kilde også for ikke-sprogteknologi­ske anvendelser. Anvendelse kan ske efter en konvertering af de formaliserede data til natursproglige oplysninger, som så kan udnyttes på forskellig vis i traditionel leksikografi.

 

 

4.2.  Størrelse - set i relation til andre ordbøger

Planlægning af  STO-databasens størrelse er til dels foretaget på grundlag af be­regninger baseret på traditionelle ordbøgers størrelse (Vinterberg & Bodelsen: Dansk-engelsk ordbog (VB) og Retskrivningsordbogen (RO '96)) og til dels på grundlag af erfaringer­ne fra PAROLE-projektet. Desuden inddrages information om OVD [5] -ordbogen. Sammenligningen af optællingsmetoderne nedenfor viser tydeligt at det er vigtigt at bruge veldefinerede begreber og metoder som udgangspunkt i dis­kussionen om lemmaudvælgelse og rimelig dækning af ordforrådet.

 

Vinterberg & Bodelsen: Dansk-engelsk ordbog (1990)

Den nye udgave af den store dansk-engelske almensproglige ordbog (VB) omfatter eksempelvis ca. 190.000 danske opslagsord ifølge for­lagsoplys­ninger. I dette tilfælde havde forlaget ikke opgivet eksplicit hvorvidt det kun er lemmata der tæller med som opslagsord (dvs. grundformen af ord fx sol, solbad, tage) eller både lemmata og de dertil hørende udtryk, også kaldet sublemmata (fx dele sol og vind lige, med solen, mod solen, tage solbad osv.) Det er indlysende at antallet af 'opslagsord' er meget højere ved sidstnævnte tællemeto­de.

 

Hvis vi tager udgangspunkt i den dansk-engelske ordbogs omfang er det klart at det vil være en meget krævende opgave at producere en dansk sprogteknologisk ordbog af tilsvarende størrelse. Der er dog en del af de ca. 190.000 opslagsord, som ikke er umiddelbart relevante i en sprogteknologisk ordbog, fx dialektale udtryk, gammeldags udtryk og specialiserede fagudtryk. Vi mener således, at man bør satse på en mindre ordbog i første omgang, fx 100.000 indgange, talt under anvendelse af den optællingsmetode hvor både lemmata og sublemmata medtages som opslagsord. Denne størrelse vil svare til et mindre antal forskellige ord, da hvert ord kan give anledning til flere indgange, dels hvis det har flere forskellige be­skrivelser, dels hvis det indgår i flerordsind­gange (sublemmata).

 

Retskrivningsordbogen

Den 2. udgave (1996) af  Retskrivningsordbogen har ca. 80.000 opslagsord ifølge forlaget. Dette tal dækker usammensatte (sol, gå) og en del fortrinsvis leksikaliserede sammensatte ord (solbad) i grundform, men ikke sublemmata. Desuden indgår fx uregelmæssigt bøjede verbers datid (gik) og datids tillægsform (gået) på lige fod med lemmata i optællingen af Retskrivningsord­bogens 'opslagsord'. Denne måde at anføre og optælle opslagsord på er veldefineret, men resultatet er ikke umiddelbart sammenligneligt med den først beskrevne optælling.

 

PAROLE-ordbogen

EU-projektet PAROLE vil for dansk resultere i kodningen af knap 20.000 morfologi­ske opslagsenheder (samme antal indgange). Disse vil også være forsynet med beskrivelsen af deres syntaktiske egenskaber og derved får vi de tilhørende syntaktiske indgange. Denne optællingsmetode er baseret på at kodningen i PAROLE-modellen tager udgangspunkt i den morfologiske enhed (som regel grundformen af et ord, eksempelvis tegne) som kan have flere syntaktiske konstruktionsmuligheder (tegne + direkte objekt;  tegne + sig, tegne + sig + for, ....) og dermed får flere beskrivelser på det syntaktiske niveau. På lignende måde kan en syntaktisk enhed have flere betydninger på det semantiske niveau: tegne + direkte objekt: tegne et barn, blomster vs. tegne aktier, firmaet.... Således kan en enkelt morfologisk enhed blive til flere enheder på det semantiske niveau (jf. afsnit 4.4 Udvælgelse og strukturering af op­lysnings­typer). Dette svarer i store træk til den traditionelle ordbogs måde at strukturere den tilsvarende  ordbogsartikel på ved at anføre ordet tegne, forsynet med nummererede betydninger (polysemi), opregne verbets konstruktionsmuligheder med substantiver, præpositioner og adverbier henholdsvis med 'sig', samt anføre  forskellige typer af  flerordsenheder (sublemmata) hvori verbet tegne indgår. 

 

Med hensyn til at kunne skønne det gennemsnitlige antal af syntaktiske læsninger i forhold til en given morfologisk enhed (et lemma) har vi på nuværende tidpunkt følgende erfaringer at trække på: En opgørelse i PAROLE-projektet viser at 2.900 almensproglige verber kodet på morfologisk niveau giver ca. 6.000 enheder på syntaktisk niveau. Denne 1: 2 (eller mere præcist 1:2,06) relation bør selv for verbernes vedkommende tages med et vist forbehold fordi der i kodningen endnu ikke er medtaget en række hyppige verber som har flere syntaktiske læsninger hver. Derfor kan det vise sig at det gennemsnitlige antal syntaktiske læsninger pr. morfologisk enhed bliver noget højere end 2,06. For substantivers, adverbiers osv. vedkommende vil gennemsnit givetvis ligge lavere.

 

På nuværende tidspunkt foreligger der ikke retningslinjer i PAROLE-projektet for læsningsopdeling på semantisk niveau. Forholdet mellem antallet af enheder på det syntaktiske og på det semantiske niveau vil i høj grad være afhængigt af om man vil have kapacitet til at beskrive alle betydninger af alle ordets mulige syntaktiske realisationer dvs. også medtage kollokationer med tegne i bredeste forstand eller ej. 

 

Odense Valency Dictionary (OVD) projektet

Dokumentationen af OVD-projektet  nævner at basens 3.000 verblæsninger svarer til ca. 1.500 forskellige verber, forholdet er altså 1:2. For adjektiver er tallet kun lidt anderledes: 930 hyppige adjektiver har i alt 1.940 læsninger dvs. forholdet er 1:2,08. Basen indeholder desuden kodninger af deverbale substantiver, mere præcist: substantiver afledt af 271 verber med ialt ca. 600 valensmønstre. Disse tal kan ikke sættes direkte i forhold til hinanden som det var muligt for verbers vedkommende, da der i dette tilfælde ikke bliver taget udgangspunkt i det pågældende substantiv som morfologisk enhed. Desuden kan deverbale sub­stantivers syntaktiske struktur ikke betragtes som værende repræsentative for hele ordklassen da de på grund af deres verbale indhold også danner syntaktiske strukturer der ligner verbers.

 

Slutteligt bør det nævnes at lemma- og informationsselektionen naturligvis spiller en ganske væsentlig rolle for det gennemsnitlige antal læsninger pr. op­slagsenhed i de enkelte datasamlinger. Eksempelvis kan det siges at forholdet mellem lemma og læsning ligger tættere på 1:1 for det fagsproglige ordstof end for det almens­proglige, det ligger netop i fagsprogets funktion. Derfor kan tallene fra andre projekter kun anføres her som orienterende oplysning.

 

STO’s størrelse

Den planlagte størrelse af  STO er på 100.000  indgange. På nuværende tidspunkt  har vi i PAROLE-modellen en klar definition af optællings­metoden på morfologisk niveau; på syntaktisk niveau er der i princippet to muligheder afhængig af efter hvilken metode man foretager opsplitningen. For det semantiske niveau som vi mener, vil være mest relevant at basere optællingen på, foreligger der endnu ingen detaljerede beskrivelser som det nævnte tal skal relateres til. Den lingvistiske  specifikation for det semantiske niveau vil blive foretaget i forbindelse med SIMPLE-projektets [6] specifikationsfase (planlagt til 1. kvartal 1998). Arten af opslagsenheder samt optællingsmetoden afhænger i høj grad af den specificerede informationsstruktur og kan derfor først præciseres på det af­sluttende trin. Der vil derefter blive foretaget en entydig definition af enheden som ordbogens størrelse angives i. Ud fra de tidligere nævnte, dokumenterede erfaringer fra forskellige ordbogsprojek­ter mener vi - under behørig hensyntagen til den planlagte lemma- og informationsselektion - at det er realistisk at sætte følgende mål for STO:

 

   antallet af morfologiske enheder : ~ 40.000 - 45.000

   antallet af syntaktiske enheder : ~  45.000 - 50.000

     afhængig af opsplitningsstrategien

   antallet af semantiske enheder: ~100.000

 

4.3 Ordforråd

 

4.3.1 Almensprog og fagsprog

Et sprogs samlede ordforråd består af almensprogligt og fagsprogligt ordstof. Forholdet mellem almensprog og fagsprog kan defineres på forskellige måder ud fra forskellige lingvistiske teorier.

Det grundlæggende problem er at fagsproglige tekster i meget høj grad består af almensproglige elementer, en del af dem har dog fået en specialiseret betydning i den pågældende faglige kommunikation. Den egentlige andel af fagets egne ord (termini) kan i en given fagsproglig tekst være begrænset til nogle få procent. Vi baserer metoden for lemmaselektionen i STO på den viden at fagsprog og almensprog har dels sammenfaldende elementer, dels adskilte elementer (dvs. de har en fællesmængde af elementer uden mulighed for klar afgrænsning).

 

Ordforrådet i STO bliver sammensat af almensproglige ord og ord der optræder både i almensproglige og fagsproglige tekster, samt ord der optræder i tekster fra flere fagområder. De sidstnævnte kaldes gråzoneord, fællesord eller almene fagord og relaterer sig i større eller mindre grad til fagsprog. Der er udbredt enighed om at sådanne kategoriseringer af ord ikke kan anses for at være absolutte men at de altid er afhængige af et bestemt praktisk formål. Formålet med den sprogteknolo­giske ordbog er at dække det danske ordforråd bredt og at være et basisprodukt der kan benyttes på forskellige anvendelsesområder. Derfor vælges ordforrådet ud fra det princip at det centrale er det almensproglige ordstof og det suppleres med ordstof fra relevante fagområder svarende til den valgte model til beskrivelse af forholdet mellem almen- og fagsprog.

 

Hele det valgte ordforråd beskrives i leksikografisk-lingvistisk henseende på en ensartet måde uanset hvilken af de ovennævnte ordtyper det drejer sig om.

 

Ved almensproglige ord forstår vi det ordstof der anvendes i nutidige dagligdags kommunikationssituationer. Ved udvælgelsen af lemmata går vi ud fra en kombi­nation af nogle grundlæggende kriterier mht. kilde, frekvens og relevans som vil blive forfinet trinvist. På et meget basalt plan kan der fx fastlægges følgende:

Lemmakandidater skal tilhøre

• standardsprogligt skriftsprog

• den centrale del af ordforrådet (baseret på frekvensundersøgelser i korpus mm.)

og skal have

• relevans i forhold til STOs applikationsområder.

 

En foreløbig dækningsmæssig sammenligning mellem Retskrivningsordbogens ordforråd og det ordforråd der skønnes relevant for STO viser at der er sandsyn­lighed for at ca. 40% af STOs opslagsord vil falde inden for og ca. 60%  uden for Retskrivningsordbogens dækning.

 

For det almensproglige ordstof af STO er udgangs­punktet PAROLE-ordbogen og det vil kunne udbygges op til det ønskede antal op­slagsen­heder. Der foreligger et tilsagn fra Det Danske Litteraturselskab (DSL) om, at det samarbejde, der allerede er etableret i forbindelse med PAROLE, vil kunne udbygges i forbindelse med STO.

 

Der kan, som anført tidligere, ikke drages en skarp grænse mellem de almensprog­lige og fagsproglige dele af sproget da al fagsproglig kommunikation også indeholder almensprog­lige ord og udtryk samtidig med at almensproget udvides løbende med ord og udtryk fra forskellige fagsprog fx med almen udbredelse af kendskabet til bestemte fagområder. Et aktuelt eksempel er informationsteknologi­ens indtog i dagspressens spalter der medfører at fagord som computer, tekstbe­handling, printer ikke mere er forbeholdt fagsproglig kommunikation; de opfattes snarere som tekniske eller fagrelaterede udtryk brugt i dagligdags kommunikation. Det er vigtigt at inddrage denne del af ordforrådet i STO da den udgør et bindeled mellem almensprog og specialiseret fagsprog.

 

For at sikre at udvælgelsen af det fagsprogs­relaterede ordforråd svarer til de planlagte anvendelseområder for STO vil vi søge at få adgang til relevante fagsproglige tekster og  leksikografisk materiale, typisk ordbogsdata. Dette vil ske i samarbejde med forlag, dataproducenter og eksperter i fagsprog.

 

Også for fagsprogs vedkommende vil DDOs korpus naturligvis blive søgt udnyttet i den udstrækning det er muligt og hensigts­mæssigt da dette korpus også indehol­der en hel del lettere fagsproglige tekster.

 

4.3.2   Fagkorpus som basis for det fagrelaterede ordforråd i STO

I det igangværende pilotprojekt er det en af de centrale opgaver at præcisere STOs applika­tions­om­råder og udvælge de fagområder der ønskes medtaget, da det væsent­ligste kriterium for ordforrådets sammen­sætning skal defineres på dette grundlag. I STOs forbe­redende fase har vi arbejdet med at skaffe et bredt overblik over, hvilke fagområder der befinder sig på et sådant udviklings­trin at der vil opstå behov for generelle eller skrædder­syede sprogteknologiske værktøjer til at løse bestemte opgaver. I pilotprojektet skal der udpeges nogle relevante fagområder. Den sprogtekno­lo­giske ordbog vil således kunne anvendes i et værktøj fx ved udbygning af natursprog­lig kommunikation med en terminologi­base, ved stil- og konsistenskon­trol (som forfatterværktøj) fx i lærebogsskriv­ning eller i råoversættelse af tekster som man får adgang til via informations­søgning osv.

 

Ud fra ovennævnte følger at det leksikografiske arbejde så vidt muligt skal baseres på relevante, autentiske tekster. Det betyder at man må sammen­sætte et fagsprogskorpus med den ønskede fagsproglige profil således at det definerede anvendelsesområde bliver dækket. Der er en række kriterier der skal tages i betragtning i denne proces.

 

Kriterier for sammensætning af STO’s fagsprogskorpus

Tematiske kriterier:  Afgrænsning mht. fag- og emneområder

Delfag og emneområder vælges ud fra potentielle sprogteknologiske applikations­områder, foruden edb fx administration, told og skat som er aktuelle pga. internationalt samarbejde og udveksling af dokumenter, og teknik som er aktuel pga. international samhandel. Typisk danske fagområder fx inden for miljø og teknik, som er i stærk fremdrift har også relevans. Det bør desuden tages med i overvejelserne at der findes maskinlæsbare korpora fra forskellige fagområder (jura, bioteknologi) og at der findes relevante ordbogsdata tilgængeligt i fagordbøger for mennesker, som i deres maskinlæsbare form også vil kunne inddrages i arbejdet. Vi interesserer os for muligheden for 'sprogteknologisering' af begge slags materialer.

 

Selektionskriterier:

(A) Aktualitetskriterium

Publikationstidspunktet er især relevant i forbindelse med tidsskrifter og håndbøger idet sprogbrugen i teksten bør være stabiliseret men ikke forældet. Dette kriterium anvendes på empirisk grundlag i udvælgelsesprocessen.

 

(B) Distributionelle kriterier

Der er to veje at gå: man kan vælge at medtage flere emneområder med færre ord hver, eller at arbejde med få emneområder og gå i dybden med ordforrådet. Antallet af valgte emneområder påvirker sammensætningen af det fagrelaterede korpus på følgende måde. Hvis vi proriterer at dække "bredt" dvs. flere fagområder med et tilsvarende mindre antal ord (dvs. med de mest frekvente), så skal vi sammensætte et større antal delkorpora med korte tekststykker for at opnå en større emnemæssig spredning. I det modsatte tilfælde dvs. ved "dyb" dækning af relativt få emneområder med et større ordforråd fra hvert af dem, skal vi have en større tekstmængde for hvert af områderne, og længere tekststykker kan evt. accepteres. Det er muligt at kombinere antallet af emneområder, størrelsen af tekstmængde og længden af de enkelte tekststykker på andre måder. Det vigtigste kriterium er at den færdige sprogteknologiske ordbogsdatabase dækker de valgte applikationsområder i tilstrækkelig dybde således at anvendeligheden sikres bedst muligt, hvilket vil sige at det er nødvendigt at finde den rigtige balance mellem bredde og dybde. I praksis kan man bestemme den nødvendige størrelse af tekstmængden for et delkorpus ved at tilføje nye tekster indtil de ikke længere bidrager signifikant med nye ord.

 

(C) Teksttypologiske kriterier

En realistisk fagsprogsrelateret målsætning for STO er at arbejde med tekster der er produceret med henblik på kommunikation fra fagmand til halvfagmand og lægmand hhv. fra halvfagmand til lægmand (jf. Bergenholtz/Tarp 1994). Disse tekster har en forholdsvis lav fagsproglighedsgrad, hvilket vil sige at koncentrationen af uforklarede fagudtryk er lav. Sådanne tekster bruges i mange lærebøger og populariserede beskrivelser af faglige emner, eksempelvis brugermanualer til edb-udstyr, instruktionshåndbøger, populærvidenskabelige publikationer, vejledninger mm. Der må dog selekteres kraftigt mellem fagligt pålidelige og mindre pålidelige tekster hvori også sprogbrugen kan være upræcis med hensyn til ordforrådet eller usikker eksempelvis med hensyn til det grammatiske og kollokationelle.

 

Det endelige valg af ord fra teksterne vil bygge på ordenes frekvens og deres relative fagsproglighed.

 

Vedr. de fagrelaterede ord i STO vs. traditionelle fagordbøger

Det er en interessant pointe, at de 'delordbøger' der knytter sig til bestemte fagområder i STO, ikke kan sammenlignes med traditionelle fagordbøger; i modsætning til fagordbøger forudsætter de fx ikke at brugeren har et bestemt modersmål, og de er heller ikke 'retningsbestemte', dvs. beregnet for enten læsere eller producenter af tekster. De kan snarere betegnes som basisordbog til ikke-fagkyndig brug, nemlig maskinel anvendelse, hvorfor informationsindholdet er anderledes end i en fagordbog.

 

Den afgørende forskel er at fagordbøger primært fokuserer på fagtermer og er baseret på et fags systematik. De kan således indeholde megen encyklopædisk viden om det pågældende fag men ofte væsentligt mindre information om bøjnings­morfologi, konstruktionsmuligheder osv. Fagrelaterede ord i STO  vil blive beskrevet primært efter de samme datalingvistiske principper som det almensproglige ordforråd og kun med meget begrænset mængde encyklopædiske oplysninger i form af basale definitioner for den menneskelige læser (jf. 4.4 Brugeroplysninger).

 

4.4 Udvælgelse og strukturering af oplysningstyper

Overvejelserne om hvilke oplysningstyper ordbogen skal indeholde, samt hvorledes disse oplysninger skal struktureres, baserer sig i høj grad på allerede eksisterende praksisser inden for det sprogteknologiske område. I denne forbindelse har EU-projektet PAROLE som tidligere nævnt en særlig betyd­ning.

 

Andre sprogteknologiske projekter har også relevans; specielt de projekter, hvor der på nuværende tidspunkt foreligger mindre, datamatiske ordbøger for dansk, således at de opstillede lingvistiske kriterier er blevet afprøvet netop for det danske sprog. Her skal nævnes EUROTRA [7] , hvis ordbog indeholder ca. 6000 leksikalske indgange (der i øvrigt er blevet genbrugt både i andre EU-projekter og kommercielt). Denne ordbog har endvidere den fordel, at den har været afprøvet i forbindelse med en konkret applikation, nemlig maskinoversættel­se. Der vil også i høj grad blive tale om genbrug fra andre danske projek­ter, hvor vi her vil nævne dels UDOG, herunder OVD, dels Den Danske Ordbog, omend denne sidste ikke er udformet til brug for maskiner. METAL-ordbogen på HHS vil også være af stor interesse for STO-projektet. Endelig indgår den nye danske standard for leksikalske datasamlinger i overvejelserne idet standarden vil fremme udvekslingen af ordbogsdata mellem forskellige projekter ved at definere et taksonomibaseret beskrivelsesværktøj for indhold og struktur af leksikalske datasamlinger.

 

4.4.1 Strukturering af oplysningstyper

Opdeling  i morfologiske, syntaktiske og semantiske oplysningstyper

Det er traditionelt inden for sprogteknologi at skelne skarpt mellem morfologiske, syntaktiske og semantiske oplysningstyper. I flere sprogteknologiske sammen­hænge, bl.a. inden for PAROLE, har man ført denne skelnen endnu længere ud, idet man ikke forsøger at definere en leksikalsk enhed, men derimod udelukkende arbejder med morfologiske, syntaktiske og semantiske enheder, som så sammen­kædes på forskellige måder (se bl.a. Navarretta 1997). Som det ses af modellen nedenfor vil en morfologisk enhed fx kunne forbindes med flere syntaktiske enheder, som så igen kan forbindes med endnu flere semantiske enheder på forskellig vis:

 

 

image001 image002                                                                                      semantisk enhed

image003 image004                                            syntaktisk enhed

image005 morfologisk enhed                                           semantisk enhed

image006                                            syntaktisk enhed

                                                                                     semantisk enhed

 

 

image007 En sådan opdeling vil få den sprogteknologiske ordbog til at adskille sig kraftigt fra den traditionelle ordbog, hvor den leksikalske enhed udgør det centrale element. For den menneskelige bruger vil en sådan opdeling i forskellige typer enheder måske virke kontraintuitiv; set ud fra et datamatisk synspunkt er opdelingen imidlertid særdeles hen­sigts­mæssig, specielt hvis man har meget forskelligartede applikatio­ner for øje. Det bør i øvrigt bemærkes, at dansk adskiller sig markant fra flere andre europæiske sprog, idet antallet af morfologiske enheder er relativt lille, hvilket resulterer i en høj grad af forgrening på de syntaktiske og semantiske niveauer.

 

Ydermere må det tages i betragtning, at specificering af den leksikalske enhed ikke kan foretages uden at have forpligtet sig til at følge en bestemt lingvistisk teori; noget som synes ønskværdigt at undgå, idet der tilstræbes et så generelt produkt som muligt. Ved anvendelse af morfologiske, syntaktiske og semantiske enheder er det nemmere - omend ikke uproblematisk - at forholde sig neutral med hensyn til forskellige lingvistiske teorier.

 

Opdeling i lingvistisk basisniveau og avanceret niveau

Det er af flere årsager efterstræbelsesværdigt også at genbruge princippet fra EU-projektet PAROLE om en opdeling af ordbogsoplys­ningerne i et lingvistisk basisniveau og i et mere avanceret lingvistisk niveau.

 

Det lingvistiske basisniveau indeholder informationer af typen bøjnings­morfologi og morfosyntaks, samt den mest basale syntaktiske information, så som kategoriel­le og funktionelle valensmønstre, samt evt. brug af hjælpeverber, hvorimod det mere avancerede niveau indeholder fx sammensætning, derivations­morfologi, mere dybtgående syntaks såsom forskellige kontroltyper, raising­fænomener, samt evt. Aktionsart. Også informationer af leksikalsk-semantisk art er først aktuelle på det avancerede niveau, først og fremmest i form af tematiske roller og selektions­restriktioner (se mere herom nedenfor).

 

Fordele ved en struktureret sprogteknologisk ordbog

a) Større grad af anvendelighed til forskellige applikationsformål

Et af formålene med ordbogen er netop at den skal kunne anvendes til forskelligartede applikationer med forskellige krav til oplysningstyper og med meget forskellige krav til detaljeringsgrad af disse oplysningstyper. Rent umiddelbart kunne man antage, at det ville være uproblematisk at uddrage forskellige grader af detaljering fra en ordbog, idet man måtte tro, at man blot kunne udtrække lige præcis de informationstyper man havde brug for, også selv om oplysningstyperne ikke i sig selv er strukturerede.

 

I praksis er det imidlertid ofte sådan, i særdeleshed når det drejer som relationen mellem syntaks og semantik, at der ikke nødvendigvis er et entydigt forhold imellem fx læsningsdistinktioner på to niveauer. Hvis applikationsområdet er opmærkning eller grovparsing af en tekst er det ikke ønskværdigt, men snarere direkte uhensigtsmæssigt, at arbejde med en ordbog, der som udgangspunkt har semantisk definerede leksikalske enheder med mange læsningsdistinktioner og med en dyb semantisk repræsentation, som alligevel ikke tages i anvendelse i den givne applikation. Omvendt er en høj syntaktisk og semantisk detaljeringsgrad nødvendig, hvis ordbogen skal indgå i applikationer, der kræver en højere grad af sproglig fortolkning, fx kvalitetsoversættelser eller mere avancerede dialogsy­stemer.

 

Kun ved at foretage en meget stringent strukturering - med præcis denne variabilitet i detaljeringsgrad for øje - kan man sikre, at udtræk til forskellige applikationer kan foregå så gnidningsløst som muligt; dog vil det altid være nødvendigt at udarbejde en konkret udtrækningsstrategi for et givent applikations­område.

 

b) Dele af ordbogen vil kunne tages i anvendelse på et tidligere tidspunkt

Når vi tager tidsperspektivet for den sprogteknologiske ordbog i betragtning har en opdeling i niveauer en anden klar fordel: det vil fx være muligt at færdiggøre det lingvistiske basisniveau for dele af ordbogen tidligere, således at dele af ordbogen vil kunne tages i anvendelse til visse applikationer allerede tidligt i forløbet. Hvis man fx først vælger at definere de semantiske enheder sent i forløbet burde dette i princippet også kunne foregå forholdsvist uproblematisk idet disse så - ideelt set - kan defineres mere eller mindre uafhængigt af de morfologi­ske og syntaktiske enheder, omend de i sidste ende skal sammenkædes med disse.

 

4.4.2 Nærmere specificering af oplysningstyper

Når man skal specificere hvilke oplysningstyper der skal indgå i den sprogtekologiske ordbog er det naturligt at inddrage erfaringer fra tidligere ordbogsprojekter, og især dem der er relateret til sprogtekno­logiske applikationer. Som nævnt er det største ordbogsprojekt af sprogteknologisk tilsnit med dansk deltagelse PAROLE. Derudover er der bl.a. inden for UDOG-projektet udarbejdet datamatiske ordbaser med bl.a. valensoplysninger (se Schøsler & Kirchmeier-Andersen 1997), samt i mindre målestok semantiske oplysninger.  Sidst men ikke mindst tages det for givet at der kan drages nytte af DDOs oplysningstyper, fx denne ordbogs håndtering af problemfelter som valens, betydningsadskillelse og partikelverber.


 

Den morfologiske enhed

For PAROLE-projektets danske morfologidel er der opstillet følgende liste over morfosyntaktiske oplysninger:

 

 

 

substantiv

adjektiv

adverbium

verbum

pronomen

tal

       X

       X

 

        X

        X

bestemth.

       X

       X

 

        X

 

kasus

       X

       X

 

        X

       X

gram. køn

       X

       X

 

        X

       X

grad

 

       X

        X

 

 

brug af adj/ptc

 

       X

 

        X

 

modus

 

 

 

        X

 

tempus

 

 

 

        X

 

diatese

 

 

 

        X

 

biol.køn

 

 

 

 

       X

ejer-køn

 

 

 

 

       X

ejer-tal

 

 

 

 

       X

person

 

 

 

 

       X

refleksiv

 

 

 

 

       X

 

Hvad angår de morfografemiske oplysninger i form af flektionsparadigme, dobbeltkonsonant, synkopering og vokalskifte anføres disse ved hjælp af én  numerisk paradigmeangivelse ved hver morfologisk enhed. Paradigmerne er  komplekst opbyggede, således at et paradigme eksempelvis indeholder oplysning om både bøjning, genus, vokalskifte og dobbeltkonsonant, hvilket fx er gældende for det paradigme, som dækker ord af typen fod (foden, fødder, fødderne).

 

Den syntaktiske enhed

Rammerne for syntaksdelen er på nuværende tidspunkt ikke helt fastlagte i det danske PAROLE-projekt. Erfaringer fra tidligere sprogteknologiske ord­bogsprojekter taler dog for, at følgende liste af syntaktiske oplysninger i en eller anden form vil indgå i kodningen af den syntaktiske enhed:

 

 

 

-

substantiv

verbum

adjektiv

adverbium

subkategori

         X

          X

          X

           X

funktionel valens

         X

          X

          X

         

kategoriel valens

         X

          X

          X

 

kontrol

 

           X

          X

 

raising

 

           X

          X

 

Aktionsart

 

           X

 

 

brug af hjæl­peverbum

 

           X

 

 

brug af støt­teverbum

           X

          

 

 

position

 

 

            X

           X

 

Underinddeling af ordklasser i subkategorier vil naturligvis være afhængig af ordklasse. For verber er det relevant at skelne hjælpeverber og modalver­ber fra de øvrige verber, for substantiver er det relevant at udskille specifi­cerende og klassificerende substantiver (fx en klase druer og en gruppe af mennesker), samt bl.a. utællelige substantiver (fx mel).

 

Den funktionelle valens angiver, hvilke funktioner de enkelte komplementer har (subjekt, objekt m.v.), mens den kategorielle valens angiver, hvilke konstituent­mønstre der kan indgå i de enkelte komplementer; altså hvorvidt komplementet udtrykkes som nominalsyntagme, præpositionsforbindelse, ledsætning eller andet ved det givne valensbærende ord. Begreber som optionalitet og alternation er også centrale i forbindelse med komplementer. Alternation (fx hun giver ham blomster/hun giver blomster til ham) behandles i PAROLE og OVD ved at kode to enheder, som så sammenkædes (linkes). Sammenholdes dette med opdelingen i syntaktiske og semantiske enheder giver dette mulighed for, at to syntaktiske enheder sammensmeltes til én semantisk enhed.

 

Der gives generelt i PAROLE-modellen mulighed for at anvende et meget bredt defineret valensbegreb, hvor også fx leksikalsk styrede adverbialer kan registreres. Noget tilsvarende ses i Odense Valensordbog, som i øvrigt anvender proportionaliteten mellem pronominalparadigmet og substantiverne som det styrende element i sin valenstilskrivning. Det er efterstræbelsesværdigt at tilnærme de to tilgange til valensbeskrivelse så meget til hinanden, at man kan drage direkte fordel af Odense Valensordbog i nærværende ordbogsprojekt i form af genbrug af leksikalske indgange.

 

Den semantiske enhed

Inden for semantik er der i langt mindre grad tale om bredt anerkendte standarder mht. hvilke informationstyper en sprogteknologisk ordbog bør indeholde. Sammenlignet med morfologisk og syntaktisk information vil det også være langt sværere at give teori- og applikationsneutrale oplysninger idet ordenes betydningspotentiale er så omfattende, at der i langt de fleste tilfælde kun kan blive tale om en beskrivelse, der omfatter en lille delmængde af dette potentiale. I praksis er det derfor ofte sådan i sprogteknologiske projekter, at en semantisk beskrivelse er meget snævert orienteret omkring en bestemt applika­tionstype.

 

Disse forhold taler for at arbejde med en forholdsvis rudimentær kodning af den semantiske enhed. Med rudimentær menes primært kodning af argumenter og/eller semantiske roller samt kodning af selektions­restriktioner. I forbindelse med fortsættelsen af PAROLE (som tidligere nævnt kaldet SIMPLE, med påbegyndelse i ‘98) vil der blive udarbejdet nærmere specifikationer herfor. Disse specifikationer vil vi i videst muligt omfang udnytte i STO.

 

Hvad angår rolletilskrivning var en mulig løsning at følge den i EUROTRA-projektet foreslåede ‘mellemløsning’ mellem en ren indeksering af argumenter og en mere semantisk orienteret tilskrivning af roller (for en generel beskrivelse se Copeland et al. 1991), idet hver argumenttilskrivning svarer til enten én eller flere semantiske roller, som det ses af skemaet:

 

Argument

Dybdegrammatisk funk­tion

Typisk semantisk rolle

arg1

subject

experiencer/causer/

agent

arg2

object

patient/theme/experiencer

arg_2P

second participant

goal/receiver (non-the­me)

arg_2E

second entity

goal/origin/place (non-theme)

arg_AS

attribute to the subject

secondary stative predi­cation on subject

arg_AO

attribute to the object

secondary stative predi­cation on object

arg_Pe

dative perceiver

dative perceiver with raising predicates

arg_ORIGIN

oblique

origin

arg_PLACE

oblique

place

arg_GOAL

oblique

goal

arg_MEASURE

oblique

measure

arg_ASSOC

oblique

associate

 

Fordelen ved at anvende denne model ville være, at der allerede er opstillet testkriterier og udarbejdet en ordbogsmanual for dansk med denne tilgang, samt at der foreligger omkring nogle tusinde ordbogsindgange, der anvender denne kodning. Modellen er måske ikke lingvistisk den mest ideelle på visse punkter, men taget i betragtning hvor vanskeligt det er at opstille klare kriterier for kodning af semantiske roller, så udgør EUROTRA-modellen muligvis et attraktivt grundlag for den sprogteknologiske ordbog, idet den netop har valgt at tage et pragmatisk standpunkt i form af en relativ simpel rolletilskrivning.

 

Hvad angår selektionsrestriktioner er der inden for sprogteknologien blevet udviklet adskillige træksystemer for tilskrivning af semantiske typer på substantiver; dog er der på ingen måde tale om eksisterende standarder på området. Typisk er der tale om helt simple tilskrivninger i form af træk som human vs. ikke-human, som så angives som restriktioner på verbernes komplementer. I et sådant system vil et verbum som udvikle fx typisk have to fortolkningsmuligheder (og det vil i et modulært system sige to semantiske enheder): en hvor selektionsrestriktionen på subjektet er human, som i forskerne udvikler nye metoder til kloning, og en hvor restriktionen er ikke-human, som i kogende vand udvikler damp. Selektions­restriktionerne hjælper således med til at entydiggøre flertydige ord.

 

I EUROTRA-DK udviklede man et mere omfattende system med 11 semantiske træk opstillet i et semantisk hierarki (se Boje & Schøsler 1992). Systemet blev anvendt på eksperimentel basis i en mindre ordbog og der blev udviklet testkriterier for, hvorledes tilskrivningen skulle foregå. Ligeledes blev der udviklet et præferencesystem som kunne beregne hvilke semantiske læsninger der var mest plausible i en given kontekst. Man bør imidlertid overveje, om man muligvis bør foretrække et langt simplere tilskrivningssystem, som fx det der anvendes i OVD, hvor pronominalparadigmet anvendes til at udlede et lille sæt af træk, nemlig + -konkret og +-animeret. Fordelen ved et simplere system er, at interkoderkonsi­stensen nemmere sikres, idet trækkene i højere grad tilskrives på distributionel basis.

 

Endelig overvejes der også en overordnet metode for læsningsdistinktioner. Skal læsninger opregnes på traditionel vis, og skal der i så fald kun kodes de mest almindelige læsninger, fx på basis af statistiske korpusundersøgelser, eller skal der snarere gøres rede for hvilke generative principper der gør sig gældende i forbindelse med ords muligheder for betydningsændringer. Den traditionelle opregningsteknik er muligvis den mest plausible i et projekt af denne størrelse, omvendt er den teoretisk set utilstrækkelig, idet det ofte ikke er muligt at opregne et ords fulde betydningspotentiale.

 

Brugeroplysninger

Selv om den sprogteknologiske ordbog primært skal anvendes af maskiner og ikke af mennesker, bør der alligevel tages eksplicit stilling til i hvor høj grad den skal forsynes med brugeroplysninger i form af eksempler, definitioner, kommentarer og glosseringer. En struktureret ordbog, hvor den leksikalske enhed som sådan er ikke-eksisterende taler i høj grad for en grundig brug af sådanne oplysninger, hvis ordbogen skal kunne anvendes og opdateres af en større mængde brugere med forskellig indfaldsvinkel. 


 

4.5 Værktøjer

 

4.5.1 Værktøj til ordbogskodning

Kodning af store mængder ordbogsdata sker vha. et kodningsværktøj, dvs. et edb-program der er skræddersyet til opgaven. Programmet sikrer systematik og ensartethed på det formelle niveau og kan i høj grad også bidrage til den indholdsmæssige konsistens af ordbogsdata. Desuden er der mange arbejds­mæssige fordele ved at bruge edb i ordbogsarbejdet der omfatter mange forskellige opgaver, eksempelvis dataindsamling, sortering, konvertering af eksisterende data, lagring, søgning, ind- og opdatering, fremvisning osv. der sker hurtigt og sikkert. Ordbogsarbejdet bliver i dag stort set alle steder udført vha. elektroniske værktøjer - både hvad traditionelle og hvad sprogteknologiske ordbøger angår.

 

AlethGD er et kodningssystem der er udviklet af ERLI [8] og det bruges i PAROLE projektet. AlethGD er et meget omfattende system hvori der er defineret de tre sammenkædede beskrivelsesniveauer, morfologi, syntaks og semantik. Det vil sige, at AlethGD er skræddersyet til PAROLE-projektets ordbogsstruktur.

 

4.5.2 Værktøj til korpusarbejde

Kun få af de korpusværktøjer der er på markedet i dag synes at opfylde samtlige de krav man bør stille til et korpusværktøj; selv ikke værktøjer som i dag er i brug i store ordbogsprojekter, som fx Corpus Bench, der anvendes på Den Danske Ordbog, lever op til krav om fx smidig indlæsning af korpora og inkrementel søgning. En overfladisk gennemgang af markedet peger i retning af et bestemt produkt, nemlig Xkwic som er udviklet i Stuttgart. Der er mindst to årsager til dette: 1) Det er et af de mest avancerede korpusværktøjer på markedet med flest funktioner, deriblandt funktioner, der anses for meget væsentlige ifølge vore kravspecifikationer (fx inkrementel søgning). Værktøjet synes således relativt fremtidsorienteret. 2) Der ydes support til programmet, som er under stadig udvikling. Værktøjet er afprøvet med gode resultater på forskellige sprog, fx. engelsk, hebraisk og tjekkisk, og man kan således forvente at det også vil kunne tilpasses til dansk og til de øvrige behov der måtte opstå i forbindelse med den sprogteknologiske ordbog.

 

 

5. Projektets løbetid

Projektets løbetid anslås til 6-7 år; men dette kan først vurderes helt konkret, når de igangværende undersøgelser vedr.  genbrug af eksisterende ordbogsdata, programmel, samarbejde  m.v. er gennemført. Det foreslås at projektplanen udarbejdes på en måde, så brugbare dele af ordbogen kan frigives efterhånden. Her tænkes dels på mindre udsnit af ordbogen (fx PAROLE-ordbogen, plus et afgrænset fagområde, eller PAROLE-ordbogen plus et par fagområder), dels som nævnt i afsnit 4.4 på udsnit af ordbogen med kun basislingvistiske oplysninger.

 

 

Referencer

 

Bech, A., I. Elfving, G. Engel, J. Lund, B. Maegaard, B.N. Madsen, A. Melchiors, A. Møller, F. Svanholm, K. Aakjær & R.H. Nielsen: Dansk sprogteknologi - status, perspektiver og handlemuligheder, Teknologinævnet, København 1994.

 

Bergenholtz, H. & S. Tarp: Manual i fagleksikografi, Udarbejdelse af fagordbøger, Problemer og løsningsforslag, Systime, 1994.

 

Boje, F. & L. Schøsler (eds.): DISEM- a Semantic MT-Component, in: CST Working Papers no. 1, Center for Sprogteknologi, 1992.

 

Copeland, C., J. Durand, S. Krauwer & B. Maegaard (eds.):  The Eurotra Linguistic Specifications,  in: Studies in Machine Translation and Natural Language Processing vol. 1, Luxembourg, 1991.

 

Navarretta, C.:  Encoding Danish Verbs in the Parole Model,  in: R. Mitkov, N. Nicolov & N. Nikolov (eds.) Recent Advances in Natural Language Processing, Tzigov Chark, Bulgarien, 1997.

 

Schøsler, L. & S. Kirchmeier-Andersen: Studies in Valency 2, The Pronominal Approach Applied to Danish, RASK Supplement vol. 2, Odense University Press, 1997.

 



[1] DANLEX var en dansk leksikografigruppe støttet af SHF, som bl.a. har udarbejdet en taksonomi for ordbøger.

[2] 2-årigt EU-projekt med partnere fra 15 lande. Formål: korpus og sprogteknologisk ordbog for hvert sprog. CST deltager sammen med Den Danske Ordbog. CST er underkontrahent til DDO, CST er ansvarlig for den sprogteknologiske ordbog, mens DDO er ansvarlig for korpus.

[3] Udforskning af Dansk Ordforråd og Grammatik. 5-årigt SHF-projekt, rammeprojekt med 5 deltagende institutioner, CST er projektleder.

[4] En sprogteknologisk ordbog kaldes også en orddatabase; en term der måske i højere grad angiver forskellen set i forhold til en almindelig ordbog.

[5] Odense Valensordbog.

[6] SIMPLE er et EU-projekt der påbegyndes i 1998 og som har til formål at udvide PAROLE-ordbogen med semantiske oplysninger. CST og DSL deltager i projektet.

[7] EUROTRA var et EU-projekt med partnere fra 12 lande. Formål: maskinoversættelse mellem 9 sprog, der var officielle arbejdssprog på det tidspunkt. Projektet sluttede i 1992. CST havde formandskabet for projektet 1986-1992.

[8] Fransk software-firma.