Menota T V B

Tekst- og verktøybase for Medieval Nordic Text Archive
Kodingsstandard, ordbankbygging og Heimskringla-edisjon


Arbeidsmøte i Oslo, 12. februar 2004

Deltakarar: Odd Einar Haugen (prosjektleiar Menota TVB), Christian-Emil Ore (Enhet for digital dokumentasjon, Oslo), og Karl G. Johansson (Senter for studiar i vikingtid og nordisk mellomalder, Oslo).

Møtestad: Enhet for digital dokumentasjon ved HF, Niels Henrik Abels hus, Blindern, Universitetet i Oslo.

Tidspunkt: kl. 13.00-15.30.

Referatet er skrive av Odd Einar Haugen.

 

1. Utlegging av Fritzners ordbok på nettet

Møtet vart halde for å drøfte det vidare arbeidet med å gjere Fritzners ordbok tilgjengeleg på nettet. Denne ordboka har vore inntasta i regi av Enhet for digital dokumentasjon under leiing av Christian-Emil Ore (CEO) og med fagleg støtte av Gammalnorsk ordboksverk. Inntastinga omfattar alle fire banda av ordboka.

CEO orienterte om bakgrunnen for arbeidet. Den elektroniske filen er no ferdig korrekturlesen og klar til å konverterast til XML etter Menotas standard. For tida arbeider CEO med å analysere ordboksartiklane med sikte på å byggje opp ein minimal DTD for ordboka. Denne DTD'en vil bli jamført med den som ligg til grunn for TEI Guidelines P4, kap. 12, "Print Dictionaries". CEO opplyste at denne langt på veg dekte behovet, men at det truleg var nødvendig å supplere TEIs DTD på enkelte punkt.

Arbeidsgangen blir om lag slik:

Fase 1

(1) Utvikling av ei søkjeside etter mønster av den som er laga for Norsk ordbok 2014 ("Metaordboka").
(2) Utarbeide ein DTD på grunnlag av ein sjølvstendig analyse av strukturen i Fritzners ordbok.
(3) Tilpassing av DTD for Fritzners ordbok til den som er utarbeidd for TEI Guidelines P4, kap. 12.
(4) Konvertering av teksten til XML etter Menotas DTD (med dei justeringar av denne som er nødvendig).
(5) Utlegging av teksten for søking på ei offentleg tilgjengeleg testside.
(6) Rapport om denne prosedyren.

Møtet kom fram til at eit realistisk frist for dette arbeidet ville vere 1. april 2004.

Fase 2

Når Fritzners ordbok er gjort søkbar, kan ein knyte oppslagsorda i lemmatiserte tekstar til dei respektive oppslagsorda i ordboka. Dette kan gjerast etter mønster av Norsk ordbok 2014, dvs. at ordboksartikkelen frå Fritzner kjem opp i eit separat vindauge innanfor rammene av tekstsøk i dei lemmatiserte tekstane. Barlaams ok Josaphats saga, som no er lagt ut i søkbar form, er godt eigna til testing av denne fasen. Fritzners ordbok har svært mange døme frå nettopp denne teksten (på grunnlag av utgåva til Keyser og Unger frå 1851).

CEO vil kunne skrive eit lite program som kan kallast opp frå tekstsidene og som då vil hente fram den ønskte ordboksartikkelen.

Det vart ikkje fastsett noko tidsskjema for denne fasen.

Fase 3

Karl G. Johansson peika på at Fritzners ordbok burde koordinerast med to sentrale svenske ordbøker: Söderwalls Ordbok över svenska medeltidsspråket og Schlyters Ordbok till Samlingen af Sveriges Gamla Lagar. Begge har vore koda ved Språkdata i Göteborg, og Söderwalls ordbok har lenge vore tilgjengeleg på nettet (rett nok med mangelfull registrering av oppslagsord på bokstaven "n"):

Söderwalls ordbok

Koordinering av desse ordbøkene innanfor Menota vil vere ei nærliggjande oppgåve ettersom det etter kvart vil kome inn mykje gammlanorsk tekst (frå Gammalnorsk Ordboksverk) og fornsvensk tekst (frå Vadstena-prosjektet). Karl G. Johansson vil ta kontakt med samarbeidspartnarane i Göteborg for å finne ut korleis det vidare arbeidet med desse ordbøkene blir prioritert og kva slags samarbeid som kan opprettast med Menota-prosjektet.

Det vart ikkje fastsett noko tidsskjema for denne fasen.

 

2. Lemmatisering

Møtet drøfta vidare ulike strategiar for maskinelt støtta lemmatisering. To typar av taggarar er aktuelle: taggarar med stort innslag av grammatiske reglar, t.d. den såkalla Oslo-Bergen-taggaren (basert på Constraint Grammar), og statistisk baserte taggarar, som t.d. den såkalla Brill-taggaren (utvikla av Eric Brill). CEO meinte at den siste typen ofte viste seg å gje like gode resultat som regelbaserte taggarar, trass i at den hadde mindre grammatisk innsikt. Det er mogleg at manuell lemmatisering med utgangspunkt i KWIC-konkordansar kan vere like raskt og sikkert som dei nemnde taggarane. Peter Robinson (De Montfort University, Leicester) har samla erfraing på dette feltet.

 

3. Nettsider og brukargrensesnitt

Møtet vart avrunda med ei drøfting av utforming av nettsider (webdesign) og ein del konkrete døme på korleis dette har vore gjort, m.a. Myntkabinettet i Oslo, Bergen Museum (m.a. Arkeoland), Aasen-tunet.

 


Oppretta 16.02.2004. Sist oppdatert 19.02.2004.