Menota logoMenota logo2
Hovedside
Menota Handbook
English

Referat fra MLA-kollokvium

Oslo 29.-30.05.2006

Møtet ble holdt i Henrik Wergelands hus, Universitetet i Oslo, mandag 29. mai 2006, kl. 09.00–17.30, og tirsdag 30. mai, kl. 09.00–16.00.

Til stede: Karl G. Johansson (Oslo, Vadstena-prosjektet og Menota), Odd Einar Haugen (Bergen, Menota, ordstyrer og referent), Maria Arvidsson (Oslo, Vadstena-prosjektet), Haraldur Bernhardsson (Reykjavík, Edda-prosjektet), Mette Gismerøy Ekker (Oslo, Enhet for digital dokumentasjon ), Alex S. Kjeldsen (København, Menota-prosjektet), Paul Meurer (Bergen, MLA-programmerer), Jóhannes B. Sigtryggsson (Reykjavík, Edda-prosjektet). Forfall: Christian-Emil Ore (Oslo, Enhet for digital dokumentasjon) og Guðvarður Már Gunnlaugsson (Reykjavík, Menota).

Møtet var organisert av Odd Einar Haugen og Karl G. Johansson. Formålet med møtet var å drøfte praktiske erfaringer med Menota Lemmatisation Assistant (MLA), en lemmatiseringstjeneste utviklet av Paul Meurer ved Aksis på grunnlag av Corpus Workbench-rutiner. MLA har nå vært testet på to prosjekter, Edda-prosjektet i Reykjavík og Vadstena-prosjektet i Oslo, foruten av noen individuelle forskere, bl.a. Alex S. Kjeldsen og Florian Grammel i København.

Til grunn for møtet lå tre notat; ett fra Maria Arvidsson og Mette G. Ekker, ett fra Haraldur Bernhardsson og Jóhannes B. Sigtryggsson, og ett fra Alex S. Kjeldsen. Notatene fokuserte på problemer med MLA og forslag til nye funksjoner. I tillegg ble også filologiske problemer diskutert.

Notatene ble lagt frem og diskutert tematisk. Det viste seg å være tid til å gå gjennom samtlige punkter i notatene, selv om noen ble kursorisk behandlet. Enkelte punkter var også sammenfallende i de tre notatene.

Dette referatet er summarisk og forsøker å oppsummere det som man ble enig om på møtet.

 

1. Tekniske forhold ved MLA

En rekke tekniske forhold ble drøftet på møtet. I noen tilfeller gjaldt det feilretting, som til dels ble utført på stedet av Paul Meurer. I andre tilfeller gjaldt det ønske om ny eller forbedret funksjonalitet. Møtet ble enig om å prioritere disse endringene i juni måned (før Paul går ut i permisjon):

1. Oppretting av opplagte og trivielle feil.

2. Innlegging av et nytt felt for koding på facs-nivå.

3. Behandling av sammensetninger og enklitika (se mer om dette i pkt. 3 nedenfor).

4. Innarbeiding av et skille mellom "suppress" (for analyseforslag som ikke er formålstjenlige, f.eks. fordi de er svært marginale) og "delete" (for fjerning av rene feil i lemmatiseringen).

5. Korrekt visning av tekst på norm-nivået.

6. Generering av full alfabetisk konkordans også av store filer, dvs. på inntil 100.000 ord (må eventuelt utsettes til MLA er flyttet over til en maskin med 64 bits-prosessor). Det kan nevnes at Codex Regius av edda-diktene har ca. 38.000 ord, mens Codex Wormianus har ca. 61.000 ord og Morkinskinna ca. 94.000 ord.

7. Forbedret dokumentasjon av hva MLA faktisk kan tilby av muligheter, ikke minst når det gjelder ulike former for kollokasjoner, indekser og konkordanser. Dette vil trolig skje i samarbeid mellom Paul og Odd Einar. Det finnes en viss dokumentasjon for ASK-prosjektet (Norsk som andrespråk, under ledelse av Kari Tenfjord, Nordisk institutt, Universitetet i Bergen).

Fire saker ble prioritert lavere, og må kan hende vente til Paul er tilbake fra sin permisjon, dvs. til november 2006.

1. Utarbeidelse av en XML-editor som gjør det mulig å rette opp den underliggende XML-filen mens man arbeider i MLA, altså uten at man må gå ut av MLA, rette opp teksten i en separat XML-editor, og så laste opp den reviderte XML-filen på nytt. Paul sa at det var mulig å lage til en slik løsning, men han kunne ikke garantere at det var tid til det i 2006. Dette ønsket har også kommet fra ASK-prosjektet, så her skulle det være mulig med en viss koordinering.

2. Eksportering av fullstendige leksika. Dette er et opplagt ønskemål, men bør vente til den første teksten (trolig Edda-diktene) er ferdig lemmatisert.

3. Grensesnittet for MLA bør legges opp slik at man kan lemmatisere uten å bruke mus - dvs. med tastatur-kommandoer hele veien. Det var enighet om at dette var et viktig ergonomisk poeng.

4. MLA må utvides med en modul for å analysere sammensatte ord gjennom egne <m>-elementer, som skissert i pkt. 3 nedenfor. Konkret eksempel: Dersom teksten er kodet slik at "veiði kona" er forstått som ett ord, <w>veiði kona</w>, bør det være mulig å legge inn to <m>-elementer i MLA, for <m>veiði</m> og <m>kona</m>.

 


Sak 2: Synkretisme og ordklasser

Møtet diskuterte inngående noen problemer i den menotiske standarden, slik denne er lagt fram i Menota handbook kap. 2 og 8. På flere punkter kom møtet fram til en forbedret koding, som vil bli innarbeidet i den pågående revisjonen av Menota handbook.

1. Synkretisme. Når det gjelder koding av synkretisme, ble det understreket at full analyse av hver form måtte gies i både lemma- og pos-attributtet i et entydig, distributivt forhold. Eksempel: ordformen "sinni" kan enten være dativ av "sinn" eller enten akkusativ eller dativ av "sinni". Forenklet gjengitt må da kodingen være slik (der "|" skiller mellom ulike lesninger): <w lemma="sinn | sinni | sinni" pos="dat | dat | akk">sinni</w>

2. Åpen analyse av preposisjoner/adverb. I enkelte tilfeller kan det være svært vanskelig å avgjøre om et ord skal klassifiseres som en preposisjon eller som et adverb - dette gjelder når preposisjonen står absolutt (uten utfylling) eller når den fungerer som verbalpartikkel. Vi bør derfor innføre xAP som ordklasse for prototypiske preposisjoner (f.eks. i fraser som "í hendi", "til matar", "undir honum"), xPV for de nevnte tvisltilfellene (slik at lemmatisøren ikke skal bruke unødig tid på finurlige syntaktiske analyser) og endelig xAV for de prototypiske adverbene (typen "oft", "gjarna"). Dette blir innført i kap. 8 av Menota handbook.

3. Ekspletivpartikkelen of/um. I eddadiktene kan det være tjenlig å skille ut ekspletivpartikkelen of/um i en egen ordklasse, til forskjell fra de likelydende preposisjonene of/um. Dette blir vurdert under oppdateringen av kap. 8 i Menota handbook.

4. Adverbiell bruk av adjektiv. Nøytrumsformer av adjektiv kan brukes adverbielt, f.eks. "hann kallaði hátt". Vi anbefaler her å kode disse som akk. sing. nøytr. av adjektivet, altså med full oppmerking, heller enn å innføre en kategori "adverbiell bruk" e.l. Fra et rent morfologisk synspunkt vil akk. sing. nøytr. være en korrekt analyse; det er ikke nødvendig å gi en syntaktisk analyse i tillegg.

5. Supinum. Etter verbet "hafa" opptrer typisk supinum av verb. Denne formen er formelt identisk med akk. sing. nøytr. av perf. part., og vi anbefaler å gi denne analysen. Resonnementet er det samme som for adjektiv i adverbiell bruk. Merk at på bakgrunn av den eldre konstruksjonen "hann hefir bók keypta" (objekt + objektspredikativ) blir "hann hefir hús keypt" tvetydig (enten objekt + objektspredikativ eller objekt + supinum). Dette taler for å analysere "keypt" som perf. part. akk. sing. nøytr. i både "hann hefir hús keypt" (tvetydig) og "hann hefir keypt hús" (entydig supinum).

6. Kardinaltall. Med unntak av tallet "einn" bør det ikke være nødvendig å kode kardinaltallene (tveir, þrír, fjórir, fimm, etc.) for numerus - de har inherent flertall.

7. Oppslagsform for partisipper. Vi følger den regelen som ONP praktiserer, nemlig at dersom partisippet kan føres tilbake til et verb, blir infinitiven brukt som oppslagsform; ellers partisippet. Således vil "búa" bli oppslagsform til "búinn" (selv om "búinn" var i ferd med å bli leksikalisert i norrønt). Derimot finnes det ikke noe verb "ítrbera" for partisippet "ítrborinn" (høybåren), og da må "itrborinn" velges som oppslagsform.

8. Homonymi. Noen tilsynelatende identiske ord kan ha svært ulike betydninger (og gjerne også ulik etymologi) slik at ordbøkene setter opp flere lemmata (oppslagsformer), f.eks. "mæla" i betydningen "si, tale" og i betydningen "måle". Vi anbefaler likevel å ikke gjøre noen forskjell i slike tilfeller, uten at det er formelle trekk som skiller, f.eks. at to likelydende substantiv har forskjellig genus, eller at to verb hører til ulike klasser , f.eks. "brenna" (svakt verb, transitivt) og "brenna" (sterkt verb, intransitivt).

9. Romertall. Vi anbefaler at det ikke blir gjort noen lemmatisering av disse, altså ikke <w lemma="fjórir">.iv.</w>.

10. Person- og stedsnavn. Dette spørsmålet får et eget (under)kapittel i versjon 2.0 av Menota handbook. For norrøne personnavn anbefaler vi å bruke E.H. Lind "Norsk-isländska dopnamn ock fingerade namn från medeltiden" (1905, supplementsband 1931) og "Norsk-isländska personbinamn från medeltiden" (1920), og for svenske namn verket Sveriges medeltida personnamn (1967-)

 


Sak 3: Sammen- og særskriving; enklise

I de fleste tilfeller er orddelingen i håndskriftene i samsvar med den orddelingen som lemmatisøren vil velge. Men i noen tilfeller er ord særskrevet, f.eks. "veiði kona", der lemmatisøren gjerne vil velge ett ord, "veiðikona". I andre tilfeller er to ord sammenskrevet, f.eks. "alande" for preposisjonsfrasen "á landi". I forlenging av dette finnes det flere typer av enklise i norrønt, ikke bare i forbindelse med verb, men også negasjonspartikler (hyppig i eddadiktingen). Disse spørsmålene ble drøftet inngående på møtet og skrevet ut i et eget notat (oppdatert etter møtet):

Forslagene vil bli lagt inn på aktuelle steder i kap. 2 og 8 av Menota handbook. Under diskusjonen av enklise i kap. 8 kan det være tjenlig å beholde næværende kode (eE), men gjøre et skille for Host og Guest e.l.

 


Sak 4: Ortografisk standard

Møtet ble enig om at man for de norrøne tekstene skulle legge til grunn ortografien i Ordbog over det norrøne prosasprog (ONP) i dens til enhver tid siste versjon. Det har nylig vært gjort noen mindre justeringer, særlig for /pt/, som nå blir gjengitt med "ft", altså former som "oft" og "eftir" heller enn "opt" og "eptir". Ortografien kan avledes av den lemmalisten som ONP holder løpende oppdatert. Det virker sannsynlig at det ikke blir større endringer i ortografien heretter. Det avgjørende er at lemma-formene får en ensartet ortografi, ettersom disse bør være identiske for hele det norrøne materialet. Normaliseringen av de enkelte tekstene på norm-nivået er derimot en annen sak; her kan man tenke seg ulike typer av normaliseringer - f.eks. en gammelnorsk standard, en sen-islandsk standard osv.

Når det gjelder det fornsvenske materialet, er det naturlig å legge Söderwall til grunn.

Ortografien i Barlaams ok Jospahats saga etter Holm perg 6 fol følger en litt annen normal enn ONP, bl.a. blir konsonantisk /j/ gjengitt som /i/, og de lange vokalene /ø:/ og /æ:/ blir gjengitt som ligaturene "œ" og "æ" uten aksenter. Begge disse lange vokalene bør ha aksenter, i samsvar med ONP (og, for den saks skyld, Noreens grammatikk). Disse tegnene ligger i Unicode-standarden og volder ikke lenger visningsproblemer.

Noen former i ONP er hypotetiske, spesielt gjelder dette substantiv som bare har flertallsformer, men som likevel blir oppført i entall, typen "ørlag" og "skap". Dog har ONP veket tilbake fra å føre opp "dur" som oppslagsform for "dyrr" (dvs. dør, alltid i flertall). Det ble enighet om at man kunne vurdere en kort liste med avvik fra ONP for disse ordenes vedkommende.

Når det gjelder sideformer i ONP, f.eks. "blóðigrm blóðugr", var det enighet om å alltid legge den første formen til grunn, men å opprette pekere fra den andre formen. En tilsvarende løsning vil gjelde for de nevnte entallsformene av typen "ørlag" og "skap".

Møtet var enig om at ortografien i ONP og Gammalnorsk Ordboksverk (GNO) må koordineres innenfor rammene av MLA. I praksis innebærer dette at avvikene mellom ONP og GNO må kartlegges. Mette G. Ekker vil ta dette opp med Christian-Emil for samarbeid med det pilotprosjektet på metaordboken som de skal igang med. I første omgang planlegger hun å sammenligne ONP, GNO og Fritzner for bokstaven 'b', dvs. lage en 'avviks-liste' for disse slik at man kan sette opp regler for samkjøring av de tre ordlistene. Barlaams ok Jospahats saga følger samme ortografiske norm som GNO-materialet forøvrig, og inngår dermed i dette.

 


Bergen, 13.06.2006
Odd Einar Haugen