Menota T V B

Tekst- og verktøybase for Medieval Nordic Text Archive
Kodingsstandard, ordbankbygging og Heimskringla-edisjon


Arbeidsmøte i Oslo, 19. mars 2003

Deltakarar: Odd Einar Haugen (prosjektleiar Menota TVB), Christian-Emil Ore (DOK-gruppa i Oslo), Daniel Ridings (DOK-gruppa i Oslo) og Johan Utne Poppe (HIT-senteret i Bergen).

Møtestad: Enhet for digital dokumentasjon ved HF (DOK-gruppa), Niels Henrik Abels hus, Blindern, Universitetet i Oslo.

Tidspunkt: kl. 09.00-15.00.

Referatet er skrive av Odd Einar Haugen. Det er ikkje stenografisk, men tek sikte på å oppsummere dei viktigaste avgjerdene på møtet.

 

1 Statusrapport

Etter møtet med Gammalnorsk ordboksverk 07.02.2003 (sjå referat) har Erik Simensen gått i gang med å kontrollere Thomas saga erkibyskups, og under føresetnad av at det blir sett av midlar, vil timelønte assistentar gå i gang med Strengleikar og Konungs skuggsjá. DOK-gruppa kan setje av lønsmidlar tilsvarande rundt tre månadsverk (ca. 120.000 kr), og Gammalnorsk ordboksverk vil søkje Institutt for nordistikk og litteraturvitskap om ei løyving på 100.000 kr. Det er to interesserte kandidatar som kan utføre arbeidet.

 

2 Utvikling av prototyp for Thomas saga erkibyskups med både tekst og faksimile

DOK-gruppa har farge-dias av heile Thomas saga erkibyskups (Holm perg 17 4to), og kan skanne inn desse med tanke på ei lenking mellom tekst og bilete. Lenkinga kan gjerast relativt til plasseringa av teksta på sida, slik at ein får opp eit utdrag på 4-5 linjer der ein kan rekne med at det aktuelle ordet er plassert. Det er mogleg med ei heilt nøyaktig lenking mellom tekst og bilete (etter fastlagde koordinatar), men dette krev mykje arbeid og det er neppe nødvendig med så høg presisjon - brukarane vil under alle omstende ønskje å sjå ein del av konteksten.

Teksten må først kontrollerast (jf. punkt 1 ovanfor), og må deretter konverterast til Menota-standard.

Kungliga Biblioteket i Stockholm må gje løyve til at bileta blir skanna inn og utlagde på nettet. Ettersom fotografia er innkjøpte for rundt 10 år sidan er det neppe nødvendig å hente inn løyve frå fotografen. På dette tidspunktet var ikkje fotografia verna i meir enn 10 år; etter gjeldande lov er fotografi å rekne som åndsverk med ei vernetid på 70 år etter at fotografen er død.

Dei innskanna bilete blir lagra i den biletdatabasen som DOK-gruppa har utvikla og som er brukt til lagring for m.a. Museumsprosjektet. Dette er ein Oracle-database der det er mogleg å leggje inn omfattande og velstrukturert informasjon til kvart bilete. For denne basen er det oppretta gode rutinar for sikringskopiering ved Universitetet i Oslo.

 

Christian-Emil Ore (med ryggen til) demonstrerer biletdatabasen for Odd Einar Haugen. Fotograf: Daniel Ridings 19.03.2003.

 

3 Utvikling av metaordbok

Christian-Emil Ore orienterte om oppbygging av ei metaordbok for moderne norsk. For tida inneheld denne materialet til Norsk ordbok (nynorsk), men den kan utvidast i fleire retningar, og Bokmålsordboka er allereie innlagd. Dette databaseformatet kan utvidast til også å omfatte gammalnorsk / norrønt. Det vil vere praktisk å ta utgangspunkt i den lemmalista som er utarbeidd av Ordbog over det norrøne prosasprog i København og samkjøre denne med Fritzners Ordbog over Det gamle norske sprog, som no ligg føre i ein XML-ekvivalent versjon. Dette kan danne grunnlaget for ei norrøn metaordbok, som i neste omgang kan lenkjast til det materialet som Gammalnorsk ordboksverk har bygd opp (rundt 500.000 ord med full morfologisk analyse).

Metaordboka for moderne norsk har rutinar for leddanalyse av ord. For gammalnorsk / norrønt vil eit eksempel vere substantivet "hamesso timi", der "hámessa", "messutími", "messa" og "tími" alle saman er aktuelle lemmata. Rutinar for leddanalyse kan utarbeidast også for det gammalnorske materialet, men det vil krevje at <w>-taggane kan leggjast inni kvarandre (nesting) i dei XML-koda tekstene som dannar kjernen i arkivet. Spørsmålet vart drøfta inngåande, og det vart oppnådd semje om at denne leddanalysen kan uførast på eit seinare tidspunkt med utgangspunkt i lemmalista i metaordboka (t.d. ved kryssreferering mellom ledd). Dette inneber at ein under innføring av <w>-taggar i tekstene bør maksimere omfanget av dei, slik at i eksemplet "hamesso timi" vil heile ordet bli omslutta av <w>-taggar og "hámessutími" bli oppført som lemma, <w lemma="hámessutími">hamesso timi</w>.

 

4 Utvikling av prototyp for Barlaams ok Josaphats saga med morfologisk søkjegrensesnitt

Barlaams ok Josaphats saga er no konvertert til Menota-standard, men nokre av entitetane må oppdatertast som følgje av endringar i det aller siste. Vidare har nokre sentrale element fått nye namn: <orig> er omdøypt til <facs>, <expForm> til <dipl> og <reg> til <norm>. Dette vil vere klart når versjon 1.0 av Menota handbook blir lagt ut før påske og DTD oppdatert.

Etter framlegg frå Daniel Ridings vart det semje om å justere bruken av EAGLES-standarden slik at * (asterisk) vart erstatta med @ (alfrakrøll / krøllalfa / skillingsbolle / kanelbolle / grisehale) for uvisse morfologiske kategoriar og # (hesh / skigard) for irrelevante kategoriar.

Daniel Ridings har utvikla søkjeverktøy retta mot Oracle-databasen ved Universitetet i Oslo. Med desse verktøya kan ein m.a. gjere frekvenssøk og søk på kollokasjonar (kva for ord som opptrer i lag med andre ord). Johan Utne Poppe vil på si side utvikle søkjeverktøy med utgangspunkt i Corpus Workbench. Utgangspunktet vil her vere Barlaams ok Josaphats saga, og han vil få materiale frå Dok-gruppa. Det er enno uavklart kva for søkjeverktøy som er mest veleigna, og i første fase av prosjektet vil det derfor vere aktuelt å prøve ut ulike teknikkar i samarbeid mellom personale ved DOK-gruppa og HIT-senteret.

 

5 Utvikling av "Menota-lesar"

For vising av søk i dei XML-koda tekstene er det nødvendig med ein "Menota-lesar", dvs. eit stilark som er i stand til å fange opp nødvendig informasjon om dei tekstbitane som blir plukka ut av søkjemotoren. For korrekt vising vil det vere nødvendig å gå eit stykke bakover i teksten for å få med seg informasjon om tekststrukturen, t.d. om <div>, <pb>, <lb> o.l. Dette kan utviklast av Johan Utne Poppe i samarbeid med Vemund Olstad på HIT-senteret.

 

6 Rutinar for halvautomatisk lemmatisering

Med det store materialet av lemmatiserte ord som Gammalnorsk ordboksverk har bygd opp er det ikkje fornuftig å lemmatisere tekster for hand, så å seie. Det er mykje tid å spare på å bruke halvautomatiske lemmatiseringsteknikkar - jf. røynslene frå Canterbury Tales-prosjektet, der 3,6 millionar ord vart lemmatiserte på 3-4 månader.

 

7 Oppsummering

Ansvaret for det vidare arbeidet blir fordelt slik:

1. Odd Einar Haugen: gjer avtale med Magnus Rindal og Jon Erik Hagen om bruk av den lemmatiserte versjonen av Barlaams ok Josaphats saga (Holm perg 6 fol.).

2. Christian-Emil Ore: gjer avtale med Kungliga biblioteket, Stockholm, om innskanning og utlegging av digitaliserte faksimilar av Thomas saga erkibyskups (Holm perg 17 4to). Utarbeider rutinar for lenking mellom tekst og bilete av denne teksten.

3. Odd Einar Haugen: gjer avtale med Ordbog over det norrøne prosasprog, København, om bruk av den lemmalista som ordboka har utarbeidd.

4. Christian-Emil Ore: byggjer opp skjelettet til ei metaordbok gjennom å kople saman lemmalista frå København med Friztners ordbok.

5. Johan Utne Poppe: utarbeider utkast til Corpus Workbench-søkjeverktøy mot Barlaams ok Jospahats saga på grunnlag av materiale overført frå Dok-gruppa v/Daniel Ridings.

6. Johan Utne Poppe: utarbeider med hjelp av Vemund Olstad stilark som gjer det mogleg å vise tekst med korrekt formatering, "Menota-lesar".

7. Johan Utne Poppe: undersøkjer kva som finst av kunnskap om halvautomatisk lemmatisering på HIT-senteret.

8. Odd Einar Haugen: oppdaterer kap. 8 i Menota handbook med endringane i kodingsstandarden (utskifting av * med @ og #).

9. Daniel Ridings: kontrollerer endringane i praktiseringa av EAGLES-standarden og testar ut desse på kodinga av Barlaam ok Josaphats saga.

 

Ingen merknader til referatet kom innan fristen 25.03.2003.


Oppretta 20.03.2003. Sist oppdatert 26.03.2003.