|
|
Menota
T V B Tekst- og
verktøybase for Medieval
Nordic Text Archive Arbeidsmøte i
Oslo, 19. mars 2003 Deltakarar:
Odd Einar Haugen (prosjektleiar Menota TVB),
Christian-Emil Ore (DOK-gruppa i Oslo), Daniel
Ridings (DOK-gruppa i Oslo) og Johan Utne Poppe
(HIT-senteret i Bergen). Møtestad:
Enhet
for digital dokumentasjon ved
HF
(DOK-gruppa), Niels Henrik Abels hus, Blindern,
Universitetet i Oslo. Tidspunkt:
kl. 09.00-15.00. Referatet er
skrive av Odd Einar Haugen. Det er ikkje
stenografisk, men tek sikte på å
oppsummere dei viktigaste avgjerdene på
møtet. 1 Statusrapport
Etter
møtet med Gammalnorsk
ordboksverk
07.02.2003 (sjå referat)
har Erik Simensen gått i gang med å
kontrollere Thomas saga erkibyskups, og
under føresetnad av at det blir sett av
midlar, vil timelønte assistentar gå i
gang med Strengleikar og Konungs
skuggsjá. DOK-gruppa kan setje av
lønsmidlar tilsvarande rundt tre
månadsverk (ca. 120.000 kr), og Gammalnorsk
ordboksverk vil søkje Institutt for
nordistikk og litteraturvitskap om ei
løyving på 100.000 kr. Det er to
interesserte kandidatar som kan utføre
arbeidet. 2 Utvikling av prototyp
for Thomas saga erkibyskups med både
tekst og faksimile DOK-gruppa har
farge-dias av heile Thomas saga erkibyskups
(Holm perg 17 4to), og kan skanne inn desse med
tanke på ei lenking mellom tekst og bilete.
Lenkinga kan gjerast relativt til plasseringa av
teksta på sida, slik at ein får opp eit
utdrag på 4-5 linjer der ein kan rekne med at
det aktuelle ordet er plassert. Det er mogleg med
ei heilt nøyaktig lenking mellom tekst og
bilete (etter fastlagde koordinatar), men dette
krev mykje arbeid og det er neppe nødvendig
med så høg presisjon - brukarane vil
under alle omstende ønskje å sjå
ein del av konteksten. Teksten må
først kontrollerast (jf. punkt 1 ovanfor),
og må deretter konverterast til
Menota-standard. Kungliga
Biblioteket i Stockholm må gje løyve
til at bileta blir skanna inn og utlagde på
nettet. Ettersom fotografia er innkjøpte for
rundt 10 år sidan er det neppe
nødvendig å hente inn løyve
frå fotografen. På dette tidspunktet
var ikkje fotografia verna i meir enn 10 år;
etter gjeldande lov er fotografi å rekne som
åndsverk med ei vernetid på 70 år
etter at fotografen er død. Dei innskanna
bilete blir lagra i den biletdatabasen som
DOK-gruppa har utvikla og som er brukt til lagring
for m.a. Museumsprosjektet. Dette er ein
Oracle-database der det er mogleg å leggje
inn omfattande og velstrukturert informasjon til
kvart bilete. For denne basen er det oppretta gode
rutinar for sikringskopiering ved Universitetet i
Oslo. Christian-Emil
Ore (med ryggen til) demonstrerer biletdatabasen
for Odd Einar Haugen. Fotograf: Daniel Ridings
19.03.2003. 3 Utvikling av
metaordbok Christian-Emil
Ore orienterte om oppbygging av ei metaordbok
for moderne norsk. For tida inneheld denne
materialet til Norsk ordbok (nynorsk), men
den kan utvidast i fleire retningar, og
Bokmålsordboka er allereie innlagd.
Dette databaseformatet kan utvidast til også
å omfatte gammalnorsk / norrønt. Det
vil vere praktisk å ta utgangspunkt i den
lemmalista som er utarbeidd av Ordbog over det
norrøne prosasprog i København og
samkjøre denne med Fritzners Ordbog over
Det gamle norske sprog, som no ligg føre
i ein XML-ekvivalent versjon. Dette kan danne
grunnlaget for ei norrøn metaordbok, som i
neste omgang kan lenkjast til det materialet som
Gammalnorsk ordboksverk har bygd opp (rundt
500.000 ord med full morfologisk
analyse). Metaordboka for
moderne norsk har rutinar for leddanalyse av ord.
For gammalnorsk / norrønt vil eit eksempel
vere substantivet "hamesso timi", der
"hámessa", "messutími", "messa" og
"tími" alle saman er aktuelle lemmata.
Rutinar for leddanalyse kan utarbeidast også
for det gammalnorske materialet, men det vil krevje
at <w>-taggane kan leggjast inni kvarandre
(nesting) i dei XML-koda tekstene som dannar
kjernen i arkivet. Spørsmålet vart
drøfta inngåande, og det vart
oppnådd semje om at denne leddanalysen kan
uførast på eit seinare tidspunkt med
utgangspunkt i lemmalista i metaordboka (t.d. ved
kryssreferering mellom ledd). Dette inneber at ein
under innføring av <w>-taggar i
tekstene bør maksimere omfanget av dei, slik
at i eksemplet "hamesso timi" vil heile ordet bli
omslutta av <w>-taggar og
"hámessutími" bli oppført som
lemma, <w
lemma="hámessutími">hamesso
timi</w>. 4 Utvikling av prototyp
for Barlaams ok Josaphats saga med
morfologisk søkjegrensesnitt Barlaams ok
Josaphats saga er no konvertert til
Menota-standard, men nokre av entitetane må
oppdatertast som følgje av endringar i det
aller siste. Vidare har nokre sentrale element
fått nye namn: <orig> er omdøypt
til <facs>, <expForm> til <dipl>
og <reg> til <norm>. Dette vil vere
klart når versjon 1.0 av Menota
handbook
blir lagt ut før påske og DTD
oppdatert. Etter framlegg
frå Daniel Ridings vart det semje om å
justere bruken av EAGLES-standarden slik at *
(asterisk) vart erstatta med @ (alfrakrøll /
krøllalfa / skillingsbolle / kanelbolle /
grisehale) for uvisse morfologiske kategoriar og #
(hesh / skigard) for irrelevante
kategoriar. Daniel Ridings
har utvikla søkjeverktøy retta mot
Oracle-databasen ved Universitetet i Oslo. Med
desse verktøya kan ein m.a. gjere
frekvenssøk og søk på
kollokasjonar (kva for ord som opptrer i lag med
andre ord). Johan Utne Poppe vil på si side
utvikle søkjeverktøy med utgangspunkt
i Corpus Workbench. Utgangspunktet vil her vere
Barlaams ok Josaphats saga, og han vil
få materiale frå Dok-gruppa. Det er
enno uavklart kva for søkjeverktøy
som er mest veleigna, og i første fase av
prosjektet vil det derfor vere aktuelt å
prøve ut ulike teknikkar i samarbeid mellom
personale ved DOK-gruppa og
HIT-senteret. 5 Utvikling av
"Menota-lesar" For vising av
søk i dei XML-koda tekstene er det
nødvendig med ein "Menota-lesar", dvs. eit
stilark som er i stand til å fange opp
nødvendig informasjon om dei tekstbitane som
blir plukka ut av søkjemotoren. For korrekt
vising vil det vere nødvendig å
gå eit stykke bakover i teksten for å
få med seg informasjon om tekststrukturen,
t.d. om <div>, <pb>, <lb> o.l.
Dette kan utviklast av Johan Utne Poppe i samarbeid
med Vemund Olstad på HIT-senteret. 6 Rutinar for
halvautomatisk lemmatisering Med det store
materialet av lemmatiserte ord som Gammalnorsk
ordboksverk har bygd opp er det ikkje fornuftig
å lemmatisere tekster for hand, så
å seie. Det er mykje tid å spare
på å bruke halvautomatiske
lemmatiseringsteknikkar - jf. røynslene
frå Canterbury Tales-prosjektet, der 3,6
millionar ord vart lemmatiserte på 3-4
månader. 7
Oppsummering Ansvaret for det
vidare arbeidet blir fordelt slik: 1. Odd Einar
Haugen: gjer avtale med Magnus Rindal og Jon
Erik Hagen om bruk av den lemmatiserte versjonen av
Barlaams ok Josaphats saga (Holm perg 6
fol.). 2.
Christian-Emil Ore: gjer avtale med Kungliga
biblioteket, Stockholm, om innskanning og utlegging
av digitaliserte faksimilar av Thomas saga
erkibyskups (Holm perg 17 4to). Utarbeider
rutinar for lenking mellom tekst og bilete av denne
teksten. 3. Odd Einar
Haugen: gjer avtale med Ordbog over det
norrøne prosasprog, København, om
bruk av den lemmalista som ordboka har
utarbeidd. 4.
Christian-Emil Ore: byggjer opp skjelettet
til ei metaordbok gjennom å kople saman
lemmalista frå København med Friztners
ordbok. 5. Johan Utne
Poppe: utarbeider utkast til Corpus
Workbench-søkjeverktøy mot
Barlaams ok Jospahats saga på grunnlag
av materiale overført frå Dok-gruppa
v/Daniel Ridings. 6. Johan Utne
Poppe: utarbeider med hjelp av Vemund Olstad
stilark som gjer det mogleg å vise tekst med
korrekt formatering, "Menota-lesar". 7. Johan Utne
Poppe: undersøkjer kva som finst av
kunnskap om halvautomatisk lemmatisering på
HIT-senteret. 8. Odd Einar
Haugen: oppdaterer kap. 8 i Menota
handbook med endringane i kodingsstandarden
(utskifting av * med @ og #). 9. Daniel
Ridings: kontrollerer endringane i
praktiseringa av EAGLES-standarden og testar ut
desse på kodinga av Barlaam ok Josaphats
saga. Ingen merknader
til referatet kom innan fristen
25.03.2003.
|