|
Prosjektmøte
i Bergen, 24.04.2002
Deltagere: Odd
Einar Haugen, Christian-Emil Ore, Tone Merete
Bruvik, Jørn Thunestvedt, Johan Poppe og
Vemund Olstad.
Møtested:
HIT-Senteret, 4. etasje
Tidspunkt: kl.
10.00-12.15
Referent: Vemund
Olstad
Bakgrunnen for
dette møtet er at det nå er på
tide å diskutere praktiske tiltak for å
få gjort noen av Menotas tekster
tilgjengelige for sluttbrukerne. I denne
forbindelse er det på sin plass med en liten
oversikt over hvilke tekster som kan være
aktuelle for publisering i første
omgang:
1) De
middelaldertekstene som allerede ligger i
Oracle-databasen i Oslo. Dette er et omfattende
materiale, som allerede er lemmatisert og som
også inneholder informasjon om ordklasse
og bøyning. Christian-Emil mener at det
fint skulle la seg gjøre å få
disse tekstene over i "Menota-format".
Materialet omfatter disse tekstene: Barlaams ok
Josaphats saga, Konungs skuggsjá,
Óláfs saga ins helga,
Strengleikar, Thidriks saga, Thomas saga
erkibyskups og alle norske diplom i gammelnorsk
språkform fram til 1308.
2) Materialet
som ble utarbeidet ved Senter for høyere
studier fram til juni 2001. Dette materialet er
kodet i XML og følger (med visse
modifikasjoner) Menotas kodepraksis, men det er
ikke lemmatisert. I dette materialet finnes
bl.a. en transkripsjon av Codex Wormianus (AM
242 fol.) og deler av Heimskringla.
3) Annet
materiale. Under dette punktet hører de
tekstene som har blitt kodet direkte i henhold
til Menotas retningslinjer.
Odd Einar har en
inndeling av sluttbrukerne i to grupper:
1) De
som er interessert i tekstene i sin
helhet.
2) De som
ønsker å undersøke spesielle
(lingvistiske) fenomener.
Det vil si at et
webgrensesnitt må deles inn i to deler. Ett
indekseringssystem som gir lister over hvilke
tekster som finnes i databasen, sortert ut ifra
flere forskjellige kriterier. I tillegg er man
nødt til å ha et
søkeverktøy som kan søke i
enkeltord og ordformer.
Christian-Emil
forklarte så hvordan det eksisterende
systemet i Oslo er bygd opp. Kort fortalt er dette
en Oracle-database som inneholder tekstene i sin
helhet. Parallelt med dette finnes et
korpus-program som inneholder alle tekstene i
databasen, men behandlet for å kunne få
til søk på ord-nivå. Disse
ordene er søkbare gjennom en egen
korpus-klient (CQP).
For å
få gjort tekstene tilgjengelig på
ønsket måte er det en del punkter som
må gjenomføres.
1) Vi
(HIT-Senteret) er nødt til å lage
en rutine for å få lagt
Menota-kodede tekster inn i Oracle-databasen og
Corpus Workbench (CQP). Dette kan gjøres
i praksis ved at man enten lager et Cgi-script
eller et XSLT-stilark som gjør om
tekstene til kommaseparerte filer. Det er
enighet om at Rune Kyrkjebøs
Heimskringla-tekst kan brukes som testmateriale
i denne sammenheng.
2) Når
det gjelder søking i CQP-klienten, er det
to oppgaver som må gjøres. I Odd
Einars forslag til søkekriterier
går det fram at disse i stor grad baserer
seg på informasjon som ligger i TEIHeader.
Det vil si at man i er nødt til å
ta stilling til hvilke felter som skal
være obligatoriske og eventuelt på
hvilke områder DTDen må endres.
Samtidig må selve søkegrensesnittet
utformes. Her er det sikkert mulig å
basere seg på allerede eksisterende
grensesnitt, men de må da i tilfelle
tilpasses Menotas behov.
3) Når
det gjelder del to av brukergrensesnittet -
indeksen, så vil denne kunne bli
automatisk generert ut ifra hva som til en hver
tid befinner seg i databasen. Det som imidlertid
må gjøres, er å få
laget til en "mal" over hvordan disse listene
skal presenteres. Dette kan trolig Anne
Lindebjerg ved HIT gjøre, ettersom hun
har en del erfaring med design av
web-sider.
4) Når
det gjelder direkte visning av tekstene over
web, så er vi da tilbake til de
font-problemene som også har vært
diskutert tidligere. Nå har vi kommet et
stykke på vei mot en løsning, men
dette vil fortsatt ta litt tid. Det vil i
praksis si at pr. i dag kan vi få til
visning på nivåene normalisert tekst
(<reg>) og ekspandert tekst
(<expForm>) under forutsetning av at
sluttbrukerne har en standard Unicode-font i
sitt system. Det siste nivået, ekspandert
tekst, er for øvrig den form som
Oslo-materialet har. Derimot har vi ennå
ikke på plass en løsning for
visning på nivået faksimilert tekst
(<orig>), der også ulike
abbreviaturtegn, ligaturer osv. skal vises. Her
arbeider vi videre med en løsning som
innebærer visning i PDF-format, ettersom
det da er mulig å "bake inn" en
spesialfont for visning av de nødvendige
tegnene. Odd Einar koordinerer arbeidet med
denne fonten.
|