Prosjektmøte i Bergen, 24.04.2002

Deltagere: Odd Einar Haugen, Christian-Emil Ore, Tone Merete Bruvik, Jørn Thunestvedt, Johan Poppe og Vemund Olstad.

Møtested: HIT-Senteret, 4. etasje

Tidspunkt: kl. 10.00-12.15

Referent: Vemund Olstad

Bakgrunnen for dette møtet er at det nå er på tide å diskutere praktiske tiltak for å få gjort noen av Menotas tekster tilgjengelige for sluttbrukerne. I denne forbindelse er det på sin plass med en liten oversikt over hvilke tekster som kan være aktuelle for publisering i første omgang:

1) De middelaldertekstene som allerede ligger i Oracle-databasen i Oslo. Dette er et omfattende materiale, som allerede er lemmatisert og som også inneholder informasjon om ordklasse og bøyning. Christian-Emil mener at det fint skulle la seg gjøre å få disse tekstene over i "Menota-format". Materialet omfatter disse tekstene: Barlaams ok Josaphats saga, Konungs skuggsjá, Óláfs saga ins helga, Strengleikar, Thidriks saga, Thomas saga erkibyskups og alle norske diplom i gammelnorsk språkform fram til 1308.

2) Materialet som ble utarbeidet ved Senter for høyere studier fram til juni 2001. Dette materialet er kodet i XML og følger (med visse modifikasjoner) Menotas kodepraksis, men det er ikke lemmatisert. I dette materialet finnes bl.a. en transkripsjon av Codex Wormianus (AM 242 fol.) og deler av Heimskringla.

3) Annet materiale. Under dette punktet hører de tekstene som har blitt kodet direkte i henhold til Menotas retningslinjer.

Odd Einar har en inndeling av sluttbrukerne i to grupper:

1) De som er interessert i tekstene i sin helhet.

2) De som ønsker å undersøke spesielle (lingvistiske) fenomener.

Det vil si at et webgrensesnitt må deles inn i to deler. Ett indekseringssystem som gir lister over hvilke tekster som finnes i databasen, sortert ut ifra flere forskjellige kriterier. I tillegg er man nødt til å ha et søkeverktøy som kan søke i enkeltord og ordformer.

Christian-Emil forklarte så hvordan det eksisterende systemet i Oslo er bygd opp. Kort fortalt er dette en Oracle-database som inneholder tekstene i sin helhet. Parallelt med dette finnes et korpus-program som inneholder alle tekstene i databasen, men behandlet for å kunne få til søk på ord-nivå. Disse ordene er søkbare gjennom en egen korpus-klient (CQP).

For å få gjort tekstene tilgjengelig på ønsket måte er det en del punkter som må gjenomføres.

1) Vi (HIT-Senteret) er nødt til å lage en rutine for å få lagt Menota-kodede tekster inn i Oracle-databasen og Corpus Workbench (CQP). Dette kan gjøres i praksis ved at man enten lager et Cgi-script eller et XSLT-stilark som gjør om tekstene til kommaseparerte filer. Det er enighet om at Rune Kyrkjebøs Heimskringla-tekst kan brukes som testmateriale i denne sammenheng.

2) Når det gjelder søking i CQP-klienten, er det to oppgaver som må gjøres. I Odd Einars forslag til søkekriterier går det fram at disse i stor grad baserer seg på informasjon som ligger i TEIHeader. Det vil si at man i er nødt til å ta stilling til hvilke felter som skal være obligatoriske og eventuelt på hvilke områder DTDen må endres. Samtidig må selve søkegrensesnittet utformes. Her er det sikkert mulig å basere seg på allerede eksisterende grensesnitt, men de må da i tilfelle tilpasses Menotas behov.

3) Når det gjelder del to av brukergrensesnittet - indeksen, så vil denne kunne bli automatisk generert ut ifra hva som til en hver tid befinner seg i databasen. Det som imidlertid må gjøres, er å få laget til en "mal" over hvordan disse listene skal presenteres. Dette kan trolig Anne Lindebjerg ved HIT gjøre, ettersom hun har en del erfaring med design av web-sider.

4) Når det gjelder direkte visning av tekstene over web, så er vi da tilbake til de font-problemene som også har vært diskutert tidligere. Nå har vi kommet et stykke på vei mot en løsning, men dette vil fortsatt ta litt tid. Det vil i praksis si at pr. i dag kan vi få til visning på nivåene normalisert tekst (<reg>) og ekspandert tekst (<expForm>) under forutsetning av at sluttbrukerne har en standard Unicode-font i sitt system. Det siste nivået, ekspandert tekst, er for øvrig den form som Oslo-materialet har. Derimot har vi ennå ikke på plass en løsning for visning på nivået faksimilert tekst (<orig>), der også ulike abbreviaturtegn, ligaturer osv. skal vises. Her arbeider vi videre med en løsning som innebærer visning i PDF-format, ettersom det da er mulig å "bake inn" en spesialfont for visning av de nødvendige tegnene. Odd Einar koordinerer arbeidet med denne fonten.


Tilbake til internsiden
Tilbake til hovedsiden


Opprettet 08.05.2002 av OEH. Sist oppdatert 08.05.2002 av OEH.