Lemmatisering med MLA (Menota Lemmatisation Assistant)

MLA utnytter ganske komplekse verktøy, og det er en rekke valg som må gjøres før man kan gå i gang med selve lemmatiseringen. Vi vil forenkle prosedyrene etter hvert, men har hittil prioritert funksjonaliteten. Nedenfor forklarer vi punkt for punkt hvordan man skal komme i gang.

De nye formene som man legger til under lemmatiseringsarbeidet vil bli lagret (når man ber om det), men på en slik måte at de klart kan skilles ut – både med brukernavn og filnavn – fra det leksikonet som ligger til grunn. Foreløbig bygger vi bare på leksikonet fra Barlaams saga ok Josaphat i Holm perg 6 fol, men håper å kunne supplere dette med en rekke lemmatiserte tekster fra Gammelnorsk Ordboksverk i Oslo om ikke så lenge.

Takket være et sett av normaliseringsregler, vil MLA gjenkjenne en rekke ord som har en noe annen ortografi – f.eks ved at høy og lav ‘s’ blir slått sammen, rund og rett ‘r’, vokaler med og uten aksent, ‘i’ for ‘j’ (og omvendt), ‘u’ for ‘v’ (og omvendt), osv.

NB! Dersom XML-filen inneholder nøstede <div>-elementer, må disse skilles fra hverandre ved hjelp av type-attributter, f.eks.:
<div type="work"><div type="chapter">...</div></div>. Codex Regius-filen er i orden på dette punktet og det samme gjelder AM233fol-filen.

 

A. Last opp din egen fil og start lemmatiseringen av denne

Start med å laste opp din egen XML-fil og gå i gang med å lemmatisere teksten. Merk at filen må følge retningslinjene til Menota, og at den må referere til en ekstern DTD. Filen må være velformet, men den trenger ikke være valid – selv om det er en fordel (akkurat nå er det imidlertid forbigående problemer med Menotas DTD).

Et godt råd i starten: Ikke klikk mange ganger på samme knappen – da kan decentius få hikke!

1. Gå inn på denne siden: http://decentius.aksis.uib.no:8060/corpus/norwegian-corpus.html
2. Tast inn brukernavn og passord.
3. Velg korpus i rullefeltet: menota-test
4. Klikk på: Administrer korpus (NB! Dersom du ikke får dette valget, klikk først på ‘Søk i korpuset’ og deretter på ‘Hjemmeside’. Da skal du komme tilbake til siden og få mulighet til å klikke på ‘Administrer korpus’.)
5. Klikk på: Legg til nytt dokument
6. Klikk på: Velg fil. – Finn filen på din egen maskin.
7. Klikk på: Legg til. – Dette kan ta litt tid.
8. Det kommer nå (forhåpentlig) opp et info-vindu som forteller at filen er lagret på decentius-serveren.

Du har nå lastet opp en fil, og kan gjøre klart for lemmatisering!

9. Klikk på: Tilbake (i info-vinduet). Nå kan du se at filen din er blant de lagrede filene, og at den har ditt brukernavn.
10. Klikk på: Generer (NB! bare dersom det står "Ikke à jour"). Dette kan ta litt tid. Klikk på ‘Oppdater’ for å sjekke om den er à jour (det vil stå i status-linjen, og datoen skifter fra rød til svart farge).
11. Klikk på: Hjemmeside
12. Klikk på: Søk i korpuset
13. Velg: Last inn lagret søk. (På denne siden kan du definere en rekke ulike søk og lagre dem under passende navn. Dette venter vi med! Her vil du trolig finne et ferdiglaget søk som du kan bruke. Det har navnet ‘Lemmatisering’ e.l.)
14. Klikk på: CQI-søk
15. Skriv inn i tekstruten: <block> [document='filnavn']. Skriv inn navnet på den filen du har lastet opp, men uten ekstensjonen .xml
16. Klikk i boksen for: Søk og rediger.
17. Klikk på: Start søk og rediger.

Gratulerer! Du har nå fått opp et redigeringsvindu, og kan gå i gang med å lemmatisere.

18. Du får nå opp begynnelsen på teksten, som vist i illustrasjon 1.
19. Klikk på: Tagg om igjen. – Nå får du forslag til lemmatisering basert på det leksikonet som ligger inne (for tiden bare Barlaams ok Jospahats saga), som vist i illustrasjon 2.
20. I noen tilfeller antar MLA at det har et sikkert forslag til lemma og grammatisk form. Det blir i så fall vist med blå linje. I illustrasjon 2 gjelder dette det første ordet, ‘dróttinn’. Legg for øvrig merke til fargebruken her: Alle ord som er tagget på grunnlag av leksikonet, står på grå bakgrunn. Der leksikonet bare har ett forslag, står ordet med svart skrift. Der leksikonet har flere forslag, står ordet med rød skrift, og det er listet opp alternativ (med kryssbokser). Det eller de trekkene som varierer i den grammatiske formen, er markert med grønn skrift.
21. I andre tilfeller får du et valg mellom en av flere former. I illustrasjon 2 gjelder dette det andre ordet, ‘várr’. MLA setter den mest sannsynlige formen opp øverst (basert bl.a. på en frekvensanalyse). Kryss av for riktig form, og klikk deretter på ‘Oppdater’. Dermed forsvinner de andre formene, og den riktige er oppført. (Se pkt. 24 nedenfor hvis du oppdager at du har gjort en feil.) – Dersom du vil se en fullstendig liste fra leksikonet over former som hører til dette lemmaet, klikker du på ordformen rett etter kryssboksen (i blått). Da får du opp alle formene til høyre i skjermbildet.
22. I atter andre tilfeller har ikke MLA noe forslag til lemma og grammatisk form. Kanskje ligger lemmaet i leksikonet - det er bare det at formen ikke er registrert. I illustrasjon 3 gjelder det f.eks. ‘komu’. Klikk på ordet i venstre kolonne og skriv inn det lemmaet du antar står i leksikon, nemlig ‘koma’. Da kommer det opp en lang liste over former av dette leksemet. Nærmeste form er ‘komo’. Klikk på den grammatiske formen rett utenfor dette ordet, ‘Verb fin pret ind 3. pl act strong’. Rull deretter ned til bunnen av siden og klikk på ‘Legg til’ (nå skal det stå ‘komu’ i det første feltet og ‘Verb fin pret ind 3. pl act strong’ i det andre feltet). Når du har klikket på ‘Legg til’, vil du se at den nye formen ‘komu’ er registrert. Klikk på ‘Oppdater’ i venstre halvdel av skjermen, og ordet får nå riktig og entydig grammatisk form. (Våre normaliseringsregler burde ha klart å knytte formen ‘komu’ til lemmaet ‘koma’, men det er en annen sak!)
23. Endelig vil det være noen ord som MLA ikke har forlag på og som heller ikke finnes i leksikonet (det er stadig basert på Barlaams saga ok Josaphats). Det gjelder for eksempel ‘michaele’ og ‘adam’ i illustrasjon 4. Da må du legge inn lemma og grammatisk kode selv. Start med å klikke på ordet i venstre marg slik at det kommer opp en søkerute på høyre side. For å spare arbeidet med å taste inn grammatiske koder, kan du søke på et tilsvarende ord, f.eks. ‘Barlaam’. Du får da opp dette lemmaet med de formene som er registert i leksikonet. Klikk nå på den grammatiske formen som gjelder for ‘adam’ (nemlig dativ singular), slik at riktige koder kommer inn i feltet nede til høyre. Om du ikke finner helt riktig form å klikke på, velger du den som er nærmest og redigerer selv i feltet. Skriv deretter inn det lemmaet som ‘adam’ skal ha, f.eks. ‘Adam’, i feltet rett etter den røde teksten ‘Legg til en ny ordform til lemmaet’. Skjermbildet skal nå se ut som i illustrasjon 6. Klikk på ‘Legg til’, og vips har du føydd til et nytt lemma med tilhørende ordform i leksikonet! Dette kommer opp helt nederst på siden, som vist i illustrasjon 7.
24. Når du har tagget en side, kan det være på sin plass å lagre. Det gjør du ganske enkelt ved å klikke på ‘Lagre’. Har du gjort en feil, kan du nullstille taggingen siden siste lagring. Det gjør du ved å klikke på ‘Tagg om igjen’. Da må du tagge på nytt siden siste lagring, så klikk ikke på denne knappen uten at du virkelig ønsker å rette opp en feil. – Dersom du vil endre taggingen av et enkelt ord, skal du bare krysse av i boksen helt til venstre foran ordet. Klikk deretter på ‘Oppdater’, og du får opp de opprinnelige valgene for akkurat dette ordet. Klikk så av i den rette boksen, og klikk igjen på ‘Oppdater’. Nå har den rette formen kommet inn, og du kan eventuelt lagre. – Legg for øvrig merke til hva som skjer når du lagrer teksten. Da forsvinner gråfargen bak ordene, fordi de valgene du har gjort (ved avkryssing) blir notert i XML-filen. Vær særlig oppmerksom på at dersom du lar noen alternativer stå åpne, vil alle sammen bli lagret i XML-filen. –
25. Dersom MLA angir en form som du mener er feil, kan du slette den aktuelle ordformen fra leksikonet (men vær forsiktig med dette!). Ta som eksempel at du vil fjerne en form av adjektivet ‘varr’ som forslag til en form av pronomenet ‘várr’. Klikk da på det aktuelle ordet og skriv inn et søk på lemmaet ‘varr’. Klikk i boksen foran den ordformen du vil fjerne, som vist i illustrasjon 8. Klikk deretter på ‘Slett utvalgte former’. Når du nå tagger på nytt, vil ikke lenger dette forlaget komme opp.

Sliten av å lemmatisere? Da kan du gå ut av MLA, men først vil du gjerne se hva som er skjedd med filen.

26. Klikk på: Lagre
27. Klikk på: Nytt søk (for å gå ut av siden – ikke særlig intuitivt; vil bli rettet opp)
28. Klikk på: Hjemmeside
29. Klikk på: Administrer korpuset. NB! Nå skal du IKKE klikke på ‘Generer’!
30. Klikk på: Filnavnet i venstre halvdel av skjermen. Velg nå om du vil laste ned dokumentet i den formen det hadde da du lastet det opp (altså uten den lemmatiseringen du nettopp har utført), eller om du vil laste det ned med lemmatiseringen innført (‘Last det taggede dokumentet ned’). Det taggede dokumentet vil få .tag tilføydd i filnavnet. – Eller du kan slette dokumentet, om du er i det selvkritiske hjørnet!
31. Dersom du har valgt å laste ned det taggede dokumentet, kan du åpne det i en passende editor, f.eks. BBEdit eller Oxygen. Sjekk at lemmatiseringen har kommet inn ved å studere <w>-taggen på de ordene du har lemmatisert. Her skal du finne lemma- og pos-attributt utfylt i samsvar med retningslinjene i Menota handbook, v. 2.0, kap. 8.
32. Ferdig? Det er (ennå) ingen utloggingsprosedyre. Bare lukk nettleseren.

Hjelp! Når du åpner den taggede filen, ser du at alle entiteter i dokumentet er forvandlet til lesbare tegn i samsvar med UTF-8-kodingen. Men du vil ha entiteter, takk! Du kan enkelt konvertere tilbake til Menotas entiteter ved å bruke ett av de konverteringsskriptene som nå er lagt ut på Menota-sidene:

1. Åpne denne siden: http://gandalf.aksis.uib.no/menota/guidelines-2/convertors/convert_2-0-b.html
2. Velg: Conversions page (under pkt. 1)
3. Velg: [4. UTF-8 to Menota 1.1 entities]
5. Klikk på: Velg fil. – Finn den nytaggede filen på din maskin.
6. Klikk på: Convert
7. Finn den konverterte filen på maskinen (med tilføyelsen ‘converted_ent’ i filnavnet umiddelbart før ekstensjonen .xml)
8. Åpne filen i en passende editor og sjekk at entitene er gjeninnført.

 

B. Arbeid videre med din egen fil

1. Gå inn på denne siden: http://decentius.aksis.uib.no:8060/corpus/norwegian-corpus.html
2. Tast inn brukernavn og passord.
3. Velg korpus: menota-test
4. Klikk på: Administrer korpus (NB! Dersom du ikke får dette valget, klikk først på ‘Søk i korpuset’ og deretter på ‘Hjemmeside’. Da skal du komme tilbake til siden og få mulighet til å klikke på ‘Administrer korpus’.)
5. Finn den teksten som du har lastet opp nede til venstre. Her er alle filer oppført med eiernavn. Klikk på filnavnet (i blått).
6. I høyre side av skjermbildet får du nå opp en linje “Lemmatiser dokumentet i MLA”. Klikk på denne linjen. (Merk at denne linjen bare dukker opp for de filene som du er eier av.) Se eksempel i illustrasjon 5.
7. Du kommer nå inn på siden “Lemmatiser dokumenter”. Trykk på knappen: Start lemmatisering

Gratulerer! Du har nå fått opp redigeringsvinduet til filen, og kan fortsette med å lemmatisere.

Følg instruksjonen i pkt. 18 ovenfor.

 


Opprettet 2. juni 2005. Sist oppdatert 7. juni 2005.