Snart blir det vanskeligere å skjule seg bak tekst
På slutten av 1430-tallet hadde kong Alfons den femte av Aragonia en konflikt gående med paven om hvem som skulle styre Napoli. Som argument for sin autoritet hadde paven den såkalte konstantinske skjenkelse, en kunngjøring skrevet av den romerske keiseren Konstantin i år 324. I denne overlater keiseren makten over Vestromerriket til paven, som takk for at paven kurerte hans spedalskhet og døpte ham.
Men kongen henvender seg til den italienske professoren Lorenzo Valla og ber ham undersøke dokumentet. Og i år 1440, etter å ha analysert kunngjøringen nøye, skriver Valla sitt mest kjente verk: De falso credita et ementita Constantini Donatione declamatio, fritt oversatt «Om den forfalskede konstantinske skjenkelsen». Han kommer frem til at den umulig kan ha blitt skrevet på 300-tallet, og at det derfor må være en forfalskning. Et av bevisene er at teksten nevner keiseren og hans satraper, en tittel som ikke ble brukt i Romerriket på den tiden.
Lorenzo Vallas kritikk mot den ukjente forfatteren er hard: «Hva! Hvordan har du tenkt å få satraperne inn her? Din tosk, din treskalle! Snakket Cæsar sånn? Pleide de romerske kunngjøringene å utformes på denne måten? Hvem har hørt snakk om satrapere i romernes råd?»
80 prosent
Hvis skribenter deles inn i to aldersgrupper, kan datamaskiner gjette riktig aldersgruppe i 80 prosent av tilfellene. Kjønn er litt vanskeligere, der får forskerne rett svar i rundt 65 prosent av tilfellene.
Avslørte attentat-mann
Denne historien er det første kjente eksemplet på at det går an å lese en tekst og si noe om hvem som har skrevet den. Et mer moderne eksempel er fra 1995, da en mann ved navn David Kaczynski fikk seg en ubehagelig overraskelse da han leste dagens avis. I mange år hadde FBI jaktet på den såkalte Unabomberen i USA. Vedkommende spredte redsel og død gjennom en rekke bombeattentater, først og fremst mot mennesker på universiteter og i flyselskaper. (Han ble kalt «Unabomberen» som en forkortelse for «university and airline bomber», red.anm)
Til slutt meddelte Unabomberen at han skulle slutte med attentatene, om bare avisene ville trykke manifestet hans, noe de de gikk med på.
David Kaczynski leste manifestet i avisen, og innså etterpå at han kjente igjen stilen. Det viste seg å være broren hans, Ted Kaczynski, som hadde skrevet teksten. Og slik fikk et av historiens mest omtalte lovbrudd sin løsning.
Hvor ofte brukes bestemte ord?
Med internett har vi fått nye muligheter, og nye behov for å analysere og klassifisere tekst med tanke på hvem eller hvilke grupper det er som har skrevet den. En datamaskin kan analysere store mengder tekst, mange millioner ord, for å bygge opp statistiske modeller av hvordan ulike grupper skriver. Man kan for eksempel telle hvor ofte visse ord eller grammatiske konstruksjoner brukes. Disse modellene kan siden brukes for automatisk å si noe om en tekst med anonym skribent.
Noen har store planer om hva man skal kunne utrette med denne typen teknologi, for eksempel bekjempe kriminalitet. Hvis vi med datamaskinens hjelp kan avgjøre hvem som har skrevet en tekst, så skulle vi kunne løse konflikter om opphavsrett og plagiat, og avsløre forfalskninger i stil med den konstantinske skjenkelsen. Man skulle også kunne analysere påståtte selvmordsbrev, for å se om de er ekte eller skrevet for å skjule et mord. Noen hevder at teknologi for tekstklassifisering også kan brukes for å forebygge terrorisme, og at man slik på et tidligere stadium kan stoppe mennesker som Ted Kaczynski.
Før Anders Behring Breivik gjennomførte angrepet på Utøya, skrev han for eksempel om sine hensikter og planer på forumer på internett. En ting som ville vært svært nyttig for politiet, er å kunne finne ut om to ulike brukeridentiteter på ulike forum egentlig er en og samme person. Da kan man for eksempel avgjøre om en person som skriver hatefulle kommentarer om en folkegruppe på én side er samme person som viser stor interesse for eksplosive kjemikalier på en annen.
Brukt i rettssaker
Det finnes allerede en hel rekke selskaper og andre organisasjoner som studerer det vi skriver om oss selv på internett og som trekker slutninger rundt dette, blant annet for å kunne rette reklame mot oss. Men å automatisk identifisere en anonym skribent – som ikke skilter med sin egen identitet noen steder – det er en helt annen og vanskeligere utfordring.
En del forskning har gitt overraskende positive resultater, og forskere har hevdet at man med stor sikkerhet kan identifisere en person selv blant tusenvis av mulige forfattere. Man behøver heller ikke bruke særlig avanserte metoder – noen har ikke en gang sett på ord, men ganske enkelt gått etter hvor ofte en forfatter bruker ulike bokstaver. Det ser altså ut til å være mulig å kjenne igjen en forfatter kun på at han eller hun bruker uvanlig mange g-er, eller hva det må måtte være.
Enkelte har derfor hatt stor tiltro til de statistiske metodene, og de er allerede blitt brukt i rettssaker for å avgjøre hvem som har skrevet en tekst. Men det er grunn til å være forsiktig.
Trenger store mengder tekst
For det første viser mye av forskningen at det kreves store mengder tekst. Man regner ofte med at det trengs rundt ti tusen ord for å ha en rimelig sjanse til å kunne identifisere noen, og for å kunne være på den sikre siden vil man gjerne ha hundre tusen, altså en mengde tekst som omtrent tilsvarer en gjennomsnittlig roman. Så den som skriver et anonymt brev trenger ikke være spesielt urolig for å bli avslørt, om han ikke formulerer seg helt uvanlig omstendelig.
For det andre baseres testene av metodene som regel på tekster som er hentet fra en og samme sammenheng. Hvis man for eksempel har brukt tekst fra en bok for å bygge opp en statistisk modell for hvordan en forfatter skriver, så kan det fungere bra for å identifisere andre tekstutdrag fra samme bok. Men allerede i andre bøker av samme forfatter blir hans eller hennes tekst vanskeligere å kjenne igjen. Hvis man skulle prøve seg på å identifisere for eksempel et brev eller en internettbasert tekst av samme forfatter, ville det kunne bli enda vanskeligere.
Tipper på alder og kjønn
I 2017 gjorde vi en studie der vi undersøkte engelske bloggtekster for å se hvor godt en datamaskin kan identifisere en persons alder, kjønn, yrke og stjernetegn. En metode vi testet, var å telle hvor ofte personen bruker noen av de vanligste ordene, som the, of, and og så videre. Det viser seg at alder er det som er klart lettest å bestemme. Om skribentene deles inn i to aldersgrupper, kan vi ved hjelp av datamaskinen gjette riktig i 80 prosent av tilfellene. Kjønn er litt vanskeligere, der får vi rett svar i rundt 65 prosent av tilfellene. Yrke er et grensetilfelle, det ser ut som om datamaskinen kan gi rett svar litt oftere enn ved ren gjetning, men forskjellen er så liten at det likevel kan være tilfeldig at svaret blir riktig. Å avgjøre personers stjernetegn ut fra deres måte å skrive på viser seg derimot, ikke helt uventet, å være helt umulig.
Avhengig av hvilke stiltrekk man analyserer, hvilke matematiske metoder man bruker og hvilke tekster man arbeider med, kan resultatene variere, men generelt samsvarer de: både kjønn og alder kan maskinen avgjøre bedre enn gjetning, selv om det langt fra er 100 prosent riktig.
Slik skriver kvinner versus menn
Men hvis det nå går an å se forskjell på hvordan for eksempel menn og kvinner skriver, hva er det da som skiller dem fra hverandre?
Vi kan se noen generelle mønstre: Kvinner bruker flere pronomen – som jeg og du – og hjelpeverb – som må, kan og vil. Menn bruker flere konjunksjoner – som og og men. Dessuten skriver menn lengre setninger.
Mer spesifikke resultater avhenger av hvilken sammenheng vi henter teksten fra. Da vi undersøkte de engelske bloggtekstene så vi at de tre mest overrepresenterte ordene blant kvinner er I, my og me («jeg», «min» og «meg»). Er kvinner mer selvopptatte? Nja, ikke nødvendigvis. Det kan være slik at kvinner oftere bruker blogger for å skrive om sine personlige erfaringer, mens menn skriver om andre ting. Det kan også være slik at kvinner uttrykker sine hensikter med setninger som jeg synes at det er slik … mens menn er mindre beskjedne og uttrykker hensiktene sine som fakta: det er slik.
Fordommene slår til
Vi kan også benytte anledningen til å teste noen andre fordommer om hvordan menn og kvinner snakker og skriver. En vanlig tanke er at kvinner snakker mer om følelser. Stemmer det? Om vi tester ved å liste opp de vanligste ordene som har med tanker og følelser å gjøre, som tenke, elske, bra og interessant, ser vi at de fleste av dem brukes betydelig oftere av kvinner.
En annen fordom er at kvinner snakker mer om familie og relasjoner, så vi ser på ord som barn, kvinne og familie. Selv her får vi vann på vår fordomsfulle mølle – alle ordene brukes betydelig mer av kvinner. Vi ser også en ikke helt uventet trend: Kvinner bruker ord for kvinner (som hun, kvinne, mamma) oftere enn de tilsvarende mannlige ordene (som han, mann, pappa), og det omvendte gjelder for menn. Men generelt er alle disse ordene, selv de mannlige, vanligere i tekster skrevet av kvinner, enn i tekster skrevet av menn. Det kan virke litt overraskende at ordet kone brukes mer av kvinner, siden de sjeldnere har en kone å snakke om. Men selv når vi ser på uttrykket min kone, viser flere tekstdatabaser at det forekommer hyppigere hos kvinner. Det er tydeligvis slik at hvis en mann i en bok snakker om sin kone, da er det mest sannsynlig en fiktiv mann – i en bok skrevet av en kvinne.
Kvinner og ungdom mer uformelle
Hvordan er det så med forskjeller mellom aldersgrupper? Her kan vi se enda tydeligere forskjeller. Yngre personer bruker i større utstrekning pronomen, og eldre personer skriver lengre setninger med flere bisetninger. Hvis vi gjentar eksperimentet med ord for følelser, ser vi at yngre mennesker bruker dem mye oftere enn eldre. Faktisk er det i stor grad de samme ordene som er overrepresentert hos kvinner og hos yngre, men med enda større forskjell mellom aldersgrupper enn mellom kjønn.
Så hva slags slutninger skal vi trekke av dette? At kvinner ikke bare er selvopptatte, men også barnslige? Nei, det er snarere slik at kvinner og yngre oftere bruker et uformelt, ledig og kanskje mer moderne språk. Andre studier har også vist at forskjellene mellom fakta og fiksjon ligner de forskjellene som finnes mellom mannlige og kvinnelige forfattere.
Når alt kommer til alt er det ikke så lett å identifisere en forfatters kjønn, tross alt. En tolkning som bare går ut fra denne statistikken, kan kanskje ta feil hvis en kvinne skriver en formell tekst, eller hvis en mann skriver et personlig brev. På samme måte skulle man jo kunne gjette en persons kjønn ut fra vedkommendes yrke, men det ville kun vært et spørsmål om statistikk, og knappest gitt noen dypere innsikt enn som så.
Sortere tekst
Det gjenstår altså en hel del arbeid når det kommer til automatisk klassifisering av tekster. I dag er det fremfor alt enklere arbeidsoppgaver som kan løses ved hjelp av teknologi – slike oppgaver som mennesker lett kunne gjøre, men som det likevel er praktisk å overlate til datamaskinen. Det kan være å filtrere søppelpost eller uvelkomne innlegg på internettforum, eller å identifisere hvilket språk en tekst er skrevet på. Det finnes til og med systemer for å kategorisere tekster etter emne eller sjanger, for eksempel i en database over avisartikler eller bøker.
I noen tilfeller er det en ganske lett oppgave – det er ikke vanskelig å finne nøkkelord for å skille sportsartikler fra artikler om utenrikspolitikk. Andre områder er fortsatt under utvikling, for eksempel det å automatisk kunne klassifisere en anmeldelse som positiv eller negativ, eller å avgjøre hvor lettlest en tekst er.
Mennesker og maskin
En gang i fremtiden har vi kanskje også utviklet enkle og effektive programmer for å identifisere en anonym forfatter. Men det innebærer også at den som vil være anonym kan bruke programmet, og endre sin måte å skrive på helt til han eller hun ikke blir identifisert – eller helt til han eller hun identifiseres som en annen.
Så til og med i fremtiden kommer vi sikkert til å ha behov for å utdanne mennesker som, akkurat som Lorenzo Valla, kan analysere tekster og oppdage forfalskninger.
Artikkelforfatter Niklas Zechner arbeider som ekspert i Språkbanken på universitetet i Göteborg. Teksten er oversatt til norsk av Anne Marit Jordahl.