Alle vi som liker ? “synse” om spr?k, kan bestille passord til den store tekstsamlingen Oslo-korpuset og dermed slippe inn i et verksted for b?de avlivning og friskmelding av kjepphester. Er det for eksempel riktig, som Apollon trodde, at nordmenn p? amerikansk vis har g?tt over til ? skrive “? g? for ” i stedet for “? g? inn for ” en god sak? Dette var en hest vi hadde ridd en tid.
Apollon g?r for Tekstlaboratoriet
Ved ? klikke og skrive litt i et sv?rt brukervennlig program, sjekket vi i l?pet av f? sekunder en norsk tekstmengde p? n?r 20 millioner bokm?lsord. Tekstene var blant annet romaner og avisartikler. Vi valgte ? bestille utskrift av de 1000 f?rste forekomstene av “g? X for”, der X er et eventuelt ord imellom. I denne delen av tekstkroppen, eller “korpuset”, ble uttrykket “g? inn for” brukt 170 ganger, mens “g? for” i samme betydning bare ble brukt fire ganger – i tre ulike dagsaviser. Da m? vi nok v?re forsiktige med ? sl? fast at nordmenn har skiftet skriftlig uttrykksm?te her, neste gang vi vil bruke dette som eksempel p? skremmende amerikanisering og anglifisering.
Tre ord er nok
Selv om maskinen arbeidet raskt, m?tte vi plukke en hel del selv i de listene vi fikk ut. For da vi s?kte p? “g? for” med maksimalt ett ord innimellom de to, fikk vi fram b?de “g? hett for”, “g? god for” og mange tilsvarende kombinasjoner. Det var ikke mulig ? s?ke p? “g? inn for” uten ? g? inn i en vanskeligere del av programmet. Dette problemet er n? i ferd med ? bli l?st, forteller de som driver denne databasen. Snart skal man kunne s?ke p? tre ord av gangen, ikke bare to som n?. Ekspertene er kommet fram til at tre er tilstrekkelig: Kombinasjoner p? fire ord og flere er det sjelden s?rlig vits i ? s?ke p?.
Det var heller ikke lett med det samme ? skille ut de fire “g? for” i denne spesielle betydningen blant helt andre betydninger, som for eksempel “hvor langt han er villig til ? g? for ? oppn? noe”, “Ikke g? for deg selv”, “Han fikk det til ? g? for meg”.
Vi brukte hodet som best vi kunne og telte med fingrene for ? skille ut de fire. Kanskje kunne vi kommet et stykke p? vei ved ? utelukke bestemte grammatiske kategorier i de ordene vi s?kte p?, men hode- og fingerbruk kommer nok verken forskere eller amat?rer helt unna.
Telleforskning?
Helt siden den store positivismestriden for noen generasjoner tilbake, har det v?rt god tone blant humanister ? fnyse av “telleforskning”. De dumme musikkforskerne telte kvinter hos Grieg, og de udugelige blant litteraturviterne telte adjektiver. Hvis vi skal forst? menneskelige uttrykk, m? vi tolke, ikke telle, hevdet man.
Men hvorfor ikke begge deler? I Oslo-korpuset av taggede norske tekster finnes blant annet Nordahl Griegs Spansk sommer (1927) og Lars Saabye Christensens Amat?ren (1977) . La oss sammenlikne hvordan nye ord dannes ved ordsammensetning i de to romanene. Kan det si noe om deres skrivestil og om tiden de lever i?
Dritkalde klasseaksjoner
Allerede de ti f?rste nye sammensetningene hos hver av forfatterne gir en pekepinn:
Grieg : arbeiderbataljonene, trekkspill?t, kaffemelk, milit?rmaskiner, klasseaksjon, kommunardflokken, pariserarbeiderne.
Saabye Christensen : dritkaldt, bedritne, forpulte, tegneserievitser, tapebit, tilrope, dukavrivningen.
For spesielt interesserte?
Her overlater vi den videre fortolkningen til leserne. Men selve muligheten for p? et blunk ? pille ut “sammensatte ord som ikke st?r i ordlisten” fra store romaner fantes ikke for f? ?r siden, ja, den er ganske unik for dette spesielle dataprogrammet. Ville det ikke v?re dumt av en litteraturforsker ? unnlate ? benytte seg av slike muligheter i tekstanalysen?
“Korpuslingvistikk” har en tid v?rt en egen grein av spr?kvitenskapen som dyrkes av forskere med s?rlig begeistring for dataprogrammer. Det er ikke bare antipositivistene som er skeptiske til dem: Ogs? de tallrike disiplene til den amerikanske spr?kforskeren Noam Chomsky , som er mer naturvitenskapelig enn humanistisk orientert, synes at “korpuslingvistikk” er kjedelige greier, og mener det er mer fruktbart ? bruke sin egen spr?kkompetanse som kilde enn ? studere faktisk spr?kbruk.
D?rlig forskning er d?rlig forskning
Janne Bondi Johannessen er professor i ingvistikk og sjef for Tekstlaboratoriet. Hun synes ikke det er noen grunn til ? skille ut “korpuslingvistikk” fra annen lingvistikk. Dataprogrammene og de stadig voksende databasene er midler, ikke m?l. Hun framst?r i det hele tatt ikke som noen korpus-fantast, og vil ikke avvise “chomskyanernes” metoder: Introspeksjon – at man konstruerer tenkte grammatiske og ugrammatiske eksempler for ? l?re om grammatikk – er ogs? nyttig. Men like ofte er det behov for ? unders?ke hvordan folk faktisk snakker og skriver. N?r materialet s? skal bearbeides, er taggede tekstkorpus uhyre nyttig. “Tagget” betyr at hvert ord automatisk merkes med sin ordklasse, form, grad eller tid, setningsfunksjon og s? videre. Tekstlaboratoriet har selv utviklet en automatisk tagger, som er brukt p? Oslo-korpuset
– Men er det ikke mange av dine kolleger verden over som blir forelsket i dataene fordi de er s? lett tilgjengelige og g?r over til ? skrive lister og tabeller i stedet for avhandlinger og artikler?
– Er man en d?rlig forsker, er faren overhengende for at man lar seg blende av alle dataene. En god forsker, derimot, samler ikke p? sm?stein eller knapper. 澳门皇冠体育,皇冠足球比分 m? alltid starte med teorien, forskeren m? stille noen sp?rsm?l som hun eller han ?nsker svar p?.
Boka ved siden av
– S? du har liten sans for det poenget Gudmund Hernes trakk fram da han en gang snakket om verdien av ? ?pne den boka som stod ved siden av den du leter etter i bokhylla?
– Joda, dette er ogs? et godt poeng. N?r vi f?rst har stilt et sp?rsm?l og g?r p? jakt i dataene, finner vi ofte mye som vi ikke har tenkt p? f?r. Mens man studerer et fenomen, kan et annet dukke opp. “J?ss, det verbet trenger jo ikke alltid v?re transitivt”, kan vi lingvister utbryte n?r vi plutselig ser et verb rope mot oss uten objekt p? listen vi har skrevet ut fra databasen. Et studium verd.
– Apollons interesse for den mangfoldige bruken av “g? for” p? norsk oppstod foran skjermen for et ?yeblikk siden da vi skulle unders?ke om “g? for” har erstattet “g? inn for”.
– Der ser du. Det kan godt hende det kunne vokst en fruktbar problemstilling ut av dette. Noe annet som fascinerer meg, er at mange spr?klige fenomener blir mer ?penbare, mer synlige, n?r de kommer ut i listeform.
– Eksempel?
– Da vil jeg v?re ubeskjeden nok til ? trekke fram en unders?kelse jeg selv har gjennomf?rt av negasjonen ikke: Ved ? kj?re ut lange lister over setninger hvor “ikke” brukes i ulike sammenhenger, fant jeg blant annet en rekke eksempler p? utelatelse av infinitivsmerket “?” av typen “Jeg orker ikke h?re p? deg” (i motsetning til “Jeg orker ikke ? h?re p? deg”). Vi kunne ikke skrevet “Jeg orker h?re p? deg” i stedet for “Jeg orker ? h?re p? deg”. For meg ble det ganske klart at ordet ikke var n?kkelen til ? forst? dette. Men n?r det samme fenomenet omtales i det store verket Norsk referansegrammatikk fra 1997, virker det ikke som om forfatterne har f?tt ?ye p? denne sammenhengen. I stedet forklares utelatelsen av “?” med bestemte egenskaper hos de verbene som kommer tidlig i setningene.
Aktiv svensk passiv-forsker
Databasen er for lengst tatt i bruk av skandinaviske forskere. En storbruker har v?rt den svenske lingvisten Elisabet Engdahl, som arbeider innen det fellesnordiske prosjektet Nordsem . Hun unders?ker s?rlig valget mellom bli-passiv ( bli spist) og s-passiv (spise s ) p? svensk, norsk og dansk. Ved hjelp av blant annet Tekstlaboratoriets bokm?lskorpus har hun kunnet p?vise f?lgende: Forskjellen p? om en ytring dreier seg om noe spesifikt eller noe allment (Butikken stenge s kl. 19/Butikken blir stengt n? med det samme), spiller en st?rre rolle p? norsk enn p? svensk. I svensk spr?k er det viktigere om subjektet – det som p?virkes av handlingen – er levende eller ikke (F?rslaget antogs omedelbart/ Studenten blev antagen p? kursen).
Engdahl forteller til Apollon at siden Oslo-korpuset ble allment tilgjengelig for spr?kforskere rundt om i verden, er det blitt vesentlig enklere og raskere ? foreta de empiriske unders?kelsene som trengs for ? teste diverse analyser.
– En stor fordel med Tekstlaboratoriets web-baserte grensesnitt er at man ikke beh?ver l?re seg noen spesielle kommandoer for ? foreta s?k. Hvem som helst med grunnleggende kunnskaper i grammatisk terminologi, alts? ordklasser og b?yningsformer, kan starte ? bruke korpuset med det samme.
Mye mer enn Oslo-korpuset
I Tekstlaboratoriet kan folk lage sine egne sammensetninger og f? dem analysert fort som lynet. Pr?v bare: http://dina.uio.no/cgi-bin/tagger/fuge . Men her finnes ogs? tekstsamlinger p? mer enn 30 spr?k. I tillegg finnes pekere til andre gullgruber for ordelskere: Hva med et bes?k hos Menighetsfakultetets bibel-base hvor du kan s?ke fritt i 23 ulike bibelutgaver? Eller hvorfor g? til bokhylla n?r du har s?kbare ordb?ker rett foran ansiktet?
Tekstlaboratoriet: http://www.hf.uio.no/tekstlab/
Oslo-korpuset : http://www.tekstlab.uio.no/norsk/bokmaal/ og http://www.tekstlab.uio.no/norsk/nynorsk/
Hvordan man kan f? tillatelse til ? bruke tekstkorpuset: http://www.tekstlab.uio.no/norsk/bokmaal/#tillatelse og http://www.tekstlab.uio.no/norsk/nynorsk/#loyve