Korpuslingvistika

Korpuslingvistika on keeleteaduse suund, mis tegeleb loomuliku keele tekstikogude (keelekorpuste) koostamise, töötlemise ja kasutamisega. Tekstikogude koostamisel kasutatakse arvutitehnoloogiat.

Ajalugu

Esimeseks suureks keelekorpuseks on Browni korpus (inglise Brown Corpus), mis loodi 1960-aastatel Browni Ülikoolis ja sisaldas 500 teksti fragmenti, igas 2000 sõna, mis olid avaldatud USAs inglise keeles 1961. aastal. See 1 miljoni sõna sisaldav korpus sai standardiks korpuste loomisel teistes keeltes. Analoogilise mudeli järgi loodi näiteks 1980-aastatel Uppsala Ülikoolis vene korpus.

Miljonisõnaline maht on piisav ainult üsna sagedaste sõnade leksikograafiliseks kirjeldamiseks, kuna sõnad ja nende grammatilised konstruktsioonid ei kordu sellises mahus väga sageli. Näiteks niisugused igapäevased sõnad nagu inglise polite (viisakas) või sunshine (päikesepaiste) kohtuvad Browni korpuses ainult 7 korda, väljend polite letter ainult üks kord, aga niisugused püsivad väljendid nagu polite conversation, smile ja request mitte kordagi.

Nimetatud põhjustel ning seoses arvutustehnika võimsuste kasvamisega tekkis võimalus töötada suurema mahuga tekstidega. 1980-aastatel tehti mitu katset koostada suuremaid korpuseid. Üks neist oli Birmingemi Ülikooli projekt nimega Bank of English.

Välislingid

Arvutilingvistika

Arvutilingvistika ehk arvutuslingvistika on keeleteaduse ja arvutiteaduse ühisosa, mis uurib, kuidas inimkeelt arvuti abiga kirjeldada ja analüüsida. Arvutuslingvistikal on teoreetiline ja rakenduslik pool. Selle rakendused on seotud valdkonnaga, mida kutsutakse keeletehnoloogiaks . Arvutuslingvistika põhiülesanded võib jagada kaheks – keele analüüs ja keele genereerimine ehk süntees.

Keeletehnoloogia ja arvutilingvistika

tegelevad mõlemad loomuliku keele automaattöötlusega, kuid arvutilingvistika läheneb

probleemidele teoreetilisema ja keeletehnoloogia rakenduslikuma nurga alt .

Heili Orav

Heili Orav (sündinud 7. aprillil 1969 Tartus) on eesti keeleteadlane.

Kazuto Matsumura

Kazuto Matsumura (松村一登 Matsumura Kazuto; sündinud 20. jaanuaril 1953 Nagano prefektuuris Jaapanis) on jaapani keeleteadlane ja estofiil.

Matsumura õppis aastail 1971–1976 Tōkyō Ülikooli filoloogiateaduskonnas keelefilosoofiat ja üldkeeleteadust ning kuulas samas professor Tamotsu Koizumi sissejuhatavat kursust fennougristikast ja soome-ugri võrdlev-ajaloolisest keeleuurimisest; soome ja eesti keele õpinguid alustas ta iseseisvalt.1977. aastal käis ta esimesel välisreisil Soomes, kus osales Lappeenrannas soome keele ja kultuuri suvekursustel. 1978–1981 oli ta Soome Haridusministeeriumi stipendiaadina Helsingi Ülikoolis, 1987–1988 stipendiaat Tallinna Pedagoogilises Instituudis.Aastail 1983–1995 töötas ta Tōkyō Võõrkeelte Ülikooli Aasia ja Aafrika keelte ja kultuuride uurimisinstituudi teaduri (1983–1989) ja abiprofessorina (1989–1995), seejärel Tōkyō Ülikooli humanitaaria ja sotsioloogia kraadiõppe osakonna abiprofessori (1995–1996) ja professorina (1996–2004). Aastast 2004 on ta samas dünaamilise lingvistika professor.Kazuto Matsumura peamised uurimisalad on soome, eesti ja mari keel ning korpuslingvistika. Ta on koostanud eesti keele grammatika "Esutonia-go bunpoo nyuumon" (1991), eesti-jaapani sõnastiku "Esutonia-go syooziten" (1991), avaldanud ülevaatekirjutisi ning üle kümne uurimuse eesti keelest, käsitledes peamiselt eesti kohakäändeid ja adverbiaalatribuuti. Ta on tegelnud ka eesti keele korpuse ja XIX sajandi eestikeelsete ajalehtede teksti elektroniseerimisega.Matsumuro on juhendanud Tōkyōs eesti keele alaseid väitekirju. Tõlkijate kollektiivi juhina on ta avaldanud jaapani keeles Jaan Kaplinski luulet ja essee (2005) ning katsetanud eesti lastekirjanduse tõlkimist jaapani keelde.Matsumura on Jaapani Lingvistika Seltsi ja Jaapani Uralistika Seltsi liige.

Keelekorpus

Korpuseks nimetatakse lingvistikas valitud, digiteeritud ja teatud reeglite järgi töödeldud tekstide kogumit. Korpusi kasutatakse keele uurimise alusena statistilises analüüsis, statistiliste hüpoteeside kontrollimiseks ja keelereeglite kindlakstegemiseks.

Korpus võib sisaldada ühe keele (ühekeelne korpus) või mitme keele (mitmekeelne korpus) tekste. Mitmekeelseid korpusi, mis on loodud eri keelte võrdlemiseks, nimetatakse paralleelkorpusteks.

Korpuste tähtsuse tõstmiseks uuringute jaoks kasutatakse märgendamist (annotatsiooni), sest märgendamata tekstikogude (tekstoteekide) rakendamisvõimalused on piiratud. Analüüsitava materjali maht on tavaliselt suur ja tasakaalustatud kujul on rohkem võimalusi objektiivsete uurimistulemuste saavutamiseks.

Eristatakse mitut märgendamise tehnikat:

Tehniline – eraldatakse tekstiosad: pealkirjad, laused, lõigud, fraasid; mõnel juhtudel nähtused, mis võrreldes tavaliste sõnadega võivad käituda väga erinevalt (lühendid, numbrid).

Ortograafiline – määratakse kindlaks mõne märgi funktsioon. Näitena võib tuua punkti funktsiooni (lause lõpus, lühendites), suurtähe funktsiooni (pärisnimi, lause algus, suurtest tähtedest koosnev lühend).

Semantiline – märgendatakse semantilisi suhteid või tähenduslikku kuuluvust.

Diskursuslik – lause tasandist kõrgemate nähtuste märgendamine.

Morfoloogiline – märgendatakse iga sõna sõnaliik, algvorm ja teave grammatiliste kategooriate kohta.

Süntaktiline – igale sõnale lauses on lisatud märgend tema funktsiooni kohta.Kõnekorpustes kasutatakse lisaks prosoodilist ja foneetilist märgendamist. Prosoodiline on vajalik rõhu, intonatsiooni, pauside eristamiseks, foneetiline aga suulise kõne häälduse märkimiseks.

Kõige levinumad maailmas on morfoloogiline ja süntaktiline märgendamine. Tüüpiliselt on süntaktiliselt märgendatud korpused ka morfoloogiliselt märgendatud.

Märgendamine algab teksti jagamisest lõikudeks ja lauseteks (või mingiteks teisteks üksusteks). Seda tehakse tavaliselt täisautomaatselt, kuid märgendada saab ka käsitsi (arvutipoolse interaktiivse abiga) või kombineerides neid kahte meetodit.

Keeleteadus

Keeleteadus ehk lingvistika on humanitaarteadus ja filoloogia üks põhiharudest, mis tegeleb inimkeele teadusliku uurimise ja analüüsiga. Mõnikord kasutatakse ka mõistet keeleteadused, mille all mõeldakse kõiki keelt lingvistilisest küljest uurivaid teadusharusid (näiteks foneetika, semantika, jne). Lingvistika on palju enamat kui koolis õpetatavad keeled ja grammatika. Lingvistika uurib inimkõne süsteeme ja nende kirjalikke vasteid.

Keeleteadlane ehk lingvist on inimene, kes tegeleb keeleteadusega. Lingvistid tegelevad keelte sarnasuste ja erinevustega.

Loomulik keel – ühemõtteliselt inimeste keel, imik õpib ilma õpetamata, peaks tulema loomulikult.

Keele universaalid on üldkeeleteaduse uurimisobjektid. Absoluutne universaal on tavaliselt omadus, mis esinevad kõigil või peaaegu kõigil maailma keeltel (nt väljendada oleviku ja mineviku vastandust, jaatuse ja eituse vastandust jne). Statistilise universaali puhul on omaduste esinemine tõenäosem kui nende puudumine.

Keeleteaduse mõisteid

Siin on loetletud keeleteaduse ja tõlketeaduse mõisteid ning keeleteaduse ja tõlketeadusega seotud mõisteid.

Maarja-Liisa Pilvik

Maarja-Liisa Pilvik (sündinud 26. veebruaril 1989 Kärdlas) on eesti keeleteadlane ja koorihelilooja.

Masintõlge

Masintõlge (ka automaattõlge, raaltõlge) on arvutilingvistika haru, mis uurib võimalusi tõlkida tarkvara abil teksti või kõnet ühest loomulikust keelest teise.

Kõige elementaarsemal tasemel asendab masintõlge ühe keele sõnad teise keele omadega, kuid sellest ei piisa heaks tõlkeks, sest tuleb tunda ära terved fraasid ja leida neile teises keeles vasted. Sellele probleemile lahenduste otsimine korpuslingvistika ja statistika vahenditega on kiirelt arenev ala, mis viib paremate tõlgeteni, tegeldes eripäradega keeletüpoloogias ja idioomide tõlkes ning keeleliste anomaaliate tuvastamisega.

Tänapäevast masintõlketarkvara võib sageli kohandada valdkonna järgi (näiteks ilmateated). See tehnika on eriti tõhus valdkondades, kus kasutatakse formaalset keelt. Nii on masintõlge sobilikum tehniliste ja juriidiliste tõlgete tarbeks kui kõnekeele või vähem standardiseeritud tekstide korral.

Viktor Grigorjev

Viktor Petrovitš Grigorjev (vene Виктор Петрович Григорьев; 14. märts 1925 – 9. veebruar 2007 Moskva) oli vene keeleteadlane, esperanto keele uurija ja arendaja.

Ta osales Teises maailmasõjas. Lõpetanud 1950. aastal Potjomkini-nimelise Moskva Linna Pedagoogilise Instituudi keeleteaduskonna, jätkas ta õpinguid sama instituudi aspirantuuris, mille lõpetas aastal 1954. Järgmisel aastal kaitses Viktor Grigorjev oma kandidaadiväitekirja teemal "Liitsõnade moodustamise teooria mõningaid küsimusi". Aastal 1978 anti talle filosoofiadoktori kraad. Tema doktoritöö ilmus 1979 raamatuna "Sõna poeetika (vene nõukogude luule põhjal)" (Поэтика слова (на материале русской советской поэзии)).

Aastast 1952 töötas Viktor Grigorjev NSV Liidu Teaduste Akadeemia juures ajakirja Voprossõ Jazõkoznanija toimetuse liikmena. Aastal 1958 asus ta tööle Teaduste Akadeemia Vene Keele Instituuti, oli seal aastani 1962 teadussekretär ja aastast 1975 kuni surmani eri osakondade juhataja. Viimastel eluaastatel juhatas Grigorjev korpuslingvistika ja lingvistilise poeetika osakonda.

Esperantoloogia kõrval tegeles ta hispaania keele, lingvistilise poeetika, stilistika, liitsõnade moodustamise, leksikograafia, keelekultuuri, keeleteaduse ajaloo, 20. sajandi vene luulekeele ja avangardistliku luuletaja Velimir Hlebnikovi loomingu uurimisega. Esperanto keele seisukohalt oli kõige olulisem tema tegevus esperanto-vene sõnaraamatu teadustoimetajana ja oponendina esperantoloogia küsimusi käsitlevate teadustööde kaitsmisel.

1970.–1980. aastatel tegeles Grigorjev kogumiku "Strukturaallingvistika probleemid" (Проблемы структурной лингвистики) koostamise ja toimetamisega. Tema koostatud on ka 1976. aastal ilmunud kogumik "Lingvistika ja poeetika" (Лингвистика и поэтика).

Viktor Grigorjev suri 9. veebruaril 2007 Moskvas infarkti tagajärjel. Ta tuhastati ja maeti Moskva Hovanski kalmistule.

Teistes keeltes

This page is based on a Wikipedia article written by authors (here).
Text is available under the CC BY-SA 3.0 license; additional terms may apply.
Images, videos and audio are available under their respective licenses.