MuodostusKorkeakoulut ja yliopistot

Mikä on korpuslingvistiikan?

Vain muutama vuosikymmen sitten automatisoida kielentutkimuksen, tutkijat voivat vain uneksia. Työ tehtiin käsin, se houkuttelee suuri joukko opiskelijoita, on erittäin todennäköistä "huolimaton" virheitä, ja mikä tärkeintä - kaikki tämä kesti pitkään, pitkään aikaan.

Kehittämisen kanssa tietotekniikkaa on tullut mahdolliseksi tehdä tutkimusta suuruusluokkaa nopeammin, ja nyt yksi lupaavimmista suuntaan tutkimuksessa kieli on korpuslingvistiikan. Sen tärkein ominaisuus on käyttää suuria määriä tekstiä tietoja, tiedot yhteen tietokantaan, erityisellä tavalla ja kutsui merkityn rungon.

Tähän mennessä on monia rakennuksia luotu eri tarkoituksiin pohjalta eri kielellisen kattava aineisto miljoonista kymmeniin miljardeihin leksikaalisen yksikköä. Tämä suunta on tunnustettu lupaava ja osoittaa merkittävää edistystä hakemuksen ja tutkimustarkoituksiin. Asiantuntijat, tavalla tai toisella tekemisissä luonnon kieltä, on suositeltavaa tutustua kehon tekstien ainakin perustasolla.

Historia korpuslingvistiikan

Muodostumista tämä suuntaus johtuu luominen Yhdysvalloissa Brownin elin luvun alussa 60-luvun viime vuosisadan. Kokoelma sisältää tekstit kaikista 1 miljoonan sananmuotojen, ja tänään ruumiin tämän kokoluokan olisi täysin kilpailukykynsä. Tämä johtuu suurelta osin kehitystahti tietotekniikkaa sekä kasvavaan tarpeeseen kehittää uusia tutkimusresursseja.

90-luvulla korpuslingvistiikka syntyi osaksi täyttä ja itsenäistä kuria, kokoelma tekstit on laadittu ja merkitty kymmeniä kieliä. Tänä aikana se on luotu, esimerkiksi British National Corpus 100 miljoonaa kuponkia.

Kehittämisen kanssa tällä alalla kielitieteen, tekstin volyymit ovat yhä enemmän ja enemmän (ja tavoittaa miljardeja sanakirjan yksikköä), ja ulkoasu on yhä monimuotoisempi. Tähän mennessä Internetin tila löytyy ruhojen kirjoitetun ja puhutun kielen, kielen ja oppimisen suuntautunut taiteellista tai tieteellistä kirjallisuutta, sekä monia muita lajeja.

Mitkä ovat kotelon

Vartalotyypeille elimistössä kielitieteen voidaan järjestää useista syistä. Intuitiivisesti perusta luokitusta voi olla tekstiä kieli (Venäjä, Saksa), pääsy tilassa (open source, closed, kaupallinen), genre lähdemateriaalin (fiktio, dokumentti, akateeminen, journalismi).

Mielenkiintoinen tapa tuottaa materiaaleja puhuttua kieltä. Koska tahallinen tallennus tällainen puhe luo keinotekoisen ympäristön vastaajat, ja saatu materiaali ei voi kutsua "spontaani", moderni korpuslingvistiikka on mennyt toisinpäin. Vapaaehtoinen on varustettu mikrofonilla ja päivisin tuottanut kirjaa kaikki keskustelut, joissa se on mukana. Ihmiset ympäri tietenkään välttämättä tiedä aikana jokapäiväistä keskustelua edistää tieteen kehitystä.

Myöhemmin saapuva asiakirja tallennetaan tietokantaan ja mukana painettua tekstiä transcript tyyppi. Näin ollen, on mahdollista markup tarvitaan luomaan suun kautta päivittäin puheen kotelo.

hakemus

Mahdollisuuksien kielen käyttöä, ja ehkä käyttöä rakennusten tekstejä. Menetelmiä sovelletaan rungon kielitieteessä voivat olla:

  • Ohjelman luominen määrittämällä avain, on laajalti käytetty politiikassa ja elinkeinoelämässä seurata positiivisten ja negatiivisten vasteiden äänestäjien ja asiakkaiden vastaavasti.
  • Yhteys tietojärjestelmä sanakirjoja ja kääntäjiä parantamaan suoritustaan.
  • Erilaisia tutkimustehtäviä, jotka edistävät ymmärrystä kielen yksikkö, sen aiempi kehitys ja ennustaminen muutoksista lähitulevaisuudessa.
  • Kehittäminen tiedonhakujärjestelmät perustuu morfologisiin, syntaktisia, semanttisia ja muita ominaisuuksia.
  • Optimointi erikieliset-järjestelmien ja muut.

Rakennusten käytössä

samanlainen resurssi käyttöliittymä tyypillinen hakukoneen, ja kehottaa käyttäjää syöttämään sanan tai sanojen yhdistelmää etsiä tietopohjaa. Lisäksi lomake tarkka kysely voidaan käyttää parannettu versio, jonka avulla voidaan löytää tekstitietokenttien lähes millä tahansa kielellisiä kriteereitä.

hakua emäs voi olla:

  • kansallisuuden, tiettyyn ryhmään sanaluokat;
  • kieliopillisia piirteitä;
  • semantiikka;
  • tyylillisiä ja emotionaalisia väritys.

Voit myös yhdistää hakuehtoja varten sanajonoja esimerkiksi löytää kaikki verbit preesensissä, ensimmäinen persoona, joka tulee sen jälkeen prepositio "in" ja substantiivi että akkusatiivi. Ratkaisu tällainen yksinkertainen tehtävä vie käyttäjän muutaman sekunnin ja vaatii vain muutamalla hiiren klikkauksella on määrätyillä aloilla.

Luomassa

Haku itsessään voidaan suorittaa kaikki subcorpus ja yksi valinneet, tarpeista riippuen saavuttamisessa tietyn tavoitteen:

  1. Ensimmäinen askel on määritellä, mitkä tekstit muodostavat perustan tapauksessa. Käytännön syistä sitä käytetään usein journalistisen, uutisia, online-kommentteja. Tutkimusprojekti on käyttää monenlaisia paketti tyyppejä, mutta teksti olisi valittava mukaan yhteistä pohjaa.
  2. Tuloksena kokoelma tekstien esikäsittely-, on virheiden korjauksen, jos mitään, on valmistettu bibliografiset ja extra--kielellisellä tekstin.
  3. Eliminoituu kaikki muut kuin teksti-informaatiota: Poistaa grafiikka, kuvia, taulukoita.
  4. On jaettavia merkkejä, jotka ovat tyypillisesti puheen, jatkokäsittelyä varten.
  5. Lopuksi, se suorittaa morfologiset, syntaktinen ja muut merkinnät on saatu useista elementeistä.

Tuloksena kaikkien tapahtumien tekemät syntaktinen rakenne siihen jakautuneena useita elementtejä, joista kukin on tunnistettu osa puheen, kieliopin ja, joissakin tapauksissa, semanttisen ominaisuuksia.

Vaikeudet luomisessa rakennuksissa

On tärkeää ymmärtää, että ei riitä koota joukko sanoja tai lauseita keholle. Toisaalta, kokoelma tekstejä olisi tasapainoinen, eli edustavat erityyppisiä tekstejä tietyissä suhteissa. Toisaalta - sisältö kotelon olisi sijoitettu erityisellä tavalla.

Ensimmäinen ongelma ratkaistaan sopimuksella: esimerkiksi kokoelmaan kuuluu 60% kirjallisuustekstejä 20% dokumenttien, tietty prosenttiosuus on antanut kirjallisen esityksen puhutun kielen, lainsäädännön, tieteellisten teosten jne täydellinen resepti tasapainottavat kehon tänään ei ole olemassa ...

Toinen kysymys, joka koskee sisällön ulkoasun, ratkaisemaan haastavia. On olemassa erityisiä ohjelmia ja algoritmeja käytetään automaattista merkintää tekstien, mutta ne eivät anna täydellistä tulosta, voi aiheuttaa häiriöitä ja vaativat manuaalista työstämistä. Mahdollisuuksia ja haasteita tämän ongelman on kuvattu yksityiskohtaisesti paperi V. P. Zaharova on korpuslingvistiikan.

Markup toteutetaan useilla tasoilla, mikä on luettelo alla.

morfologiset koodaus

Koulusta, muistamme, että venäjän kielellä, on eri puolilla puhetta, ja jokainen niistä on omat erityispiirteensä. Esimerkiksi verbi on luokat kaltevuus ja aika, jolloin ei substantiivi. syntyperäinen puhuja epäröimättä laskee substantiiveja ja konjugaatti verbejä, mutta merkitä runkoon 100 miljoonaa. rahakkeista käsityötä ei toimi. Kaikki toimenpiteet voidaan suorittaa tietokoneella, mutta tästä se täytyy opettaa.

Morfologinen koodaus, tietokone on "ymmärtää" jokainen sana tietty osa puheen, jolla on tiettyjä kieliopillisia piirteitä. Koska Venäjän (ja muut kieliversiot) toimii useita säännöllisesti sääntöjen, on mahdollista rakentaa automaattista menettelyä morfologinen analyysi, investoimalla autossa useita algoritmeja. On kuitenkin olemassa poikkeuksia sääntöön, sekä erilaisia riskitekijöitä. Tämän seurauksena, verkko tietokone analyysi nykyään on kaukana ihanteellisesta, ja jopa 4% virhe tuottaa arvon, joka on 4 miljoonaa. Sanat runkoon 100000000. Yksikköä, manuaalista muokata.

Tarkemmat kirja kuvaa ongelmaa Zaharova V. P. "korpuslingvistiikan".

syntaktiset merkintä

Jäsennys tai jäsennys - menettely, joka määrittää suhteen sanojen lauseen. Käyttämällä algoritmeja voidaan määrittää tekstin aihe, predikaatti, lisäyksiä, useita kierroksia puheen. Selvitä, mitkä sanat ovat tärkeimmät järjestyksessä, ja joka - riippuvaisia voimme tehokkaasti poimia tietoa tekstin ja opettaa kone antaa vastauksena hakupyynnön vain tiedon mielenkiintoinen meille.

Muuten, moderni hakukoneet käyttävät tätä luovuta tietty määrä sen sijaan pitkiä tekstejä vastauksena asiaa kyselyt, kuten "kuinka monta kaloria omena" tai "etäisyyden Moskovasta Pietariin." Kuitenkin ymmärtää edes perusasiat kuvatun prosessin tarve kuulla "Johdatus korpuslingvistiikka" tai muiden peruspalvelujen opetusohjelma.

semanttisen markup

Semantiikka sana - on, yksinkertaisesti, merkityksen. Laajalti sovellettavia lähestymistapa semanttinen analyysi sanan myöntämiseen tunnisteita, mikä hänen kuuluvan joukko semanttisen luokkien ja alaluokkien. Tällainen tieto on arvokasta optimointialgoritmeja analysoida tekstin sävy, tekstin automaattinen tiivistäminen ja muita tehtäviä menetelmiä korpuslingvistiikan.

On olemassa useita "root" puun, joka edustaa abstrakti sana, jolla on hyvin laaja semantiikkaa. Haara puun solmut on muodostettu, sisältävät enemmän ja tarkempaa leksikaalisen elementtejä. Esimerkiksi sana "olento" voi liittyä sellaisten käsitteiden kuin "ihmisen" ja "eläin". Ensimmäinen sana jatkaa laajentaa toimintaansa eri ammateissa, sukulaisuus termejä, kansallisuus, ja toinen - on luokkien ja eläimiä.

Käyttö tiedonhakujärjestelmien

Alueet käytön korpuslingvistiikan kattaa monipuolisesti toimintaa. Kotelot käytetään valmistuksessa ja korjaus sanakirjoja, luoda automatisoitu käännös järjestelmiä, merkitsemiseksi, hakemiseen tosiseikat, määrittämiseksi sävy ja muiden tekstin käsittely.

Lisäksi tällaiset resurssit käytetään aktiivisesti tutkimuksessa maailman kielistä ja mekanismit toimivat kielen yleensä. Pääsy suuria määriä esikäsiteltyjä tieto helpottaa nopeaa ja kattava tutkimus kehitystrendien kieliä ja vakaa muodostuminen neologisms puheen nopeutta muuttaa arvoja leksikaalisia yksiköitä ja muita.

Koska työtä niin suuria tietomääriä edellyttää automaation, nyt on tiivis vuorovaikutus tietokoneen ja korpuslingvistiikan.

Venäjän kansallisen Corpus

Tällöin (lyhennetty NKRYA) sisältää useita subcorpus, jolloin voidaan käyttää voimavarana erilaisia tehtäviä.

Materiaalit ovat tietokannassa jaettu NKRYA:

  • julkaisuihin tiedotusvälineissä 90- ja 2000-luvulla, sekä kotimaiset että ulkomaiset;
  • tallennus puhetta;
  • aktsentologicheski merkityt tekstit (ts jälkiä stressi);
  • murre puhetta;
  • runoutta;
  • Materiaaleja syntaktisia ja muut merkinnät.

Tietojärjestelmä sisältää myös Subcorpus rinnakkaisella teosten käännökset venäjästä Englanti, saksa, ranska ja monet muut kielet (ja päinvastoin).

Myös tietokannassa on osa historiallisia tekstejä, jotka edustavat kirjoitettu puhe venäjäksi eri aikoina sen kehitystä. Myös koulutus elin, joka voi olla hyötyä ulkomaan kansalaisten hallitseminen venäjän kielen.

Venäjän kansallisen Corpus käsittää 400 miljoonaa leksikaalisia yksikköä, ja monin tavoin ennen merkittävän osan Euroopan kielistä elimissä.

tulevaisuudennäkymät

Itse asiassa hyväksi tunnustetaan tämä suuntaus on saatavuus lupaava laboratoriossa korpuslingvistiikan Venäjän yliopistoissa, sekä ulkomaisia. Käytön ja tutkimuksesta osana näiden tietojen ja haku resursseja edellyttää tiettyjen alueiden kehittämistä alalla korkean teknologian, kysymys-Puhelinvastaajat, mutta se on käsitelty edellä.

Jatkokehitys korpuslingvistiikan ennustetaan kaikilla tasoilla, jotka vaihtelevat tekniset ja kannalta täytäntöönpanon uusia algoritmeja, jotka optimoivat prosesseja etsiä ja käsitellä tietoa, valtuuttamisesta tietokoneet, enemmän muistia, ja kuluttajien, koska käyttäjät ovat yhä enemmän tapoja käyttää tällaista resurssin jokapäiväisessä elämään ja työhön.

lopuksi

Keskellä viime vuosisadan 2017 tuntui kaukana tulevaisuudessa, missä avaruusaluksia kulkevat universumin robotit tehdä kaiken työn ihmisille. Itse asiassa, tiede on täynnä "valkoiset täplät" ja tehdä epätoivoisia yrityksiä vastata kysymyksiin ihmiskunnan vuosisatoja häiritsevää. Kysymykset toimiva kielen täällä miehittää kunniapaikalla, ja kaappi ja laskennallinen kielitiede voi auttaa meitä vastaamaan niihin.

Käsittely suurten tietomäärien voidaan havaita kuvioita, aiemmin saavuttamattomissa, ennustaa kehittämällä erityisiä kielen ominaisuuksista seurata sanojen muodostamista lähes reaaliajassa.

Käytännön tasolla, globaali koteloita voidaan nähdä esimerkiksi mahdollisena keino arvioida yleinen mieliala - Internet on jatkuvasti päivitettävä päivittäin erilaisia tekstejä luonut todellisia käyttäjiä: Tässä kommentteja ja arvosteluja ja artikkeleita, ja monet muut puheen.

Lisäksi työskentelee elinten edistää kehitystä samoja laitteita, jotka ovat mukana tiedonhaun, tunnemme palveluun "Google" tai "Yandex", kone käännös, elektroniset sanakirjat.

Emme voi varmuudella väittää, että korpuslingvistiikka tekee vasta ensiaskeleita, ja lähitulevaisuudessa kukoistaa.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 fi.birmiss.com. Theme powered by WordPress.