Laskennallinen leksikologia - Computational lexicology

Laskennallinen leksikologia on laskennallisen kielitieteen ala , joka koskee tietokoneiden käyttöä sanakirjan tutkimuksessa . Jotkut tutkijat (Amsler, 1980) ovat kuvaillut sitä tietokoneiden käytönä koneellisesti luettavien sanakirjojen tutkimuksessa . Se eroaa laskennallisesta leksikografiasta , mikä oikeammin olisi tietokoneiden käyttö sanakirjojen rakentamisessa, vaikka jotkut tutkijat ovat käyttäneet laskennallista leksikografiaa synonyyminä .

Historia

Laskennallinen leksikologia nousi laskennallisessa kielitieteessä erillisenä tieteenalana, jossa ilmestyi koneellisesti luettavia sanakirjoja. Aloittaen Johnin 1960-luvulla Merriam-Websterin seitsemännen kollegaattisen sanakirjan ja Merriam-Webster New Pocket -sangan koneellisesti luettavien nauhojen luomisesta 1960-luvulla. Olney et ai. klo System Development Corporation . Tänään, laskennallinen leksikologian tunnetaan parhaiten luomalla ja sovellukset WordNet. Kun tutkijoiden laskennallinen käsittely lisääntyi ajan myötä, laskennallisen leksikologian käyttöä on käytetty kaikkialla tekstianalyysissä. Vuonna 1987 muun muassa Byrd, Calzolari, Chodorow ovat kehittäneet laskennallisia työkaluja tekstianalyysiin. Erityisesti malli suunniteltiin polysemisten sanojen aisteihin liittyvien assosiaatioiden koordinoimiseksi .

Leksikon tutkimus

Laskennallinen leksikologia on auttanut ymmärtämään painettujen sanakirjojen sisältöä ja rajoituksia laskennallisiin tarkoituksiin (ts. Se selvensi, että aikaisempi leksikografian työ ei ollut riittävä laskennallisen kielitieteen tarpeisiin). Laskennallisten leksikologien työn kautta on tutkittu melkein kaikkia osia painetusta sanakirjasta, alkaen:

  1. mitä muodostuu sanasta - käytetään oikeinkirjoituksen korjausluetteloiden luomiseen;
  2. mitä muunnelmia ja käännöksiä sanasuunnat käyttävät - morfologian empiiriseen ymmärtämiseen;
  3. kuinka sanakirja on jaettu tavuihin;
  4. kuinka sanat ääntävät - käytetään puhegeneraattorijärjestelmissä;
  5. puheosat, joihin sanakirja tulee - käytetään POS-tunnisteissa ;
  6. mahdolliset erityiset aihe- tai käyttökoodit, jotka on määritetty otsikolle - käytetään tekstitiedoston aiheen tunnistamiseen;
  7. sanan määritelmät ja niiden syntaksi - käytetään apuna sanan yksiselitteistämiseen yhteydessä;
  8. sanan etymologia ja sen käyttö sanaston karakterisointiin alkuperäkielten mukaan - käytetään tekstisanaston karakterisointiin alkuperäkielellään;
  9. esimerkkilauseet;
  10. suoritukset (lisäsanat ja monisanailmaisu, jotka muodostuvat otsikosta); ja
  11. aiheeseen liittyvät sanat, kuten synonyymit ja antonyymit .

Monet laskennalliset kielitieteilijät eivät pitäneet painettavia sanakirjoja laskennallisen kielitieteen lähteenä, koska heillä ei ollut riittävästi syntaktiikkaa ja semanttista tietoa tietokoneohjelmiin. Laskennallisen leksikologian työ johti nopeasti ponnisteluihin kahteen lisäsuuntaan.

Laskennallisen leksikologian seuraajat

Ensinnäkin laskennallisten kielitieteilijöiden ja leksikografien välinen yhteistyö johti ymmärtämiseen, mikä rooli korporilla oli sanakirjojen luomisessa. Useimmat laskennalliset leksikologit siirtyivät rakentamaan suuria yrityksiä keräämään perustiedot, joita leksikografit olivat käyttäneet sanakirjojen luomiseen. ACL / DCI (tiedonkeruualoite) ja LDC ( Linguistic Data Consortium ) pitivät tätä tietä. Merkintäkielten tulo sai aikaan merkittyjen korporaatioiden luomisen, joita voidaan helpommin analysoida laskennallisten kielijärjestelmien luomiseksi. Puhetta kohden merkityt korpoo ja semanttisesti merkityt korporit luotiin POS-merkintöjen ja sana-semanttisen yksilöintitekniikan testaamiseksi ja kehittämiseksi.

Toinen suunta oli kohti Lexicalin tietokantojen (LKB) luomista. Leksisen tietopohjan katsottiin olevan mitä sanakirjan tulisi olla laskennallisiin kielellisiin tarkoituksiin, erityisesti laskennallisiin leksisiin semanttisiin tarkoituksiin. Siinä oli oltava samat tiedot kuin painetussa sanakirjassa, mutta täysin selitetty sanojen merkityksistä ja asianmukaisista yhteyksistä aistien välillä. Monet alkoivat luoda resursseja, joita he halusivat sanakirjoista, jos ne olisi luotu käytettäväksi laskennallisessa analyysissa. WordNettiä voidaan pitää sellaisena kehityksenä, samoin kuin uudemmat pyrkimykset kuvata syntaktiikkaa ja semanttista tietoa, kuten Fillmoren FrameNet-työ. Laskennallisen kielitieteen ulkopuolella keinotekoisen älykkyyden ontologiatyötä voidaan pitää evoluutioyrityksenä rakentaa lexical tietopohja AI-sovelluksia varten.

standardointi

Laskennallisten sanastojen tuotannon, ylläpidon ja laajentamisen optimointi on yksi tärkeimmistä NLP: hen vaikuttavista näkökohdista . Pääongelma on yhteentoimivuus : erilaiset sanakirjat ovat usein yhteensopimattomia. Yleisin tilanne on: miten yhdistää kaksi sanakirjaa tai sanaston fragmentteja? Toissijainen ongelma on se, että sanakirja on yleensä räätälöity tietylle NLP-ohjelmalle ja että sillä on vaikeuksia käyttää sitä muissa NLP-ohjelmissa tai sovelluksissa.

Tätä varten ISO / TC37 on tutkinut laskennallisten sanastojen erilaisia tietomalleja vuodesta 2003 hankkeen leksikaalisen merkinnän puitteissa, joka on johtanut ISO-standardiin vuonna 2008.

Viitteet

Amsler, Robert A. 1980. Ph.D. Väitös, "Merriam-Webster Pocket Dictionary -rakenne". Teksasin yliopisto Austinissa.

Ulkoiset linkit