Aiheen malli - Topic model

Vuonna koneoppimisen ja luonnollisen kielen käsittely , eli aihe malli on eräänlainen tilastollisen mallin löytämiseksi abstrakteja "aiheita", jotka esiintyvät kokoelma asiakirjoja. Aiheiden mallinnus on usein käytetty tekstinlouhintatyökalu piilotettujen semanttisten rakenteiden löytämiseen tekstirungossa. Kun otetaan huomioon, että asiakirja koskee tiettyä aihetta, voidaan intuitiivisesti odottaa, että tiettyjä sanoja esiintyy asiakirjassa enemmän tai harvemmin: "koira" ja "luu" esiintyvät useammin koirista, "kissasta" ja "miau" tulee näkyviin kissoja koskevissa asiakirjoissa, ja "ja" on molemmissa suunnilleen tasan. Asiakirja koskee tyypillisesti useita aiheita eri mittasuhteissa; Näin ollen asiakirjassa, joka koskee 10% kissoista ja 90% koirista, olisi luultavasti noin 9 kertaa enemmän koiran sanoja kuin kissan sanoja. Aiheiden mallintamistekniikoiden tuottamat "aiheet" ovat samankaltaisten sanojen klustereita. Aihemalli vangitsee tämän intuition matemaattisessa kehyksessä, jonka avulla voidaan tutkia joukko asiakirjoja ja löytää kunkin sanan tilastojen perusteella, mitkä aiheet voivat olla ja mikä on kunkin asiakirjan aiheiden tasapaino.

Aihemalleja kutsutaan myös todennäköisyyspohjaisiksi aihemalleiksi, mikä viittaa tilastollisiin algoritmeihin laajan tekstirungon piilevien semanttisten rakenteiden löytämiseksi. Tietojen aikakaudella päivittäin kohtaamamme kirjallisen materiaalin määrä ylittää yksinkertaisesti käsittelykapasiteettimme. Aihemallit voivat auttaa järjestämään ja tarjoamaan oivalluksia ymmärtääksemme suuria rakenteettomien tekstirunkojen kokoelmia. Alun perin tekstin louhintatyökaluna kehitettyjä aihemalleja on käytetty havaitsemaan opettavaisia ​​rakenteita, kuten geneettistä tietoa, kuvia ja verkostoja. Heillä on myös sovelluksia muilla aloilla, kuten bioinformatiikassa ja tietokonenäkössä .

Historia

Papadimitriou, Raghavan, Tamaki ja Vempala kuvasivat varhaisen aihemallin vuonna 1998. Thomas Hofmann loi vuonna 1999 toisen mallin, nimeltään todennäköisyyspohjainen piilevä semanttinen analyysi (PLSA). Latentti Dirichlet -allokointi (LDA), ehkä yleisin aihemalli on tällä hetkellä käytössä, on PLSA: n yleistys. Kehittämä David Blei , Andrew Ng ja Michael I. Jordan vuonna 2002, LDA esittelee harva Dirichlet priorijakaumia yli asiakirja-viesti ja viesti-sana jakaumat, koodaava intuitio, että asiakirjat kattavat pieni määrä aiheita ja aiheet usein käyttää pientä Sanojen määrä. Muut aihemallit ovat yleensä LDA: n laajennuksia, kuten Pachinko -allokointi , joka parantaa LDA: ta mallintamalla aiheiden välisiä korrelaatioita aiheiden muodostavien sanakorrelaatioiden lisäksi. Hierarkkinen piilevän puun analyysi ( HLTA ) on vaihtoehto LDA: lle, joka mallintaa sanojen samanaikaista esiintymistä käyttämällä piilevien muuttujien puuta ja piilevien muuttujien tilat, jotka vastaavat pehmeitä asiakirjaryhmiä, tulkitaan aiheiksi.

Animaatio aiheen tunnistusprosessista asiakirja-sanamatriisissa. Jokainen sarake vastaa asiakirjaa ja jokainen rivi sanaa. Solu tallentaa sanan taajuuden asiakirjaan, tummat solut osoittavat korkeita sanataajuuksia. Aihemallit ryhmittävät sekä asiakirjoja, jotka käyttävät samankaltaisia ​​sanoja, että sanoja, jotka esiintyvät samankaltaisissa asiakirjoissa. Tuloksena olevia malleja kutsutaan "aiheiksi".

Aihemallit kontekstitiedoille

Ajallisten tietojen lähestymistapoja ovat Block ja Newman määrittäneet aiheiden ajallisen dynamiikan Pennsylvania Gazette -lehdessä vuosina 1728–1800. Griffiths & Steyvers käytti aiheiden mallintamista PNAS- lehden tiivistelmissä tunnistaakseen aiheita, joiden suosio kasvoi tai laski vuosina 1991-2001, kun taas Lamba & Madhusushan käyttivät aiheiden mallintamista DJLIT-lehdestä vuosina 1981–2018 haetuissa kokotekstitutkimusartikkeleissa. Kirjasto- ja tietotieteen alalla Lamba & Madhusudhan käyttivät aiheiden mallintamista eri intialaisissa resursseissa, kuten aikakauslehdissä ja sähköisissä opinnäytteissä ja -resursseissa (ETD). Nelson on analysoinut aiheiden muutosta ajan myötä Richmond Times-Dispatchissa ymmärtääkseen yhteiskunnallisia ja poliittisia muutoksia ja jatkuvuutta Richmondissa Yhdysvaltain sisällissodan aikana . Yang, Torget ja Mihalcea käyttivät aiheiden mallintamismenetelmiä sanomalehdissä vuosina 1829–2008. Mimno käytti aiheiden mallintamista 24 klassisen filologian ja arkeologian aikakauslehdessä, jotka kattoivat 150 vuotta ja tarkastelivat, miten lehtien aiheet muuttuvat ajan myötä ja miten lehdet muuttuvat erilaisiksi tai samanlaisiksi ajan myötä.

Yin et ai. otti käyttöön teemamallin maantieteellisesti hajautetuille asiakirjoille, jossa asiakirjojen sijainnit selitetään piilevillä alueilla, jotka havaitaan päätelmien aikana.

Chang ja Blei sisälsivät verkkotietoja linkitettyjen asiakirjojen välille relaatioteemamallissa verkkosivustojen välisten linkkien mallintamiseksi.

Rosen-Zvin et ai. mallinnetaan asiakirjojen tekijöihin liittyviä aiheita parantaakseen aiheiden havaitsemista tekijöitä koskevilla asiakirjoilla.

HLTA: ta sovellettiin kokoelmaan viimeaikaisia ​​tutkimuksia, jotka on julkaistu suurimmissa tekoäly- ja koneoppimispaikoissa. Tuloksena olevaa mallia kutsutaan AI -puuksi . Tuloksena olevia aiheita käytetään indeksoimaan paperit osoitteessa aipano.cse.ust.hk, mikä auttaa tutkijoita seuraamaan tutkimustrendejä ja tunnistamaan luettavia artikkeleita sekä auttamaan konferenssin järjestäjiä ja lehtien toimittajia tunnistamaan lähetysten arvioijat .

Algoritmit

Käytännössä tutkijat yrittävät sovittaa sopivat malliparametrit tietokorpusiin käyttämällä yhtä useista heuristiikoista maksimaalisen todennäköisyyden sovittamiseksi. Bleyn äskettäinen kysely kuvaa tätä algoritmipakettia. Useat tutkijaryhmät alkaen Papadimitriou et al. ovat yrittäneet suunnitella algoritmeja, joilla on todennäköiset takuut. Jos oletetaan, että tiedot todella ovat kyseisen mallin tuottamia, he yrittävät suunnitella algoritmeja, jotka todennäköisesti löytävät tiedon luomiseen käytetyn mallin. Tässä käytettyjä tekniikoita ovat yksikköarvon hajoaminen (SVD) ja momenttimenetelmä . Vuonna 2012 otettiin käyttöön algoritmi, joka perustuu ei-negatiiviseen matriisitekijäämiseen (NMF), joka myös yleistää aihemalleihin aiheiden välisillä korrelaatioilla.

Vuonna 2018 syntyi uusi lähestymistapa aihemalleihin ja se perustui stokastiseen lohkomalliin

Aihemallit kvantitatiiviselle biolääketieteelle

Aihemalleja käytetään myös muissa yhteyksissä. Esimerkkejä aihemallien käytöksestä biologiassa ja bioinformatiikan tutkimuksessa. Äskettäin aihemalleja on käytetty tietojen poimimiseen syövän genomisista näytteistä. Tässä tapauksessa aiheina ovat biologiset piilevät muuttujat, joista voidaan päätellä.

Katso myös

Viitteet

Lue lisää

Ulkoiset linkit