Aiheen malli - Topic model

Vuonna koneoppimisen ja luonnollisen kielen käsittely , eli aihe malli on eräänlainen tilastollisen mallin löytämiseksi abstrakteja "aiheita", jotka esiintyvät kokoelma asiakirjoja. Aiheiden mallinnus on usein käytetty tekstinlouhintatyökalu piilotettujen semanttisten rakenteiden löytämiseen tekstirungossa. Kun otetaan huomioon, että asiakirja koskee tiettyä aihetta, voidaan intuitiivisesti odottaa, että tiettyjä sanoja esiintyy asiakirjassa enemmän tai harvemmin: "koira" ja "luu" esiintyvät useammin koirista, "kissasta" ja "miau" tulee näkyviin kissoja koskevissa asiakirjoissa, ja "ja" on molemmissa suunnilleen tasan. Asiakirja koskee tyypillisesti useita aiheita eri mittasuhteissa; Näin ollen asiakirjassa, joka koskee 10% kissoista ja 90% koirista, olisi luultavasti noin 9 kertaa enemmän koiran sanoja kuin kissan sanoja. Aiheiden mallintamistekniikoiden tuottamat "aiheet" ovat samankaltaisten sanojen klustereita. Aihemalli vangitsee tämän intuition matemaattisessa kehyksessä, jonka avulla voidaan tutkia joukko asiakirjoja ja löytää kunkin sanan tilastojen perusteella, mitkä aiheet voivat olla ja mikä on kunkin asiakirjan aiheiden tasapaino.

Aihemalleja kutsutaan myös todennäköisyyspohjaisiksi aihemalleiksi, mikä viittaa tilastollisiin algoritmeihin laajan tekstirungon piilevien semanttisten rakenteiden löytämiseksi. Tietojen aikakaudella päivittäin kohtaamamme kirjallisen materiaalin määrä ylittää yksinkertaisesti käsittelykapasiteettimme. Aihemallit voivat auttaa järjestämään ja tarjoamaan oivalluksia ymmärtääksemme suuria rakenteettomien tekstirunkojen kokoelmia. Alun perin tekstin louhintatyökaluna kehitettyjä aihemalleja on käytetty havaitsemaan opettavaisia rakenteita, kuten geneettistä tietoa, kuvia ja verkostoja. Heillä on myös sovelluksia muilla aloilla, kuten bioinformatiikassa ja tietokonenäkössä .

Historia

Papadimitriou, Raghavan, Tamaki ja Vempala kuvasivat varhaisen aihemallin vuonna 1998. Thomas Hofmann loi vuonna 1999 toisen mallin, nimeltään todennäköisyyspohjainen piilevä semanttinen analyysi (PLSA). Latentti Dirichlet -allokointi (LDA), ehkä yleisin aihemalli on tällä hetkellä käytössä, on PLSA: n yleistys. Kehittämä David Blei , Andrew Ng ja Michael I. Jordan vuonna 2002, LDA esittelee harva Dirichlet priorijakaumia yli asiakirja-viesti ja viesti-sana jakaumat, koodaava intuitio, että asiakirjat kattavat pieni määrä aiheita ja aiheet usein käyttää pientä Sanojen määrä. Muut aihemallit ovat yleensä LDA: n laajennuksia, kuten Pachinko -allokointi , joka parantaa LDA: ta mallintamalla aiheiden välisiä korrelaatioita aiheiden muodostavien sanakorrelaatioiden lisäksi. Hierarkkinen piilevän puun analyysi ( HLTA ) on vaihtoehto LDA: lle, joka mallintaa sanojen samanaikaista esiintymistä käyttämällä piilevien muuttujien puuta ja piilevien muuttujien tilat, jotka vastaavat pehmeitä asiakirjaryhmiä, tulkitaan aiheiksi.

Animaatio aiheen tunnistusprosessista asiakirja-sanamatriisissa. Jokainen sarake vastaa asiakirjaa ja jokainen rivi sanaa. Solu tallentaa sanan taajuuden asiakirjaan, tummat solut osoittavat korkeita sanataajuuksia. Aihemallit ryhmittävät sekä asiakirjoja, jotka käyttävät samankaltaisia sanoja, että sanoja, jotka esiintyvät samankaltaisissa asiakirjoissa. Tuloksena olevia malleja kutsutaan "aiheiksi".

Aihemallit kontekstitiedoille

Ajallisten tietojen lähestymistapoja ovat Block ja Newman määrittäneet aiheiden ajallisen dynamiikan Pennsylvania Gazette -lehdessä vuosina 1728–1800. Griffiths & Steyvers käytti aiheiden mallintamista PNAS- lehden tiivistelmissä tunnistaakseen aiheita, joiden suosio kasvoi tai laski vuosina 1991-2001, kun taas Lamba & Madhusushan käyttivät aiheiden mallintamista DJLIT-lehdestä vuosina 1981–2018 haetuissa kokotekstitutkimusartikkeleissa. Kirjasto- ja tietotieteen alalla Lamba & Madhusudhan käyttivät aiheiden mallintamista eri intialaisissa resursseissa, kuten aikakauslehdissä ja sähköisissä opinnäytteissä ja -resursseissa (ETD). Nelson on analysoinut aiheiden muutosta ajan myötä Richmond Times-Dispatchissa ymmärtääkseen yhteiskunnallisia ja poliittisia muutoksia ja jatkuvuutta Richmondissa Yhdysvaltain sisällissodan aikana . Yang, Torget ja Mihalcea käyttivät aiheiden mallintamismenetelmiä sanomalehdissä vuosina 1829–2008. Mimno käytti aiheiden mallintamista 24 klassisen filologian ja arkeologian aikakauslehdessä, jotka kattoivat 150 vuotta ja tarkastelivat, miten lehtien aiheet muuttuvat ajan myötä ja miten lehdet muuttuvat erilaisiksi tai samanlaisiksi ajan myötä.

Yin et ai. otti käyttöön teemamallin maantieteellisesti hajautetuille asiakirjoille, jossa asiakirjojen sijainnit selitetään piilevillä alueilla, jotka havaitaan päätelmien aikana.

Chang ja Blei sisälsivät verkkotietoja linkitettyjen asiakirjojen välille relaatioteemamallissa verkkosivustojen välisten linkkien mallintamiseksi.

Rosen-Zvin et ai. mallinnetaan asiakirjojen tekijöihin liittyviä aiheita parantaakseen aiheiden havaitsemista tekijöitä koskevilla asiakirjoilla.

HLTA: ta sovellettiin kokoelmaan viimeaikaisia tutkimuksia, jotka on julkaistu suurimmissa tekoäly- ja koneoppimispaikoissa. Tuloksena olevaa mallia kutsutaan AI -puuksi . Tuloksena olevia aiheita käytetään indeksoimaan paperit osoitteessa aipano.cse.ust.hk, mikä auttaa tutkijoita seuraamaan tutkimustrendejä ja tunnistamaan luettavia artikkeleita sekä auttamaan konferenssin järjestäjiä ja lehtien toimittajia tunnistamaan lähetysten arvioijat .

Algoritmit

Käytännössä tutkijat yrittävät sovittaa sopivat malliparametrit tietokorpusiin käyttämällä yhtä useista heuristiikoista maksimaalisen todennäköisyyden sovittamiseksi. Bleyn äskettäinen kysely kuvaa tätä algoritmipakettia. Useat tutkijaryhmät alkaen Papadimitriou et al. ovat yrittäneet suunnitella algoritmeja, joilla on todennäköiset takuut. Jos oletetaan, että tiedot todella ovat kyseisen mallin tuottamia, he yrittävät suunnitella algoritmeja, jotka todennäköisesti löytävät tiedon luomiseen käytetyn mallin. Tässä käytettyjä tekniikoita ovat yksikköarvon hajoaminen (SVD) ja momenttimenetelmä . Vuonna 2012 otettiin käyttöön algoritmi, joka perustuu ei-negatiiviseen matriisitekijäämiseen (NMF), joka myös yleistää aihemalleihin aiheiden välisillä korrelaatioilla.

Vuonna 2018 syntyi uusi lähestymistapa aihemalleihin ja se perustui stokastiseen lohkomalliin

Aihemallit kvantitatiiviselle biolääketieteelle

Aihemalleja käytetään myös muissa yhteyksissä. Esimerkkejä aihemallien käytöksestä biologiassa ja bioinformatiikan tutkimuksessa. Äskettäin aihemalleja on käytetty tietojen poimimiseen syövän genomisista näytteistä. Tässä tapauksessa aiheina ovat biologiset piilevät muuttujat, joista voidaan päätellä.

Katso myös

Viitteet

Lue lisää

Steyvers, Mark; Griffiths, Tom (2007). "Todennäköiset teemamallit" . Julkaisussa Landauer, T .; McNamara, D; Dennis, S .; et ai. (toim.). Latentin semanttisen analyysin käsikirja (PDF) . Psychology Press. ISBN 978-0-8058-5418-3. Arkistoitu alkuperäisestä (PDF) on 24.6.2013.
Blei, DM; Lafferty, JD (2009). "Aihemallit" (PDF) .
Blei, D .; Lafferty, J. (2007). " Tieteen korreloiva aihemalli ". Annals of Applied Statistics . 1 (1): 17–35. arXiv : 0708.3601 . doi : 10.1214/07-AOAS114 . S2CID 8872108 .
Mimno, D. (huhtikuu 2012). "Laskennallinen historiointi: tiedonlouhinta vuosisadalla klassikoista" (PDF) . Lehti tietojenkäsittelystä ja kulttuuriperinnöstä . 5 (1): 1–19. doi : 10.1145/2160165.2160168 . S2CID 12153151 .
Marwick, Ben (2013). "Antropologian uusien ongelmien ja kiistojen löytäminen tekstin louhinnan, aiheiden mallintamisen ja mikroblogisisällön sosiaalisten verkostojen analyysin avulla" . Yanchangissa, Zhaossa; Yonghua, Cen (toim.). Tiedonlouhintasovellukset R: llä . Elsevier. s. 63–93.
Jockers, M. 2010 Kuka on DH- blogikaverisi : MH-bloggaajien päivä sopivalla teemalla mallintamalla Matthew L.Jockers, julkaistu 19. maaliskuuta 2010
Drouin, J. 2011 Foray Into Topic Modeling Ecclesiastical Proust Archive. julkaistu 17. maaliskuuta 2011
Templeton, C. 2011 Humanististen aiheiden mallinnus: yleiskatsaus Maryland Institute for Technology in Humanities Blog. julkaistu 1. elokuuta 2011
Griffiths, T .; Steyvers, M. (2004). "Tieteellisten aiheiden löytäminen" . Kansallisen tiedeakatemian julkaisut . 101 (tarvikkeet 1): 5228–35. Bibcode : 2004PNAS..101.5228G . doi : 10.1073/pnas.0307752101 . PMC 387300 . PMID 14872004 .
Yang, T., A Torget ja R.Mihalcea (2011) Aiheiden mallintaminen historiallisissa sanomalehdissä. Viidennen ACL-HLT-työpajan artikkelit kulttuuriperinnön, yhteiskuntatieteiden ja humanististen tieteiden kieliteknologiasta . Laskennallisen kielitieteen yhdistys, Madison, WI. sivut 96–104.
Block, S. (tammikuu 2006). "Tee enemmän digitoinnilla: Johdatus amerikkalaisten varhaisten lähteiden aiheiden mallintamiseen" . Yhteinen paikka Interactive Journal of Early American Life . 6 (2).
Newman, D .; Block, S. (maaliskuu 2006). "Todennäköinen aihehajoitus kahdeksastoista-luvun sanomalehdestä" (PDF) . Journal of the American Society for Information Science and Technology . 57 (5): 753-767. doi : 10.1002/asi.20342 .

Ulkoiset linkit

Mimno, David. "Aiheiden mallintamisen bibliografia" .
Brett, Megan R. "Aiheiden mallinnus: perusjohdanto" . Journal of Digital Humanities.
Aihe Mallit Applied Online News ja arvostelut Video Google Tech Talk esittely Alice Oh aiheessa mallinnus LDA
Mallinnustiede: Dynaamisia aihemalleja tieteellisestä tutkimuksesta Video Google Tech Talk -esityksestä David M. Blei
Automatisoidut aihemallit valtiotieteessä Video Brandon Stewartin esityksestä Tools for Text Workshopissa 14. kesäkuuta 2010
Shawn Graham, Ian Milligan ja Scott Weingart "Aiheiden mallintamisen ja MALLETin käytön aloittaminen" . Ohjelmointihistorioitsija. Arkistoitu alkuperäisestä 28.8.2014 . Haettu 2014-05-29 .
Blei, David M. "Esittelymateriaali ja ohjelmisto"
koodi , demo - esimerkki LDA: n käytöstä aiheiden mallinnuksessa

Languages

In other projects