Lisäsilvennys - Additive smoothing

In tilastojen , lisäaine tasoitus , jota kutsutaan myös Laplace tasoitus (ei pidä sekoittaa Laplacen tasoitus , jota käytetään kuvan käsittelyyn ), tai Lidstone tasoitus , on tekniikka, jota käytetään tasoittamaan kategorisen datan . Annettiin joukko havainto laskee peräisin ulotteinen Multinomijakauma kanssa tutkimuksissa, eli "tasoitettua" versio laskee antaa estimaattori :

jossa tasoitettu määrä ja "pseudocount" α  > 0 on tasoittava parametri . α  = 0 ei vastaa tasoitusta. (Tämä parametri selitetään jäljempänä § Pseudocount .) Lisäaineen tasoitus on eräänlainen kutistumisestimaattori , koska tuloksena oleva arvio on empiirisen todennäköisyyden ( suhteellinen taajuus ) ja yhtenäisen todennäköisyyden välillä . Laplacen perimyssääntöön viitaten jotkut kirjoittajat ovat väittäneet, että α: n pitäisi olla 1 (jolloin käytetään myös termiä add-one tasoitus ), vaikka käytännössä valitaan yleensä pienempi arvo.

Vuodesta Bayesian näkökulmasta, tämä vastaa odotettua arvoa on posteriorijakauma käyttäen symmetrinen Dirichlet jakauma parametrilla α kuin ennen jakelua . Erityistapauksessa, jossa luokkien määrä on 2, tämä vastaa beta -jakauman käyttöä konjugaattina ennen binomijakauman parametreja .

Historia

Laplace keksi tämän tasoitustekniikan yrittäessään arvioida mahdollisuutta, että aurinko nousee huomenna. Hänen perustelunsa oli, että vaikka meillä on suuri näyte päivistä nousevan auringon kanssa, emme voi silti olla täysin varmoja siitä, että aurinko nousee vielä huomenna (tunnetaan auringonnousun ongelmana ).

Pseudocount

Pseudocount on määrä (ei yleensä kokonaisluku, vaikka sen nimi) lisätään määrä havaittujen tapausten muuttamiseksi odotettavissa todennäköisyys on malli näitä tietoja, kun ei tiedetä olevan nolla . Se on saanut nimensä, koska karkeasti ottaen pseudo-count value painaa osaksi posteriorijakauma samoin kussakin luokassa, joilla ylimääräinen lasken . Jos kunkin kohteen taajuus on poissa näytteistä, tapahtuman empiirinen todennäköisyys on

mutta jälkimmäinen todennäköisyys, kun se on tasoitettu

ikään lisätä laskettavat jonka a priori.

Aikaisemmasta tietämyksestä riippuen, joka on joskus subjektiivinen arvo, pseudocountilla voi olla mikä tahansa negatiivinen äärellinen arvo. Se voi olla vain nolla (tai mahdollisuus jätetään huomiotta), jos se on määritelmän mukaan mahdotonta, kuten mahdollisuus, että pi: n desimaaliluku on kirjain, tai fyysinen mahdollisuus, joka hylätään ja jota ei lasketa, kuten tietokone, joka tulostaa kirjeen kun kelvollinen pi -ohjelma suoritetaan tai suljetaan pois eikä sitä lasketa kiinnostuksen takia, kuten jos vain kiinnostuvat nollat ​​ja ykköset. Yleensä on myös mahdollista, että mitään arvoa ei voida laskea tai havaita rajallisessa ajassa (katso pysäytysongelma ). Mutta ainakin yhdellä mahdollisuudella on oltava nollasta poikkeava pseudocount, muuten ennustetta ei voitu laskea ennen ensimmäistä havaintoa. Pseudolukujen suhteelliset arvot edustavat niiden mahdollisuuksien suhteellisia odotettuja todennäköisyyksiä. Pseudolukujen summa, joka voi olla hyvin suuri, edustaa ennakkotiedon arvioitua painoarvoa verrattuna kaikkiin todellisiin havaintoihin (yksi kullekin) odotettua todennäköisyyttä määritettäessä.

Kaikissa havaituissa tietojoukoissa tai näytteissä on mahdollisuus, etenkin pienen todennäköisyyden tapahtumien ja pienten tietojoukkojen tapauksessa, että mahdollista tapahtumaa ei tapahdu. Sen havaittu taajuus on siis nolla, mikä ilmeisesti merkitsee nollan todennäköisyyttä. Tämä yksinkertaistaminen on epätarkkaa ja usein hyödytöntä erityisesti todennäköisyyspohjaisissa koneoppimistekniikoissa , kuten keinotekoisissa hermoverkkoissa ja piilotetuissa Markov-malleissa . Säätämällä keinotekoisesti harvinaisten (mutta ei mahdottomien) tapahtumien todennäköisyyttä siten, että nämä todennäköisyydet eivät ole täsmälleen nolla, vältetään nollapisteiden ongelmat . Katso myös Cromwellin sääntö .

Yksinkertaisin tapa on lisätä yksi jokaiseen havaittuun tapahtumamäärään, mukaan lukien nollalaskumahdollisuudet. Tätä kutsutaan joskus Laplacen perimyssääntönä . Tämä lähestymistapa vastaa sitä, että oletetaan yhdenmukainen ennakkojakauma todennäköisyyksille kullekin mahdolliselle tapahtumalle (joka ulottuu yksinkerroiseen, kun jokainen todennäköisyys on välillä 0 ja 1 ja niiden kaikkien summa on 1).

Käyttämällä Jeffreysin aikaisempaa lähestymistapaa jokaiseen mahdolliseen tulokseen tulisi lisätä puolet pseudocount.

Pseudoluvut tulisi asettaa yhdeksi vain silloin, kun ennakkotietoa ei ole lainkaan - katso välinpitämättömyyden periaate . Kuitenkin asianmukaisen ennakkotiedon perusteella summaa on oikaistava suhteessa odotukseen, että aiemmat todennäköisyydet on pidettävä oikeina, vaikka päinvastaisesta ei ole näyttöä - katso lisäanalyysi . Korkeammat arvot ovat tarkoituksenmukaisia ​​siltä osin kuin todellisista arvoista on etukäteen tietoa (esimerkiksi rahapajaolosuhteissa olevalle kolikolle); pienemmät arvot siltä osin kuin on ennakkotietoa siitä, että on olemassa todennäköistä harhaa, mutta tuntematon aste (esimerkiksi taivutetun kolikon tapauksessa).

Monimutkaisempi lähestymistapa on arvioida tapahtumien todennäköisyys muista tekijöistä ja mukauttaa niitä vastaavasti.

Esimerkkejä

Yksi tapa motivoida pseudolukuja, erityisesti binomitietojen osalta, on kaava intervalliarvion keskipisteelle , erityisesti binomiaalisen osuuden luottamusvälille . Tunnetuin johtuu Edwin Bidwell Wilsonista , Wilson (1927) : Wilsonin pistemäärän keskipiste, joka vastaa keskihajontoja kummallakin puolella:

Kun keskihajonnat otetaan likimain 95%: n luottamusväliin ( ), tuloksena on pseudoluku 2 jokaiselle tulokselle, joten yhteensä 4, joka tunnetaan puhekielessä "plus neljä sääntöä":

Tämä on myös Agresti – Coull -välin keskipiste ( Agresti & Coull 1998 ).

Yleistetään tapauksiin, joissa esiintyvyys on tiedossa

Usein testaat tuntemattoman koejoukon harhaa vertailuryhmään, jolla on tunnetut parametrit (esiintyvyysluvut) . Tässä tapauksessa yhtenäinen todennäköisyys tulisi korvata kontrollipopulaation tunnetulla esiintyvyysasteella tasoitetun estimaatin laskemiseksi:

Johdonmukaisuuden tarkistamiseksi, jos empiirinen estimaattori sattuu olemaan yhtä suuri kuin esiintyvyysaste, eli tasoitettu estimaatti on riippumaton esiintyvyysluvusta ja yhtä suuri sen kanssa.

Sovellukset

Luokittelu

Lisäaineiden tasoitus on yleensä osa naiiveja Bayes -luokittelijoita .

Tilastollinen kielimallinnus

Kun pussi sanoja mallin luonnollisen kielen käsittely ja tiedonhaku, data koostuu esiintymien lkm jokaisen sanan asiakirjan. Lisäsilvennys mahdollistaa nollasta poikkeavien todennäköisyyksien määrittämisen sanoille, joita ei esiinty näytteessä. Viimeaikaiset tutkimukset ovat osoittaneet, että additiivinen tasoitus on tehokkaampi kuin muut todennäköisyyden tasoitusmenetelmät useissa hakutehtävissä, kuten kielimallipohjaisessa pseudorelevanssipalautteessa ja suositusjärjestelmissä .

Katso myös

Viitteet

Lähteet

Ulkoiset linkit