Lineaarinen ennakoiva koodaus - Linear predictive coding

Lineaarisen ennustavan koodauksen ( LPC ) on menetelmä, jota käytetään lähinnä audiosignaalin käsittely ja puheen käsittely varten edustavat spektrin verhokäyrän , joka digitaalisen signaalin ja puhe on pakattu muotoon, käyttäen tietoja, jotka ovat lineaarinen ennustava malli .

LPC on yleisimmin käytetty menetelmä puhekoodauksessa ja puheen synteesissä . Se on tehokas puheanalyysitekniikka ja hyödyllinen menetelmä hyvänlaatuisen puheen koodaamiseen pienellä bittinopeudella.

Yleiskatsaus

LPC alkaa olettaen, että puhesignaali tuottaa summerin lopussa putken (ja soinnillisen ääniä), satunnaiset lisätty hurina ja popping äänet (ja äänettömien äänet, kuten äänteet ja pop- ). Vaikka tämä malli onkin ilmeisesti raaka, se on itse asiassa läheinen arvio puhetuotannon todellisuudesta. Ääniraon (väli äänihuulten) tuottaa surinaa, joka on tunnettu siitä, että sen intensiteetti ( äänenvoimakkuuden ) ja taajuus (pitch). Ääniväylän (kurkussa ja suussa) muodostaa putki, joka on tunnettu siitä, että sen resonanssit; nämä resonanssit synnyttävät formantteja tai parannettuja taajuuskaistoja tuotetussa äänessä. Hisses ja pops syntyy toiminnan kielen, huulten ja kurkun aikana sibilants ja plosives.

LPC analysoi puhesignaalin arvioimalla formantit, poistamalla niiden vaikutukset puhesignaalista ja arvioimalla jäljellä olevan buzzin voimakkuuden ja taajuuden. Formanttien poistamisprosessia kutsutaan käänteissuodatukseksi ja jäljellä olevaa signaalia suodatetun mallinnetun signaalin vähentämisen jälkeen kutsutaan jäännökseksi.

Numerot, jotka kuvaavat buzzin, formanttien ja jäännössignaalin voimakkuutta ja taajuutta, voidaan tallentaa tai välittää muualle. LPC syntetisoi puhesignaalin kääntämällä prosessin: luo lähdesignaalin buzz-parametrien ja jäännöksen avulla, luo suodattimen (joka edustaa putkea) käyttämällä formantteja ja aja lähde suodattimen läpi, mikä johtaa puheeseen.

Koska puhesignaalit vaihtelevat ajan mukaan, tämä prosessi suoritetaan puhesignaalin lyhyillä paloilla, joita kutsutaan kehyksiksi; yleensä 30-50 kuvaa sekunnissa antaa ymmärrettävän puheen, jolla on hyvä pakkaus.

Aikainen historia

Lineaarinen ennustus (signaalin estimointi) palaa ainakin 1940-luvulle, kun Norbert Wiener kehitti matemaattisen teorian parhaiden suodattimien ja ennusteiden laskemiseksi melussa piilotettujen signaalien havaitsemiseksi. Pian sen jälkeen, kun Claude Shannon perusti ennustavan koodauksen koodaustyön yleisen teorian, tekivät C. Chapin Cutler , Bernard M. Oliver ja Henry C. Harrison. Peter Elias julkaisi vuonna 1955 kaksi paperia signaalien ennakoivasta koodaamisesta.

Lineaarinen ennustajia levitettiin puheanalyysiä itsenäisesti Fumitada Itakura on Nagoya yliopiston ja Shuzo Saito ja Nippon Telegraph and Telephone 1966 ja 1967 Bishnu S. Atal , Manfred R. Schröder ja John Burg. Itakura ja Saito kuvasivat tilastollisen lähestymistavan, joka perustuu suurimman todennäköisyyden estimaattiin ; Atal ja Schroeder kuvasivat adaptiivisen lineaarisen ennustajan lähestymistavan; Burg esitteli lähestymistavan, joka perustuu maksimaalisen entropian periaatteeseen .

Vuonna 1969 Itakura ja Saito esittivät osittaiseen korrelaatioon (PARCOR) perustuvan menetelmän , Glen Culler ehdotti reaaliaikaista puhekoodausta, ja Bishnu S. Atal esitteli LPC-puhekooderin Amerikan akustisen yhdistyksen vuosikokouksessa . Vuonna 1971 Philco-Ford osoitti reaaliaikaisen 16-bittistä LPC-laitteistoa käyttävän LPC: n ; neljä yksikköä myytiin. LPC-tekniikkaa kehittivät Bishnu Atal ja Manfred Schroeder vuosina 1970–1980. Vuonna 1978 Atal ja Vishwanath et ai. BBN kehitti ensimmäisen muuttuvanopeuksisen LPC-algoritmin. Samana vuonna Atal ja Manfred R.Schroeder Bell Labsista ehdottivat LPC- puhekoodekkia nimeltä adaptive predictive coding , joka käytti psykoakustista koodausalgoritmia hyödyntämällä ihmiskorvan peittäviä ominaisuuksia. Tästä tuli myöhemmin perusta MP3- äänen pakkausmuodon käyttämälle havaintokoodaustekniikalle , joka otettiin käyttöön vuonna 1993. Schroeder ja Atal kehittivät Code-excited linear prediction (CELP) -koodin vuonna 1985.

LPC on perusta voice-over-IP (VoIP) -tekniikkaa. Vuonna 1972 Bob Kahn ja ARPA , Jim Forgie ( Lincoln Laboratory , VL) ja Dave Walden ( BBN Technologies ), aloitti ensimmäinen kehitystä paketoidaan puheessa, mikä johtaisi lopulta voice-over-IP-teknologiaan. Vuonna 1973 Lincoln Laboratoryn epävirallisen historian mukaan Ed Hofstetter toteutti ensimmäisen reaaliaikaisen 2400 bit / s LPC: n. Vuonna 1974 ensimmäinen reaaliaikainen kaksisuuntainen LPC-pakettipuheyhteys toteutettiin ARPANET- verkon kautta nopeudella 3500 bittiä / s Culler-Harrisonin ja Lincolnin laboratorion välillä. Vuonna 1976 ensimmäinen LPC-konferenssi pidettiin ARPANET- verkon kautta käyttämällä verkon ääniprotokollaa, Culler-Harrisonin, ISI: n, SRI: n ja LL: n välillä nopeudella 3500 bit / s.

LPC-kertoimien esitykset

LPC: tä käytetään usein spektrivaipan informaation lähettämiseen, ja sellaisenaan sen on oltava suvaitsevainen lähetysvirheiden suhteen. Suodatinkertoimien välittäminen suoraan (kerrointen määritelmän osalta katso lineaarinen ennuste ) ei ole toivottavaa, koska ne ovat hyvin herkkiä virheille. Toisin sanoen hyvin pieni virhe voi vääristää koko spektriä, tai mikä vielä pahempaa, pieni virhe saattaa tehdä ennustesuodattimen epävakaaksi.

On edistyneempiä esityksiä, kuten log-pintasuhteet (LAR), linjaspektriparien (LSP) hajoaminen ja heijastuskertoimet . Näistä varsinkin LSP-hajoaminen on saanut suosiota, koska se varmistaa ennustajan vakauden, ja spektrivirheet ovat paikallisia pienille kerroinpoikkeamille.

Sovellukset

LPC on yleisimmin käytetty menetelmä puhekoodauksessa ja puheen synteesissä . Sitä käytetään yleensä puheen analysointiin ja uudelleensynteesiin. Puhelinyritykset käyttävät sitä äänen pakkauksen muodossa, esimerkiksi GSM- standardissa. Sitä käytetään myös turvalliseen langattomaan verkkoon, jossa ääni on digitoitava , salattava ja lähetettävä kapean äänikanavan kautta; varhainen esimerkki tästä on Yhdysvaltain hallituksen Navajo minä .

LPC-synteesiä voidaan käyttää vokooderien rakentamiseen, joissa soittimia käytetään virityssignaalina laulajan puheesta arvioidulle ajan vaihtelevalle suodattimelle. Tämä on jonkin verran suosittua elektronisessa musiikissa . Paul Lansky teki tunnettu tietokone musiikkikappaleen notjustmoreidlechatter käyttämällä lineaarista ennustavaa koodausta. [1] Kymmenennen asteen LPC: tä käytettiin suositussa 1980-luvun Speak & Spell -opetuksessa.

LPC-ennakoijia käytetään Shorten- , MPEG-4 ALS- , FLAC- , SILK -äänikoodekeissa ja muissa häviöttömissä äänikoodekeissa.

LPC on saanut jonkin verran huomiota työkaluna käytettäväksi viulujen ja muiden kielisoittimien sävyanalyysissä.

Katso myös

Viitteet

Lisälukemista

Ulkoiset linkit