Kodekei buruzko teoria

10
Ahotsa kodetzea eta paketatzea. Ahotsa kodetzea eta paketatzea. Kapitulu honek ahotsa datu-sareen bidez garraiatzeko eman beharreko lehen urratsa aztertzen du. AHOTSA KODETZEA AHOTSA KODETZEA “Ahotsa erabiliz” egiten den gizakion arteko komunikazioa komunikazio analogikoa da zalantzarik gabe, baina ahotsa analogikoki transmititzea jada ez da eraginkorra, izan ere, lineako zaratak nahasten dira askotan. Hori dela eta, hobe da ahotsa digitalizatzea, errazagoa baita lagin digitalak -“zero” eta “bat” bitek osatutakoak- lineako zaratetatik bereiztea. 1. Digitalizazioa Ahots-seinale baten digitalizazioa, soinu-laginak denbora-bitarte erregularretan bereizi eta seinale-balio diskretu batzuetara hurbiltzean datza. 7.irudia. Analogikoa digital bihurtzea. Horretarako, honako hau da abiapuntua: Giza entzumenak 20-20.000 Hz bitarteko soinuak antzematen ditu, eta nahiz eta ahotsak antzeko maila lor dezakeen, pentsa dezagun harmonikoak kenduta eta “telefonoaren soinu tipikoa” kontuan hartuta, hitz egiterakoan 300-3.400 Hz-era iristen garela, gutxi gorabehera. Horren arabera, 3,1 kHz-eko banda-zabalera behar da, hain zuzen ere, telefonian erabiltzen dena. Kodeka bat ahots-seinalea dagokion berezko formatutik (analogikotik) formatu digitalera bihurtzen duen prozesua da (eta alderantziz), eta datu-sarea du euskarri. Página 1 de 10

Transcript of Kodekei buruzko teoria

Page 1: Kodekei buruzko teoria

Ahotsa kodetzea eta paketatzea.Ahotsa kodetzea eta paketatzea.

Kapitulu honek ahotsa datu-sareen bidez garraiatzeko eman beharreko lehen urratsa aztertzen du.

AHOTSA KODETZEAAHOTSA KODETZEA

“Ahotsa erabiliz” egiten den gizakion arteko komunikazioa komunikazio analogikoa da zalantzarik gabe, baina ahotsa analogikoki transmititzea jada ez da eraginkorra, izan ere, lineako zaratak nahasten dira askotan. Hori dela eta, hobe da ahotsa digitalizatzea, errazagoa baita lagin digitalak -“zero” eta “bat” bitek osatutakoak- lineako zaratetatik bereiztea.

1. DigitalizazioaAhots-seinale baten digitalizazioa, soinu-laginak denbora-bitarte erregularretan bereizi eta seinale-balio diskretu batzuetara hurbiltzean datza.

7.irudia. Analogikoa digital bihurtzea.

Horretarako, honako hau da abiapuntua:

Giza entzumenak 20-20.000 Hz bitarteko soinuak antzematen ditu, eta nahiz eta ahotsak antzeko maila lor dezakeen, pentsa dezagun harmonikoak kenduta eta “telefonoaren soinu tipikoa” kontuan hartuta, hitz egiterakoan 300-3.400 Hz-era iristen garela, gutxi gorabehera. Horren arabera, 3,1 kHz-eko banda-zabalera behar da, hain zuzen ere, telefonian erabiltzen dena.

Kodeka bat ahots-seinalea dagokion berezko formatutik (analogikotik) formatu digitalera bihurtzen duen prozesua da (eta alderantziz), eta datu-sarea du euskarri.

Adibide moduan PCMa ikusiko dugu. PCMa dugu telefonian erabili den lehenengo kodeketako bat.

Pultsu Kodetuen bidezko Modulazioa (PCMa) da metodorik erabiliena ahots analogikoa “bat” eta “zero” bit dituen fluxu digital batean kodetzeko.

Gehien erabiltzen den PCM teknikak Nyquist baldintzari jarraitzen dio, eta honakoa dio:

“SEINALE ANALOGIKO BAT DIGITALIZATU NAHI BADUGU, LAGINTZE-MAIZTASUNAK, GUTXIENEZ, ATZEMAN NAHI DUGUN SEINALE-MAIZTASUN HANDIENAREN BIKOITZA IZAN BEHAR DU.”

Página 1 de 6

Page 2: Kodekei buruzko teoria

ADIBIDEA:

Soinu-iturria Banda-zabalera Lagintze-maiztasuna

Telefono-kanala 3,1 kHz 8 kHz

Hi-Fi musika 20 kHz 44,1 kHz

Tabl 1. Banda-zabaleren eta lagintze-maiztasunen adibideak.

Seinalearen anplitudea edo intentsitatea: telefonian 8 bit erabiltzen dira seinale-balio diskretu horietarako, hortaz, 28=256 dira lor daitezkeen anplitude-balioak.

Hona hemen PCM prozesua:

1.Uhin-formak ahots-maiztasunen iragazki batetik pasa behar dira, 4.000 Hz-etik gorako edozein maiztasun iragazteko.

2.Iragazi den seinale analogikoaren laginketa egiten da ondoren, segundoko 8.000 lagin bereiziz (Nyquist baldintzaren arabera), eta horrela lortzen da kalitatezko ahots-transmisioa.

3.Uhin-formaren laginketa egin eta gero, uhin-forma forma digital diskretu bihurtzen da. Lagin horrek kode bat du eta kode horrek erakusten du lagina hartu den uneko uhin-formaren anplitudea. PCM telefoniako formak 8 bit erabiltzen ditu koderako, eta seinale baxuagoekin bit gehiago erabiltzen dituen konpresio logaritmikoko metodo bati jarraitzen dio.

8 biteko hitzak segundoko 8.000 laginekin biderkatzean, 64.000 bps (bit segundoko) lortzen ditugu, hain zuzen ere, telefonoaren azpiegiturak beharrezkoa duen oinarria (64 kbps).

2. Ahotsaren konpresioa64 kbps-ko PCMaren bi aldaera daude: µ legea, alde batetik, AEBetan erabiltzen den estandarra, eta a legea, bestetik, Europan erabiltzen den estandarra. Bi metodoek darabilte konpresio logaritmikoa 8 bit bakarrik dituzten hitzetan 12-13 bit bitarteko PCM linealeko kalitatea lortzeko baina, konpresioa egiteko, badira desberdintasun txiki batzuk.

µ legearen metodoak abantaila txiki bat du a legearen metodoarekiko, maila baxuko seinalea/zarata erlazioaren errendimenduari dagokionez.

Hasiera batean, estandarra definitu zenean, ez ziren existitzen DSPan (Digital Signal Processing delakoan) oinarritutako ahots-konpresiorako teknikak.

Oraingo algoritmoei esker, ahots-transmisioa banda-zabalera txikiagoen bidez egin daiteke. Hala ere, banda-zabalera murriztean, ahotsaren gardentasuna gutxitzen da, transmisio-atzerapena gertatzen da eta ahotsaren kalitatea paketeen galerekiko oso sentikor bihurtzen da.

Konpresioa egiteko beste metodo bat pultsu kodetuen bidezko modulazio diferentziala eta moldagarria da (ADPCM, Adaptive Differential Pulse Code Modulation). Metodo horrek kodetzea egiteko 4 biteko lagin bat erabiltzen du eta, horrela, 32 kbps-ko transmisio-abiadura lortzen du. Lau bit horiek ez dute ahots-anplitudea zuzenean kodetzen, baizik eta anplitudearen desberdintasunak kodetzen dituzte, bai eta anplitudea aldatzeko abiadura ere, eta, horretarako, aurresate lineal bakun bat erabiltzen dute.

Aipatutako teknika horiek guztiak jatorrizko kodeka gisa sailka daitezke, eta aldaera desberdinak dituzte, hala nola aurresate linealaren bidezko kodetzea (LPC, Linear Predicive Coding), kode bidez eszitaturiko aurresate lineala (CELP, Code Excited Linear Prediction Compression) eta MP-MLQ (Multipulse, Multilevel Quantization).

Página 2 de 6

Page 3: Kodekei buruzko teoria

» Kodekak

Honako hauek dira gehien erabiltzen diren kodekak:

ITU-T erakundeak normalizatu ditu CELP, MIP-MLQ PCM eta ADPCM kodetze-eskemak, G seriearen inguruan emandako gomendioetan. Telefoniarako eta VoIP teknologiarako kodetze-estandar ezagunenen artean honako hauek bereiz daitezke:

G.711. Jada ikusi dugun 64 kbps-ko PCMaren ahots-kodetzea egiteko teknika; G.711 bidez kodetutako ahots-formatua egokia da ahots digitala emateko, telefono-sare publikoan edo adarren trukatze pribatuaren bidez (PBX).

G.726. ADPCMaren kodetzea da 40, 32, 24 eta 16 kbps-ra; era berean, ADPCM ahotsa, paketeen bidezko ahotsarekin eta telefonia publikoarekin edo PBX sareekin trukatu daiteke, betiere sare horiek ADPCM ahalmena badute.

G.728. CELP ahots-konpresio baten 16 kbps-ko atzerapen baxuko aldakuntza bat da.

G.729. Ahotsa 8 kbps-ko fluxuetan kodetzen duen CELP konpresioa da. Estandar honen bi aldakuntza (G.729 eta G.729, A eranskina) arras desberdinak dira konputatzeko konplexutasunari dagokionez, baina biek ematen dute, normalean, 32 kbps-ko ADPCMak adinako ahots-kalitate bikaina.

G.723.1. Ahotsaren edo multimedia zerbitzuen audio-serialeko osagaiak bit-abiadura baxuan konprimitzeko teknika bat da eta H.324 estandarren familiako zati bat da. Kodetzaile honek bi bit-abiadura ditu: 5,3 eta 6,3 kbps. Bit-abiadura altuena MP-MLQ teknologian oinarritzen da eta kalitate handiagoa ematen du. Bit-abiadura baxuena CELP teknologian oinarritzen da eta kalitate ona emateaz gain, sistemaren diseinatzaileei malgutasun handiagoa ematen die.

Kodeka Tasa bitarraPaketearen

tamainaPaketatzearen

atzerapenaBanda-zabalera 2 fluxuetarako

Jiterra ezabatzearen atzerapena

G.711 µ 64 kbps 20 ms 1 ms 174,40 kbps 40 ms (2p)

G.711 a 64 kbps 20 ms 1 ms 174,40 kbps 40 ms (2p)

G.726 32 kbps 20 ms 1 ms 110,40 kbps 40 ms (2p)

G.729 8 kbps 20 ms 25 ms 62,40 kbps 40 ms (2p)

G.723.1MPMLQ 6,3 kbps 30 ms 67,5 ms 43,73 kbps 60 ms (2p)

G.723.1ACELP 5,3 kbps 30 ms 67,5 ms 41,60 kbps 60 ms (2p)

2. Tabla Kodekaren ezaugarriak.

Kodeka-kantitatea izugarria da, eta faktore desberdinen arabera sailka daitezke, besteak beste:

Página 3 de 6

Page 4: Kodekei buruzko teoria

Fideltasunaren arabera, honako hauek bereiz daitezke:

Lossless, hau da, galerarik gabeak. Gehiago erabiltzen dira datuetarako eta ez hainbeste ahotserako eta bideorako.

Lossy, galerak onartzen dituztenak, azkarrago jarduteko edo ahalik eta atzerapen gutxien izateko. Ezinezkoa da datuen kasuan erabiltzea baina bai ahotsaren kasuan.

Konpresioa/deskonpresioa egiteko beharrezkoa den abiadura erlatiboaren arabera, honako hauek bereiz daitezke:

Simetrikoak, konprimitzeko zein deskonprimitzeko CPU potentzia berdina behar dutenak dira.

Asimetrikoak, konprimitzeko deskonprimitzeko baino potentzia handiagoa behar dutenak dira.

Multimedian kodeka asimetrikoak erabiltzen dira, baina VoIPan konpresio-denborak ahalik eta gehien murriztea komeni da eta, horregatik, kodeka asimetrikoak erabili nahi badira, DSP (Digital Signal Processor) txip bereziak aukeratu behar dira.

Atzerapenaren parametroak kontuan hartuta, bestalde, ondorengo sailkapena egin daiteke:

Orokorrak mota orotako soinuetarako balio dute, MPEG bezalako soinu psikoakustikoetarako edo PCM moldagarri diferentzialerako (ADPCM).

Ahotserako berariazkoak. ez dute balio musikarako, maiztasunen araberako ebakinak dituztelako

CELP. Code Excited Linear Prediction

CS-ACELP (Conjugate-Structure Algebraic Code Excited Linear Prediction

LPC

GSM

Normalean, zenbat eta konpresio handiagoa orduan eta baxuagoa da kalitatea eta altuagoa da CPUaren kontsumoa.

Halaber, emari finkoa erabiltzen duten kodekak eta emari finkorik erabiltzen ez dutenak bereiz daitezke:

Emari aldakorreko sistemak (MPEG, G.723.1). Emari finkoko erreserbarik ez duten sareetara hobekien egokitzen direnak dira, adibidez, Interneteko DiffServ modeloa. Ez dira VoIPan gehien erabiltzen direnak.

Emari finkoko sistemak. Egokiagoak dira VoIParekin erabiltzeko, (G.711, G.722, G.729); konexiora orientatutako zerbitzuetarako dira. QoS eskemekin erlazionatuta daude, RSVP eskemarekin, adibidez. IP sareetan baliabideen erreserba egiteko erabiltzen den protokolo bat da RSVP (adibidez, bideragailuetan baliabideak erreserbatu eta aldi bereko 20 elkarrizketa edukitzeko).

MPEG konpresioa da eraginkorrena eta kalitate handienekoa, baina CPUa asko kontsumitzeaz gain, atzerapen handia dakar, hortaz, ezinezkoa da aplikazio elkarreragileetan erabiltzea (bideokonferentzian edo telefonian).

Página 4 de 6

Page 5: Kodekei buruzko teoria

AHOTSA PAKETATZEAAHOTSA PAKETATZEA

Ahotsa digitalizatzean, kodetzean, konprimitzean, eta abar, paketetan kapsulatzen da eta RTP (Real Time Protocol) protokoloaren gainean bidaltzen da. Protokolo hori, H.323 bezala, ez zen VoIP sistemarako definitu, eta denborarekiko sentikorra den informazioa (ahotsa, bideoa, simulazioak, eta abar) denbora errealeko informazio bezala bidaltzeko diseinatu zen. Aplikazioen mailan ezartzeko protokoloa da eta UDPan (garraio-mailan) oinarritzen da.

Ahotsa digitalizatu eta gero, RTP burua txertatzen zaio eta, ondoren, UDP segmentuen laguntzarekin, IP paketeetan integratzen da.

8. irudia. Ahotsa paketatzea

IP paketea ez da aldatzen bidaia osoan (TTL -bizi-denbora- eta antzeko eremuak izan ezik) eta, horri esker, lotune-geruzako protokolo desberdinetan kapsula daiteke: ATM, Frame Relay, Token Ring edo Etherneteko 802.3 protokoloetan, eta aldaketarik gabe bidaiatzen du dagokion traman.

9. irudia . VoIP pakete bat kapsulatzeko modu desberdinak

IP paketeak aldaezinak dira eta hori da, hain zuzen ere, IP gaineko ahotsaren bilakaerak duen funtsezko ezaugarrietako bat, izan ere, soluzio gehiago egon arren -hala nola, Frame Relay gaineko ahotsa edo ATM gaineko ahotsa- eta guztiek balio duten arren, ez dira hain malguak, lotune-geruzaren teknologia mugatzen edo zehazten baitute.

Página 5 de 6

Page 6: Kodekei buruzko teoria

AHOTSAREN KALITATEA. MOSa ETA PSQMaAHOTSAREN KALITATEA. MOSa ETA PSQMa

Ahotsaren kalitatea baloratzerakoan, balorazio subjektiboa edo balorazio objektiboa egin dezakegu. Gizabanakook ahotsa-kalitateari buruzko proba subjektiboak egiten ditugu; ordenagailuek, berriz, objektiboak.

Kalitate objektiboaren neurri estandarrak -hala nola, erabateko distortsio harmonikoa eta seinalea/zarata erlazioak- ez datoz bat giza ahotsaren kalitate-pertzepzioarekin, eta bien arteko bat-etortzea da, azken finean, ahotsaren konpresio-teknika gehienen azken helburua.

Batez besteko iritziaren puntuazioa (MOS, Mean Opinion Score) ahots-kodekaren errendimendua kuantifikatzeko erabiltzen den erreferentzia subjektiboa da.

MOS proba egiteko entzule-talde bat aukeratu behar da. Oro har, ahotsaren eta soinuaren kalitateari buruz entzuleak duen ikuspegia subjektiboa denez, MOS proba egiten denean oso garrantzitsua da entzule-multzo zabala eta probarako material ugari aukeratzea. Entzuleek ahots-materialaren lagin bakoitza puntuatu behar dute, 1etik (txarra) 5era (bikaina) bitartean. Ondoren, batez bestekoa kalkulatzen da, entzuleen iritziaren batez besteko puntuazioa lortzeko.

Konpresio-metodoa Bit-abiadura (kbps)

Laginaren tamaina (ms)

MOS puntuazioa

G.711 PCM 64 0,125 4,1

G.726 ADPCM 32 0,125 3,85

G.728 Aurresate lineala, atzerapen baxuko kodearen eszitazioarekin (LD-CELP)

15 0,625 3,61

G.729 Aurresate lineala, egitura konjogatuko kode algebraikoaren eszitazioarekin (CS-ACELP)

8 10 3,92

G.729a CS-ACELP 8 10 3,7

G.723.1 MP-MLQ 6,3 30 3,9

G.723.1 ACELP 5,3 30 3,65

3. Tabla. ITU-T kodekaren MOS puntuazioa.

ITU-T erakundeak P.861 gomendioa aurkeztu du. Gomendio horretan ahotsaren kalitatea objektiboki erabakitzeko moduak daude. Zentzu horretan, PSQM (Perceptual Speech Quality Measurement) neurketari jarraitzen zaio, eta pertzepzioaren arabera neurtzen da ahotsaren kalitatea.

Haatik, PSQMak arazo ugari sortzen ditu ahots-kodekekin erabiltzen denean, izan ere, makinak entzuten duena ez da izaten giza entzumenak entzuten edo antzematen duena.

Ahotsaren konpresioaren eta deskonpresioaren ondorioz gertatzen ziren narriadurak “entzuteko” garatu zen PSQMa, eta ez, pakete-galeren ondorioz edo fase-fluktuazioen ondorioz izaten ziren narriadurak entzuteko.

Página 6 de 6