什么是音頻

更新時間：2016-03-18本文內(nèi)容轉(zhuǎn)載自互聯(lián)網(wǎng)

音頻定義1.Audio，指人說話的聲音頻率，通常指300Hz-3400Hz的頻帶。2.指存儲聲音內(nèi)容的文件。3.在某些方面能指作為波濾的振動。音頻這個專業(yè)術(shù)語，人類能夠聽到的所有聲音都稱之為音頻，它可能包括噪音、聲音被錄制下來以后，無論是說話聲、歌聲、樂器都可以通過數(shù)字音樂軟件處理。把它制作成CD，這時候所有的聲音沒有改變，因為CD本來就是音頻文件的一種類型。而音頻只是儲存在計算機里的聲音。演講和音樂，如果有計算機加上相應(yīng)的音頻卡 -- 就是我們經(jīng)常說的聲卡，我們可以把所有的聲音錄制下來，聲音的聲學(xué)特性，音的高低都可以用計算機硬盤文件的方式儲存下來。反過來，我們也可以把儲存下來的音頻文件通過一定的音頻程序播放，還原以前錄下的聲音。解讀音頻屬性大家都承認現(xiàn)在是一個數(shù)碼時代，為了追求優(yōu)良的音質(zhì)很多人不懈地努力。隨著數(shù)碼時代的來臨，誰都承認數(shù)碼音頻比模擬信號優(yōu)越。什么是模擬信號？其實任何我們可以聽見的聲音經(jīng)過音頻線或話筒的傳輸都是一系列的模擬信號。模擬信號是我們可以聽見的。而數(shù)字信號就是用一堆數(shù)字記號來記錄聲音，而不是用物理手段來保存信號。用普通磁帶錄音就是一種物理方式數(shù)字信號我們實際上是聽不到的。這樣我們可以簡略地比較一下模擬時代的錄音制作與數(shù)碼時代的區(qū)別:模擬時代是把原始信號以物理方式錄制到磁帶上當然在錄音棚里完成了，然后加工，剪接，修改，最后錄制到磁帶，LP等廣大聽眾可以欣賞的載體上。這一系列過程全是模擬的，每一步都要損失一些信號，到了聽眾手里自然是差了好遠，更不用說什么HI-FI了。數(shù)碼時代是第一步就把原始信號錄成數(shù)碼音頻資料，然后用硬件或軟件進行加工處理，這個過程相比模擬方法有無比的優(yōu)越性，因為它幾乎不會有任何損耗。對于機器來說只是處理一下數(shù)字而已，當然丟碼的可能性也有，但只要操作合理就不會發(fā)生。最后把這堆數(shù)字信號傳輸給數(shù)字記錄設(shè)備如CD等，損耗自然小很多了！如果我們注意一下身邊的CD片就會看到很多CD都有如:ADD，AAD，DDD等標記。三個字母各代表該片在錄音，編輯，成品三個過程中所使用的方法是模擬Analog的還是數(shù)字Digital的。當然A代表模擬，D代表數(shù)字。AAD就說明其錄音和編輯是用模擬方式的，而最后灌片是用數(shù)字方式的，這類唱片多是將過去錄制的音樂轉(zhuǎn)成CD片而不做任何修改。ADD則是有一個修改過程，許多古典音樂大師的演奏或指揮多錄制于模擬時代，我們現(xiàn)在聽到的CD是經(jīng)過修改后罐錄的，很多這類唱片都有標記ADD。而DDD的唱片必然是較現(xiàn)代的錄音品。自然，CD片必然以D結(jié)尾，而磁帶可以姑且認為是AAA，雖然好象并沒有這種說法。所以說，數(shù)碼音頻是我們保存聲音信號，傳輸聲音信號的一種方式，它的特點是信號不容易損失。而模擬信號是我們最后可以聽到的東西。不過模擬信號的修改簡直是一場災(zāi)難，損失太大了。有此僻好的格倫?古爾德若活到現(xiàn)在也會瞠目結(jié)舌的。而數(shù)碼音頻復(fù)制100遍也不會有損耗，不信大家COPY一個WAVE文件試試？數(shù)碼錄音最關(guān)鍵一步就是要把模擬信號轉(zhuǎn)換為數(shù)碼信號。就電腦而言是把模擬聲音信號錄制成為Wave文件，這個工作Windows自帶的錄音機也可以做到，但是它的功能十分有限，不能滿足我們的需求，所以我們用其他專業(yè)音頻軟件代替，如Sound Forge等。錄制出來的文件就是Wave文件，描述Wave文件主要有兩個指標，一個是采樣精度，另一個是比特率。這是數(shù)字音頻制作中十分重要的兩個概念，下面就來看一下吧。什么是采樣精度？因為Wave是數(shù)碼信號，它是用一堆數(shù)字來描述原來的模擬信號，所以它要對原來的模擬信號進行分析，我們知道所有的聲音都有其波形，數(shù)碼信號就是在原有的模擬信號波形上每隔一段時間進行一次“取點”，賦予每一個點以一個數(shù)值，這就是“采樣”，然后把所有的“點”連起來就可以描述模擬信號了，很明顯，在一定時間內(nèi)取的點越多，描述出來的波形就越精確，這個尺度我們就稱為“采樣精度”。我們最常用的采樣精度是44.1kHz/s。它的意思是每秒取樣44100次，之所以使用這個數(shù)值是因為經(jīng)過了反復(fù)實驗，人們發(fā)現(xiàn)這個采樣精度最合適，低于這個值就會有較明顯的損失，而高于這個值人的耳朵已經(jīng)很難分辨，而且增大了數(shù)字音頻所占用的空間。一般為了達到“萬分精確”，我們還會使用48k甚至96k的采樣精度，實際上，96k采樣精度和44.1k采樣精度的區(qū)別絕對不會象44.1k和22k那樣區(qū)別如此之大，我們所使用的CD的采樣標準就是44.1k，目前44.1k還是一個最通行的標準，有些人認為96k將是未來錄音界的趨勢。采樣精度提高應(yīng)該是一件好事，可有時我也想，我們真的能聽出96k采樣精度制作的音樂與44.1k采樣精度制作的音樂的區(qū)別嗎？普通老百姓家里的音響能放出他們的區(qū)別嗎？比特率是大家常聽說的一個名詞，數(shù)碼錄音一般使用16比特，20比特，24比特制作音樂，什么是“比特”？我們知道聲音有輕有響，影響輕響的物理要素是振幅，作為數(shù)碼錄音，必須也要能精確表示樂曲的輕響，所以一定要對波形的振幅有一個精確的描述，“比特”就是這樣一個單位，16比特就是指把波形的振幅劃為216即65536個等級，根據(jù)模擬信號的輕響把它劃分到某個等級中去，就可以用數(shù)字來表示了。和采樣精度一樣，比特率越高，越能細致地反映樂曲的輕響變化。20比特就可以產(chǎn)生1048576個等級，表現(xiàn)交響樂這類動態(tài)十分大的音樂已經(jīng)沒有什么問題了。剛才提到了一個名詞“動態(tài)”，它其實指的是一首樂曲最響和最輕的對比能達到多少，我們也常說“動態(tài)范圍”，單位是dB，而動態(tài)范圍和我們錄音時采用的比特率是緊密結(jié)合在一起的，如果我們使用了一個很低的比特率，那么我們就只有很少的等級可以用來描述音響的強弱，我們當然就不能聽到大幅度的強弱對比了。動態(tài)范圍和比特率的關(guān)系是；比特率每增加1比特，動態(tài)范圍就增加6dB。所以假如我們使用1比特錄音，那么我們的動態(tài)范圍就只有6dB，這樣的音樂是不可能聽的。16比特時，動態(tài)范圍是96dB。這可以滿足一般的需求了。20比特時，動態(tài)范圍是120dB，對比再強烈的交響樂都可以應(yīng)付自如了，表現(xiàn)音樂的強弱是綽綽有余了。發(fā)燒級的錄音師還使用24比特，但是和采樣精度一樣，它不會比20比特有很明顯的變化，理論上24比特可以做到144 dB的動態(tài)范圍，但實際上是很難達到的，因為任何設(shè)備都不可避免會產(chǎn)生噪音，至少在現(xiàn)階段24比特很難達到其預(yù)期效果。音頻格式以下是常見音頻文件格式的特點。要在計算機內(nèi)播放或是處理音頻文件，也就是要對聲音文件進行數(shù)、模轉(zhuǎn)換，這個過程同樣由采樣和量化構(gòu)成，人耳所能聽到的聲音，最低的頻率是從20Hz起一直到最高頻率20KHZ，20KHz以上人耳是聽不到的，因此音頻的最大帶寬是20KHZ，故而采樣速率需要介于40~50KHZ之間，而且對每個樣本需要更多的量化比特數(shù)。音頻數(shù)字化的標準是每個樣本16位-96dB的信噪比，采用線性脈沖編碼調(diào)制PCM，每一量化步長都具有相等的長度。在音頻文件的制作中，正是采用這一標準。CD格式:天簌當今世界上音質(zhì)最好的音頻格式是什么？當然是CD了。因此要講音頻格式，CD自然是打頭陣的先鋒。在大多數(shù)播放軟件的“打開文件類型”中，都可以看到＊.cda格式，這就是CD音軌了。標準CD格式也就是44.1K的采樣頻率，速率88K/秒，16位量化位數(shù)，因為CD音軌可以說是近似無損的，因此它的聲音基本上是忠于原聲的，因此如果你如果是一個音響發(fā)燒友的話，CD是你的首選。它會讓你感受到天籟之音。CD光盤可以在CD唱機中播放，也能用電腦里的各種播放軟件來重放。一個CD音頻文件是一個＊.cda文件，這只是一個索引信息，并不是真正的包含聲音信息，所以不論CD音樂的長短，在電腦上看到的“＊.cda文件”都是44字節(jié)長。注意:不能直接的復(fù)制CD格式的＊.cda文件到硬盤上播放，需要使用象EAC這樣的抓音軌軟件把CD格式的文件轉(zhuǎn)換成WAV，這個轉(zhuǎn)換過程如果光盤驅(qū)動器質(zhì)量過關(guān)而且EAC的參數(shù)設(shè)置得當?shù)脑?，可以說是基本上無損抓音頻。推薦大家使用這種方法。WAV:無損是微軟公司開發(fā)的一種聲音文件格式，它符合 PIFFResource Interchange File Format 文件規(guī)范，用于保存WINDOWS平臺的音頻信息資源，被WINDOWS平臺及其應(yīng)用程序所支持。“*.WAV”格式支持MSADPCM、CCITT A LAW等多種壓縮算法，支持多種音頻位數(shù)、采樣頻率和聲道，標準格式的WAV文件和CD格式一樣，也是44.1K的采樣頻率，速率88K/秒，16位量化位數(shù)，看到了吧，WAV格式的聲音文件質(zhì)量和CD相差無幾，也是目前PC機上廣為流行的聲音文件格式，幾乎所有的音頻編輯軟件都“認識”WAV格式。這里順便提一下由蘋果公司開發(fā)的AIFFAudio Interchange File Format格式和為UNIX系統(tǒng)開發(fā)的AU格式，它們都和和WAV非常相像，在大多數(shù)的音頻編輯軟件中也都支持它們這幾種常見的音樂格式。MP3:流行MP3格式誕生于八十年代的德國，所謂的MP3也就是指的是MPEG標準中的音頻部分，也就是MPEG音頻層。根據(jù)壓縮質(zhì)量和編碼處理的不同分為3層，分別對應(yīng)“*.mp1"/“*.mp2”/“*.mp3”這3種聲音文件。需要提醒大家注意的地方是:MPEG音頻文件的壓縮是一種有損壓縮，MPEG3音頻編碼具有10:1~12:1的高壓縮率，同時基本保持低音頻部分不失真，但是犧牲了聲音文件中12KHz到16KHz高音頻這部分的質(zhì)量來換取文件的尺寸，相同長度的音樂文件，用＊.mp3格式來儲存，一般只有＊.wav文件的1/10，而音質(zhì)要次于CD格式或WAV格式的聲音文件。由于其文件尺寸小，音質(zhì)好；所以在它問世之初還沒有什么別的音頻格式可以與之匹敵，因而為＊.mp3格式的發(fā)展提供了良好的條件。直到現(xiàn)在，這種格式還是風(fēng)靡一時，作為主流音頻格式的地位難以被撼動。但是樹大招風(fēng)，MP3音樂的版權(quán)問題也一直是找不到辦法解決，因為MP3沒有版權(quán)保護技術(shù)，說白了也就是誰都可以用。MP3格式壓縮音樂的采樣頻率有很多種，可以用64Kbps或更低的采樣頻率節(jié)省空間，也可以用320Kbps的標準達到極高的音質(zhì)。我們用裝有Fraunhofer IIS Mpeg Lyaer3的 MP3編碼器現(xiàn)在效果最好的編碼器MusicMatch Jukebox 6.0在128Kbps的頻率下編碼一首3分鐘的歌曲，得到2.82MB的MP3文件。采用缺省的CBR固定采樣頻率技術(shù)可以以固定的頻率采樣一首歌曲，而VBR可變采樣頻率則可以在音樂“忙”的時候加大采樣的頻率獲取更高的音質(zhì)，不過產(chǎn)生的MP3文件可能在某些播放器上無法播放。我們把VBR的級別設(shè)定成為與前面的CBR文件的音質(zhì)基本一樣，生成的VBR MP3文件為2.9MB。MIDI:作曲家最愛經(jīng)常玩音樂的人應(yīng)該常聽到MIDIMusical Instrument Digital Interface這個詞，MIDI允許數(shù)字合成器和其他設(shè)備交換數(shù)據(jù)。MID文件格式由MIDI繼承而來。MID文件并不是一段錄制好的聲音，而是記錄聲音的信息，然后在告訴聲卡如何再現(xiàn)音樂的一組指令。這樣一個MIDI文件每存1分鐘的音樂只用大約5～10KB。今天，MID文件主要用于原始樂器作品，流行歌曲的業(yè)余表演，游戲音軌以及電子賀卡等。＊.mid文件重放的效果完全依賴聲卡的檔次。＊.mid格式的最大用處是在電腦作曲領(lǐng)域。＊.mid文件可以用作曲軟件寫出，也可以通過聲卡的MIDI口把外接音序器演奏的樂曲輸入電腦里，制成＊.mid文件。WMA:最具實力WMA Windows Media Audio 格式是來自于微軟的重量級選手，后臺強硬，音質(zhì)要強于MP3格式，更遠勝于RA格式，它和日本YAMAHA公司開發(fā)的VQF格式一樣，是以減少數(shù)據(jù)流量但保持音質(zhì)的方法來達到比MP3壓縮率更高的目的，WMA的壓縮率一般都可以達到1:18左右，WMA的另一個優(yōu)點是內(nèi)容提供商可以通過DRMDigital Rights Management方案如Windows Media Rights Manager 7加入防拷貝保護。這種內(nèi)置了版權(quán)保護技術(shù)可以限制播放時間和播放次數(shù)甚至于播放的機器等等，這對被盜版攪得焦頭亂額的音樂公司來說可是一個福音，另外WMA還支持音頻流Stream技術(shù)，適合在網(wǎng)絡(luò)上在線播放，作為微軟搶占網(wǎng)絡(luò)音樂的開路先鋒可以說是技術(shù)領(lǐng)先、風(fēng)頭強勁，更方便的是不用象MP3那樣需要安裝額外的播放器，而Windows操作系統(tǒng)和Windows Media Player的無縫捆綁讓你只要安裝了windows操作系統(tǒng)就可以直接播放WMA音樂，新版本的Windows Media Player7.0更是增加了直接把CD光盤轉(zhuǎn)換為WMA聲音格式的功能，在新出品的操作系統(tǒng)Windows XP中，WMA是默認的編碼格式，大家知道Netscape的遭遇，現(xiàn)在“狼”又來了。WMA這種格式在錄制時可以對音質(zhì)進行調(diào)節(jié)。同一格式，音質(zhì)好的可與CD媲美，壓縮率較高的可用于網(wǎng)絡(luò)廣播。雖然現(xiàn)在網(wǎng)絡(luò)上還不是很流行，但是在微軟的大規(guī)模推廣下已經(jīng)是得到了越來越多站點的承認和大力支持，在網(wǎng)絡(luò)音樂領(lǐng)域中直逼＊.mp3，在網(wǎng)絡(luò)廣播方面，也正在瓜分Real打下的天下。因此，幾乎所有的音頻格式都感受到了WMA格式的壓力。RealAudio:流動旋律RealAudio主要適用于在網(wǎng)絡(luò)上的在線音樂欣賞，現(xiàn)在大多數(shù)的用戶仍然在使用56Kbps或更低速率的Modem，所以典型的回放并非最好的音質(zhì)。有的下載站點會提示你根據(jù)你的Modem速率選擇最佳的Real文件?，F(xiàn)在real的的文件格式主要有這么幾種:有RARealAudio、RMRealMedia，RealAudio G2、RMXRealAudio Secured，還有更多。這些格式的特點是可以隨網(wǎng)絡(luò)帶寬的不同而改變聲音的質(zhì)量，在保證大多數(shù)人聽到流暢聲音的前提下，令帶寬較富裕的聽眾獲得較好的音質(zhì)。近來隨著網(wǎng)絡(luò)帶寬的普遍改善，Real公司正推出用于網(wǎng)絡(luò)廣播的、達到CD音質(zhì)的格式。如果你的RealPlayer軟件不能處理這種格式，它就會提醒你下載一個免費的升級包。許多音樂網(wǎng)站如http://www.emusic.com提供了歌曲的Real格式的試聽版本?，F(xiàn)在最新的版本是RealPlayer 9.0。VQF:無人問津雅馬哈公司另一種格式是＊.vqf，它的核心是減少數(shù)據(jù)流量但保持音質(zhì)的方法來達到更高的壓縮比，可以說技術(shù)上也是很先進的，但是由于宣傳不力，這種格式難有用武之地。＊.vqf可以用雅馬哈的播放器播放。同時雅馬哈也提供從＊.wav文件轉(zhuǎn)換到＊.vqf文件的軟件。此文件缺少特點外加缺乏宣傳，現(xiàn)在幾乎已經(jīng)宣布死刑了。OGG:新生代音頻格式ogg格式完全開源，完全免費，和mp3不相上下的新格式。前途無量時下的MP3支持格式最常見的是MP3和WMA。MP3由于是有損壓縮，因此講求采樣率，一般是44.1KHZ。另外，還有比特率，即數(shù)據(jù)流，一般為8---320KBPS。在MP3編碼時，還看看它是否支持可變比特率VBR，現(xiàn)在出的MP3機大部分都支持，這樣可以減小有效文件的體積。WMA則是微軟力推的一種音頻格式，相對來說要比MP3體積更小。音頻處理一、音頻媒體的數(shù)字化處理隨著計算機技術(shù)的發(fā)展，特別是海量存儲設(shè)備和大容量內(nèi)存在PC機上的實現(xiàn)，對音頻媒體進行數(shù)字化處理便成為可能。數(shù)字化處理的核心是對音頻信息的采樣，通過對采集到的樣本進行加工，達成各種效果，這是音頻媒體數(shù)字化處理的基本含義。二、音頻媒體的基本處理基本的音頻數(shù)字化處理包括以下幾種:不同采樣率、頻率、通道數(shù)之間的變換和轉(zhuǎn)換。其中變換只是簡單地將其視為另一種格式，而轉(zhuǎn)換通過重采樣來進行，其中還可以根據(jù)需要采用插值算法以補償失真。針對音頻數(shù)據(jù)本身進行的各種變換，如淡入、淡出、音量調(diào)節(jié)等。通過數(shù)字濾波算法進行的變換，如高通、低通濾波器。三、音頻媒體的三維化處理長期以來，計算機的研究者們一直低估了聲音對人類在信息處理中的作用。當虛擬技術(shù)不斷發(fā)展之時，人們就不再滿足單調(diào)平面的聲音，而更催向于具有空間感的三維聲音效果。聽覺通道可以與視覺通道同時工作，所以聲音的三維化處理不僅可以表達出聲音的空間信息，而且與視覺信息的多通道的結(jié)合可以創(chuàng)造出極為逼真的虛擬空間，這在未來的多媒體系統(tǒng)中是極為重要的。這也是在媒體處理方面的重要措施。人類感知聲源的位置的最基本的理論是雙工理論，這種理論基于兩種因素:兩耳間聲音的到達時間差和兩耳間聲音的強度差。時間差是由于距離的原因造成，當聲音從正面?zhèn)鱽恚嚯x相等，所以沒有時間差，但若偏右三度則到達右耳的時間就要比左耳約少三十微秒，而正是這三十微秒，使得我們辨別出了聲源的位置。強度差是由于信號的衰減造成，信號的衰減是因為距離而自然產(chǎn)生的，或是因為人的頭部遮擋，使聲音衰減，產(chǎn)生了強度的差別，使得靠近聲源一側(cè)的耳朵聽到的聲音強度要大于另一耳?；陔p工理論，同樣地，只要把一個普通的雙聲道音頻在兩個聲道之間進行相互混合，便可以使普通雙聲道聲音聽起來具有三維音場的效果。這涉及到以下有關(guān)音場的兩個概念:音場的寬度和深度。音場的寬度利用時間差的原理完成，由于現(xiàn)在是對普通立體聲音頻進行擴展，所以音源的位置始終在音場的中間不變，這樣就簡化了我們的工作。要處理的就只有把兩個聲道的聲音進行適當?shù)难訒r和強度減弱后相互混合。由于這樣的擴展是有局限性的，即延時不能太長，否則就會變?yōu)榛匾?。音場的深度利用強度差的原理完成，具體的表現(xiàn)形式是回聲．音場越深，則回音的延時就越長．所以在回音的設(shè)置中應(yīng)至少提供三個參數(shù):回音的衰減率、回音的深度和回音之間的延時。同時，還應(yīng)該提供用于設(shè)置另一通道混進來的聲音深度的多少的選項。

什么是音頻

熱門搜索