複製鏈接
請複製以下鏈接發送給好友

音頻流

鎖定
音頻流:控制“數據流”同步類型音頻的輸出質量。
中文名
音頻流
簡    介
控制數據流同步類型音頻輸出質量
本    質
不透明二進制流
用    途
音頻內容理解

音頻流研究背景

簡介
一直以來,音頻數據本身僅僅是一連串非語義符號表示的不透明二進制流,缺乏對聲音類型結構化組織和高層語義的描述,給音頻信號的深入處理和分析工作帶來了諸多困難,使自動語音識別(Automatic Speech Recognition,ASR)和基於內容的音頻檢索(Content-Based Audio Retrieval,CBAR)等應用受到了極大限制。如何從連續音頻流信號中提取音頻類型的結構化信息,將其按語音、音樂和環境音等不同的聲學類型切分成類別單一的音頻片段,標註出各音頻片段的分界點位置和類型信息,即連續音頻流分類,是解決音頻信息深度處理、分析和檢索等問題的關鍵技術和基礎前提,同時也是輔助視頻信號自動切分和分類的強有力的工具,有着廣泛的應用前景。
結構化信息
連續音頻流分類給出的音頻類型結構化信息,是建立音頻數據庫索引、實現底層結構單元向高層語義結構單元關聯的基礎。CBAR技術通常要分析音頻流的結構和語義,從不同類型的音頻信號中提取高層語義信息,如對語音部分抽取關鍵詞,建立它們的結構化的組織和索引,使“無序”的音頻流變得“有序”,以便於用户的檢索和瀏覽。可見,如果不知道音頻流的所包含的聲音類別和及其位置信息,高層語義的提取根本無從談起。
連續音頻流分類技術
連續音頻流分類技術可以作為視頻鏡頭自動分割和分類的有效的輔助工具。由於受技術發展的限制,單獨依靠現有的圖像和視頻處理技術還不能使計算機“理解”視頻的內容,視頻鏡頭切分精確度也不高,不能對故事單元進行基於內容的分類。如果利用連續音頻流分類技術將視頻流所對應的音頻進行切分,利用較實用的語音識別技術對其中的語音部分進行語音識別,利用已經比較成熟的全文檢索技術對語音識別結果進行處理,提取文本摘要,則可以較好地解決這些問題。音視頻編輯領域的知識和一些基本規則告訴我們,如果視頻流所對應的音頻類型沒有發生變化,其對應的視頻可以不進行分割處理。因此通過對音頻流恰當的切分,可以大大提高視頻的分割效率和準確率。
此外,連續流音頻流分類技術還可以用在音頻內容理解(Audio Content Understanding)、音頻監測(Audio Surveillance)和音頻場景分析(Audio Scene Analysis)等領域。總之,音頻數據自身的特點和現有技術的制約,使得對音頻流的進一步處理受到了限制,而連續音頻流分類技術可以很好解決這一問題,為音頻流結構化和音頻信息深度分析和利用提供了堅實的基礎。
分類技術
利用連續音頻流分類技術可以為ASR提供單一的語音片段,是現有語音識別系統走向實際應用的先決條件之一。現有的連續語音識別系統對輸入語音信號的要求近乎苛刻,一般不僅不能包含諸如音樂、環境音等其它種類的聲音,而且要有較高的信噪比。ASR則要求對現實生活中的音頻流如廣播新聞,影視、會議、演講等錄音進行自動轉錄(Transcribe),生成包含語義內容、位置和其它信息的“抄本”(Transcription)。我們知道,以上列舉出的這些音頻流通常由語音和其它類型的聲音連接而成,如果不對其預先分段並去除非語音部分,必定會對語音識別系統的性能產生嚴重的影響。

音頻流流媒體

定義
流媒體就是指在網絡上使用流式傳輸技術的連續時基媒體,是通過網絡傳輸音頻、視頻或多媒體文件。關鍵是流式傳輸技術,流式傳輸主要指通過網絡傳送媒體(如視頻、音頻)的技術總稱,其特定含義為通過網絡將影音節目傳送到PC單機。
實現流式傳輸分兩種方法:實時流式傳輸方式(Realtime streaming)和順序流式傳輸方式(progressive streaming)。
常用格式
網絡上常見的流格式音頻的格式主要有美國Realnetwork公司的*.RA格式和微軟公司的*.WMA格式,另外還有一個多用於專業領域的美國蘋果公司*.MOV格式,在這三種格式中,MOV格式的音質是最好的,特別是MIDI方面,支持GS和GM兩種音色,播放效果要明顯的強於Windows media player,下面就給大家詳細的介紹這幾種格式的特點:
RealAudio格式
這是美國RealNetwork公司的一個元老級的產品,也是目前網上最流行的流式媒體技術。許多Internet的音樂台、視頻點播站點都採用它。RealMedia其中包含RealAudio(聲音文件)、RealVideo(視頻文件)和RealFlash(矢量動畫)這三類文件。
QuickTime格式
QuickTime與RealMedia一樣,完合兼容於蘋果機與PC機。在同樣網速和文件大小的情況下,它的音像品質是最好的。它由三個不同部分所組成:QuickTime Movie(電影)文件格式,QuickTime媒體抽象層、QuickTime內置媒體服務系統。
Windows Media Audio格式
WMA(Windows Media Audio)是來自於微軟的重量級選手,它的前身是微軟公司的Netshow,後台強硬,也是為數眾多Windows使用者最為熟悉的,它的核心技術是ASF(Advanced Streaming Format,高級流格式)。ASF格式支持任意的壓縮/解壓縮編碼方式,並可以使用任何一種底層網絡傳輸協議,具有很大的靈活性,比較MPEG之類的壓縮標準增加了控制命令腳本的功能,它以減少數據流量但保持文件質量的方法來實現流式多媒體內容發佈。
網絡上風行的FLASH雖然是矢量動畫技術,可是它一樣的可以包含聲音信息,也支持流式傳輸,高品質FLASH的SWF格式文件聲音更加出眾,而且文件體積更小,也有使用這種技術做的音樂網站,在欣賞的時候需要你安裝一個FLASH的插件,以2013年的網絡速度而言,區區幾百KB的FLASH插件一會兒的工夫就可以安裝完成,然後你就可以欣賞SWF格式的音樂了。
流媒體傳輸協議
瀏覽器中,我們常見的地址是以http://和ftp://開頭的。Web服務器也可以通過http協議來處理流式媒體文件,然而Web服務器本身的設計並不能有效率地傳送串流媒體檔案。
串流媒體必須佔用一個不間斷地封包串流,而且會長時間地與服務器保持連線狀態,如果有太多訪客同時上線觀看,效能便會大打折扣。為了解決這個問題,流格式媒體文件有它自己的一套協議。
1、即時串流通訊協議(Real Time Streaming Protocol,RTSP):是RealNetworks公司協助建立的一個用來傳送串流媒體的開放網頁標準。雖然它必須使用一種稱為RealServer的特殊服務器,然而RTSP能夠提升流式媒體影片的品質,改善傳送效率以及提供更佳的高流量處理功能。如果你的ISP具備了RealServer服務,那麼建議你使用RealServer而不要使用Web服務器來傳送串流媒體檔案。
2、MMS(Media Server protocol,MMS):這是微軟定義的一種流格式傳輸協議
3、實時傳輸協議(Theater Server protocol,RTP):這是用於Internet上針對多媒體數據流的一種傳輸協議。RTP被定義為在一對一或一對多的傳輸情況下工作,其目的是提供時間信息和實現流同步,通俗的説也就是網絡上的WEB服務器
4、資源預訂協議(ResourceReserveProtocol,RSVP),由於音頻和視頻數據流比傳統數據對網絡的延時更敏感,要在網絡中傳輸高質量的音頻、視頻信息,除帶寬要求之外,還需其他更多的條件。RSVP是正在開發的Internet上的資源預訂協議,使用RSVP預留一部分網絡資源(即帶寬)。
這些協議代替了http和ftp,而是像mms://61.139.25.41/quake,以MMS或RTSP等開頭。
播放器
以上三種格式各有各的播放器,它們分別是RealPlayer、QuickTime Player和Windows Media Player。
1、RealPlayer
Real格式具有很高的壓縮比和良好的壓縮傳輸能力,特別適合網絡上播放或是在線直播方式,在視頻流媒體格式中RM格式是素質最差的,可是文件也是最小的,低速網用户(非ADSL和寬帶網用户)也可以很輕鬆地在線欣賞視頻節目。RealPlay播放器使用也非常方便,系統的資源佔用在其他二者之間,是低配置用户的最好選擇。憑着ReaNetworks公司優秀的技術,它已佔領了半數以上的網上流式視音頻點播市場。
2、QuickTime Player
QuickTime Player可以通過Internet提供實時的數字化信息流、工作流與文件回放功能。QuickTime文件的素質極高,缺點是文件個頭比較大,當然,高清晰、高質量的畫面往往就意味着更大尺寸的文件,更多的傳輸時間。正因如此,在網絡上QuickTime只能用做一些多媒體廣告、產品演示、高清晰度影片等需要高清晰表現畫面的視頻節目上。在網絡速度不流暢的地方觀看起來有些吃力,而且QuickTime Player的系統資源佔用較高,要求你的機器配置較好才能勝任,最好是擁有快速CPU和更大容量的內存的高性能電腦。
現在QuickTime PLAYER的最新版本是5.0,注意,QuickTime Player播放器可不是免費的,大家可以到蘋果公司的主頁上去下載。
3、Windows Media Player
WMA的播放器使用Windows自帶的Windows Media Player就可以了,WMA格式音樂的一大特點不需要額外的播放器,你在“開始-程序-附件-娛樂”中就可以找到它的身影。其製作、發佈和播放軟件也與Windows NT/2000/9x集成在一起,更加強大的是Windows Media增加了版權保護功能,可以限制播放時間、播放次數甚至於操作系統等,這對於被盜版攪得焦頭亂額的音像出版商們可是一大福音。WindowsMedia文件比起RealMedia文件大些,在線播放狀態下比QuichTime可以獲得更快、更流暢的效果。

音頻流流函數

音頻流函數是用來用來播放大到不能放在常規 SAMPLE 結構裏的數字音樂用的, 也因為這些文件太大而你想每次載入需要數據的一部分,或者是你想做些聰明的活, 比如產生飛行的波形。
AUDIOSTREAM *play_audio_stream(int len,bits,stereo,freq,vol,pan);
這個函數創建一個新的音頻流然後開始播放。 長度是每個傳輸緩衝(採樣聲音的) 的大小, 它至少要有 2K: 大點的緩衝更經濟些, 需要更少的更新, 但是在你提供數據和它實際播放之間,有更多的等待。 bits 參數必須是 8 或 16, freq 是數據的採樣頻率, vol 和 pan 值使用和常規採樣聲音播放例程相同的 0-255 範圍. 如果一但開始播放了,你想調整音調,音量,或音頻流的 pan 值, 你可以使用常規的 voice_*( ) 函數, 以 stream->voice 作為參數。採樣聲音數據永遠是無符號格式,立體聲波形由交替左/右採樣組成。
void stop_audio_stream(AUDIOSTREAM *stream);
當一個音頻流不再需要時撤銷它.
void *get_audio_stream_buffer(AUDIOSTREAM *stream);
音頻流正在播放時, 你必須以有規律的間隙調用這個函數 來提供採樣聲音數據的下一個緩衝 (緩衝區越小, 它就必須被更頻繁的調用). 如果返回 NULL, 音頻流還有許多要播放, 因此你不必去做什麼。 如果返回了值, 它就是下一個緩衝將被播放的位置, 你應當將合適數量的採樣聲音 (無論你在創建流時指定了多少) 載入到 那個地址, 比如你使用 fread( ) 從磁盤文件裏載入。 在用數據填充完緩衝區後, 調用 free_audio_stream_buffer( ) 來只是新的數據已經有效了. 注意這個函數不能在時鐘句柄裏調用。
void free_audio_stream_buffer(AUDIOSTREAM *stream);
在 get_audio_stream_buffer( ) 後調用這個函數, 返回一個非 NULL 地址, 來指示你已經載入一塊新的採樣聲音到那個地址, 數據就準備被播放了。

音頻流音頻流簡介

在2007年拉斯維加斯國際消費電子展(CES)期間,意法半導體(ST)現場演示了採用藍牙接口、紅外線接口和Sound Terminal技術的實際便攜應用。Sound Terminal未來產品包括集成這些接口和其它接口的ASSP(專用標準產品)。
“Sound Terminal”是ST提出的一個數字音頻流概念,其目的是把高音質、低功耗和低製造成本帶到人氣很旺的高速增長的應用領域,如平板電視機、無線產品和個人音響系統。單封裝解決方案的高集成度,結合從聲源到揚聲器的純數字流處理能力,為設計低成本、高效能、外觀緊湊的音響系統提供了可能。
Sound Terminal產品家族的初期產品包括一系列高音質音頻的單片系統,例如:已經上市的用於大功率(20-80W)、中等功率(10-20W)和小功率(低於 1.5W) 的STA326和STA323 ,這些產品單片集成了數字音頻處理器、數字放大器控制器和一個DDX數字功率輸出級。 STA326的功率輸出可以驅動2個30W聲道或1個60W的聲道,通過數字控制,很容易把該產品配置成幾個不同的輸出模式;該產品有多種處理和均衡選項,包括每聲道最多4個可編程28位二階濾波器和低/高音控制。各種聽音條件預設模式可以縮短軟件開發時間,簡化產品設計過程。
因為是全數字流,放大鏈中的信號處理無需模數轉換器,所以這是一個保證整體音頻質量的低成本解決方案,信噪比(SNR)高達100dB,寬動態範圍。Sound Terminal芯片原型已經開發成功,採用ST具有自主知識產權的數字調製技術(FFX)的放大器是一個以便攜為目標應用的產品實例,該芯片的放大效率高達94%,在當前市場上居最高水平;能夠為便攜系統提供“不發熱的音頻功率”,有助於大幅度延長電池使用時間,而且還大幅度降低了散熱器的尺寸,為先進的產品設計提供了可能。
內置數字處理功能特別有助於提高音質,按照特定的音頻應用定製功能;例如,隨着平板電視機設計變得更薄,揚聲器變得更小,機箱聲學特性越來越不理想,修正音頻信號是十分重要的。
此外,數字流技術非常適合與採用散射紅外線、藍牙無線2.0EDR(增強數據速率)、WiFi和UWB(超級寬帶)技術的無線揚聲器和無線耳機的音頻接口整合。