複製鏈接
請複製以下鏈接發送給好友

語音雲

鎖定
語音雲,顧名思義,是採用雲計算的方式來執行語音操作。
中文名
語音雲
類    別
語音操作
用    途
採用雲計算的方式來執行語音操作

語音雲定義

在傳統通信計算模式下,語音的處理方式多是通過單個通信終端完成,例如我們熟悉的手機等通信終端;在雲計算技術背景下,語音的格式轉換、辨別等操作完全在“雲”端執行。

語音雲優勢

語音雲的優勢很大。速度快,準確度很高。
在服務方式上,市面上的語音雲都能夠提供簡單易用的api或sdk,使得應用產品能夠通過API直接調用公有云服務,計算和存儲的壓力都放在雲端進行。降低了應用產品開發的成本,這樣,具體應用開發者就能夠更多的專注於業務需求的開發,而不是糾結於語音識別的方法和準確率上。
使用語音識別,門檻已經不再高不可攀。科大訊飛、雲知聲這兩家企業,都對開發者免費開放了語音雲,通過簡單集成語音雲控件SDK,就可以使用科大訊飛和雲知聲的語音雲服務。
從易用性上來講,商業公司的積極參與,為語音服務的普及化應用提供了良好的基礎。

語音雲帶來的好處

語音雲給用户帶來的好處是更方便藉助雲計算手段,實現快速的語音應用。比如語音短信之類應用。
對於連續語音識別,語音雲支持大詞彙量連續語音在線識別,客户端應用可以通過API直接調用公有云服務。在雲計算平台下,科大訊飛、百度、雲知聲的語音識別中文連續語音識別的準確率能夠達90%以上,達到世界領先水平。 [1] 

語音雲其他語音

語音雲訊飛語音

開放介紹
近年來國內外IT巨頭紛紛投入巨資加大對智能語音技術市場的爭奪,科大訊飛作為亞太地區最大的語音上市公司,擁有全球領先的中文智能語音技術,多年來一直致力於研發將語音技術應用到千家萬户,MSP(iFLY Mobile Speech Platform)便在此背景下誕生。通過MSP,移動互聯網的終端用户可以隨時隨地的使用語音服務。語音技術帶來品質生活,始終是MSP團隊所堅持不懈的理念。
主要功能
iFLY Mobile Speech Platform(以下簡稱MSP)是一個應用於移動互聯網的語音服務平台,其主要目標是:
(1)實現可面向移動2G/3G網絡及互聯網提供語音服務的服務器,在現有科大訊飛電信級語音服務平台ISP基礎上為移動終端應用程序提供多路併發的語音合成、語音識別、語音聽寫功能,通過架設在互聯網的語音應用服務器,用户可以隨時隨地獲得高質量的語音服務;
(2)實現基於移動終端以及桌面平台的語音應用客户端,提供統一的語音應用開發接口,通過該接口用户可以方便、快速地開發語音應用;同時,MSP也將開放一些基於移動以及桌面平台的語音應用,用於展示MSP語音服務平台的功能和使用方法,讓用户直接體驗到最新的語音技術;
MSP最終提供了架構於互聯網的語音雲服務和一套移動互聯網語音解決方案、應用示例,把語音服務的應用範圍拓寬到移動互聯網領域,為語音服務產品走向移動互聯網市場開闢全新的應用模式。
MSP平台整合了科大訊飛研究院、中國科技大學訊飛語音實驗室以及清華大學訊飛語音實驗室在語音識別、語音合成等技術上多年的技術成果,語音核心技術上達到了國際領先水平。
MSP系統採用分佈式架構,繼承了科大訊飛成熟的電信級語音平台高穩定的特點,可以滿足電信級應用的高可靠性、高可用性要求。針對傳統語音應用集成開發困難,業務設計繁瑣的問題,MSP產品大大簡化了集成開發和業務開發的複雜度,為系統集成人員和業務開發人員提供了便捷、高效的開發環境。
MSP作為一個向互聯網和移動互聯網開放的語音引擎,提供了功能完善、簡單易用的集成開發接口,以便開發人員能夠將其與應用程序進行集成,實現具有完整語音能力的應用。MSP提供的主要開發接口從提供功能考慮可以分為語音識別(包含語音聽寫)、語音合成開發
接口和語音檢測開發接口:
(1)語音識別開發接口
語音識別接口(QISR)是應用開發者使用識別引擎和語音聽寫引擎進行語音應用開發所必需使用的接口,該接口接受用户輸入的語音,把語音識別結果返回給應用程序。
(2)語音合成開發接口
語音合成接口(QTTS)可以讓應用開發者在應用程序中集成訊飛語音合成引擎的功能,該接口接受應用程序傳入的文本內容,返回符合應用要求格式的音頻數據。
(3)語音檢測開發接口
語音檢測(VAD)是語音識別一個重要的輸入環節,用於判斷用户語音何時開始、何時結束,該接口集成在MSC客户端內部,通過QISR接口的參數來返回語音狀態。
移動互聯網應用程序需要使用在成千上萬各式各樣的用户終端之上,用户終端類型從非智能終端到智能終端、從手機到智能玩具、從PC到互聯網電視,應用操作系統環境形形色色、品類眾多。為了滿足各類客户端操作系統環境上都能夠使用訊飛語音雲提供的語音功能,MSC為多種終端環境提供了語音開發接口,主要包含Android、iOS、Windows Phone、Windows、Linux、Java、Flash等。
基於訊飛語音雲,第三方開發者可以通過集成SDK,輕鬆實現產品的語音能力,基於訊飛語音雲誕生了一批有代表性的產品。
訊飛輸入法
全球首創“蜂巢”輸入模型,獨家支持拼音、手寫、語音“雲+端”立體輸入引擎。訊飛輸入法,創造極致輸入體驗!
靈犀語音助手
由科大訊飛和中國移動共同打造的貼心生活小秘書,基於科大訊飛語音雲、語義雲,能夠完美支持普通話及部分方言,更能深入理解用户的對話,智能的提供相應的服務。靈犀語音助手集打電話、發短信、設置提醒、音樂查找與播放、打開應用、餐飲美食、火車航班、查詢天氣、查詢股票、查詢酒店、查詢話費流量等眾多生活領域。
訊飛語音+
面向終端用户與開發者提供不同的功能。
終端用户提供的微信輸入助手,通過語音在微信中直接快速輸入文字,讓你成為輸入達人不再是夢!
面向開發者提供語音合成、語音識別、語音喚醒等能力,輕鬆集成,就能讓你的應用實現能聽會説。

語音雲雲知聲語音

開放介紹
雲知聲語音雲支持大詞彙量連續語音在線識別,支持應用通過API直接調用公有云服務。在雲計算平台下,藉助區分度訓練、自適應訓練、大規模網絡動態解碼等技術和大規模語料支持,中文連續語音識別的準確率達90%以上,達到世界領先水平。
雲知聲提供公有語音雲平台[15]以及私有語音雲平台。
微信語音輸入插件
雲知聲面向微信用户推出微信語音輸入插件,通過語音在微信中直接快速輸入文字;聊天利器,每分鐘輸入100字,讓好友目瞪口呆。
雲知聲輸入法!語音識別快又準,輸入動口不動手!從此,用語音輕鬆輸入文字,你有了更理想的選擇!
語控精靈
聯繫人太多?短信輸入太麻煩?走路、開車、坐車時手機不好操控?使用語控精靈吧!無需連接網絡,通過語音即可操作手機功能,打電話給朋友,發短信給朋友,打開應用,開關手機功能。打電話、發短信、開應用隨你語控;讓手機隨時隨地聽懂你。
雲知聲語音助手
雲知聲語音助手,是雲知聲旗下的一款中文語音助手軟件,採用了雲知聲自主研發的語音識別雲、語義雲,能夠完美支持普通話及部分方言,能夠理解用户的對話,智能的提供相應的服務,以及極具趣味的對話;雲知聲語音助手,是以用户需求為核心,在日常生活、電話短信、發佈微博、搜索備忘、應用管理、手機設置、趣味聊天等等各個領域不斷探索,竭力為用户帶來更方便快捷、更具趣味的產品體驗,旨在為廣大用户創造一個全新的語音時代。

語音雲百度語音

開放介紹
百度憑藉在語音核心技術上的長期積累,為廣大開發者提供了業界領先的語音技術服務,百度語音技術在之前已經應用在眾多的自家產品上,10月25日百度正式宣佈對外開放語音技術,通過百度語音技術服務,開發者可以輕易獲取強大的語音技術能力,拋開繁複的技術細節,專注於業務邏輯的優化,快速構建各種語音交互應用,開發者可以在百度開發者中心上申請開發自己的語音產品 [2] 
永久免費與深度定製
2013年8月22日百度世界大會上,百度宣佈語音識別技術及能力全面開放。在百度的引領下,圍繞語音識別的全新體系和大數據生態正式開始在移動互聯網領域發光發熱。時隔兩個月,百度語音識別SDK正式發佈,這一點是對應用開發者是最具誘惑力的。它可以向開發者提供長文本語音輸入,語音搜索詞識別,垂直領域識別等多方面的語音識別服務。另外,語音識別SDK還支持“即説即得”的技術,在用户輸入語音的同時就返回給用户連續的中間結果,提升用户體驗。而最為吸引人的是,相較於其他同類語音識別技術以授權費方式獲取收入的方式,百度將面向開發者無條件免費開放整個語音生態系統,同時支持針對不同應用所進行的深度定製。
據瞭解,此次百度語音識別SDK剛剛開始發放,便已與多家手機應用進行了合作,包括彩虹公交等。通過“永久免費”與“深度定製”的合作理念已獲得了開發者的一致好評。而後續,百度還將會繼續開放語義理解和TTS(語音合成)等多項面對應用開發者的服務,包括支持用户定製化語音識別,幫助開發者定製自己的語音應用。
百度語音開放平台將會用户提供更多便利,讓用户解放雙手,真正實現完全的語音操控.也會讓更多移動開發者享受技術進步帶來的紅利,踏上幸福創業的道路.
各界巨頭與百度語音深度合作
福特汽車如是説:
首先,福特汽車不僅僅是一家汽車公司, 也是一家科技公司, 致力於為消費者打造即有趣又安全的駕駛體驗。調查顯示,移動出行成為人們越來越重要的生活與工作方式,對於在出行路途上的移動通信,智能辦公的需求也越來越多樣化。福特針對這樣的需求,開發了支持MyFord Touch功能的SYNC車載多媒體通訊娛樂系統,該套智能互聯繫統讓駕駛者僅需通過語音指令就能輕鬆控制車內影音娛樂及温度調節等功能,在此基礎上,我們又面向中國市場推出了SYNC® AppLink™的功能,實現智能手機應用程序與搭載AppLink的車輛之間更好的互聯。這樣,通過AppLink,車主可以把他們的智能手機連接到車內,使用福特SYNC語音指令連接系統,在他們的駕駛座上控制智能手機上的應用程序。
我們此次和百度的合作目標就是通過百度的強大語音應用能力讓用户在駕車過程中,與外界實現無縫連接,同時又保持目不離路,手不離方向盤。如果這塊能做好,未來就有很多可想象的空間。比如我開車要去另一個城市,那麼這個城市的天氣狀況如何呢,通過和百度的合作,我們就可以做到用語音直接查詢,而不是之前的聽廣播或者停車打開天氣類app去查,類似這種場景還有很多,這也需要兩個行業之間不斷的碰撞和創新。
中興手機如是説:
作為全球做大的手機終端廠商之一,中興一直以來都以為用户打造完美體驗為最終目標,而我們這次是要打造的產品專為開車用户打造,該產品的最終目的是希望人們在車載環境中實現手機操作的handfree,接打電話、收發短信、查地圖、導航這些在車載環境中經常被使用的手機功能全部通過語音操控來實現。
我們對合作方有兩個要求,一是語音技術要過硬,二是要有相應的資源尤其是地圖和導航,如果語音和資源的提供方屬於兩家公司的話這個產品幾乎是無法完成的,而百度是所有互聯網公司中唯一符合要求的,經過我們的測試,百度的語音識別技術已經達到了一流水準,並且滿足我們語音喚醒、離線識別等各種要求,除了語音技術外,百度還可以提供導航資源,可以提供眾多城市的離線下載包,直接將語音交互和導航進行結合。
康佳電視如是説:
智能電視是未來的潮流,未來將會成為家庭智能媒體中心,而康佳作為電視行業的一支勁旅也早早的覺察到了這一點,我們認為智能電視不僅僅是內容收看模式的變革,同時也是人機交互的一個革命,傳統的遙控器已經遠遠不能滿足智能電視用户的需求,而語音交互則成為智能電視最佳的交互方式,通過語音控制實現換台、各項功能設置、搜索視頻資源等都已經開始成為智能電視的標配,我們甚至可以根據語音來判斷用户的屬性然後提供不同的內容給用户。同時,作為家庭智能媒體中心,電視也不會僅僅用來看,還可以用來玩遊戲、購物、查資訊,所有的互聯網行為幾乎都可以在電視上實現。
百度的語音識別技術這個不用多説,更重要的是百度擁有的網絡資源,例如用户在電視上看到一款車非常漂亮想知道這輛車多少錢,一般情況下用户會用電腦或者手機去搜索,而和百度合作後可以直接使用語音查詢,百度就會給出令用户滿意的結果。
百度語音的基本服務架構
語音雲 語音雲
功能特點描述
支持Android和iOS平台SDK
Android支持2.2及以上版本, iOS支持iOS 5.0及以上版本。
針對場景深度優化
支持適用於搜索及指令場景的短文本識別和適用於短信、微博等輸入的長文本識別模式。
針對領域優化,使垂直類應用有更好的識別效果
基於百度海量的數據資源,提供針對音樂、視頻、應用、網站搜索及地圖POI的識別優化。
特定場景的語義解析
支持提醒、電話、應用、日曆、通訊錄、航班、酒店、短信、音樂、手機設置、社交網絡、火車、旅遊、天氣、網址、地圖、通用指令等19個場景。
自動端點斷點檢測和數據傳輸,極致優化流量消耗
智能VAD檢測技術,分析用户説話的起點、尾點同時計算出聲音強度, 只傳輸有效數據,節約流量。
豐富可配置的UI組件
提供語音識別UI組件,自動音量反饋,並提供支持亮藍、暗橙、亮紅等八種主題,讓開發者最低成本集成。
提供底層API,更加靈活強大提供底層識別API,使用方式更加靈活強大
開放原始API接口, 開發者可以靈活構建語音識別使用場景,不干擾當前交互流程。開放底層API接口,開發者可以靈活實現各種語音識別交互方式。彈窗或對話式,一切由你而定。
詳盡的服務統計及API使用管理
服務控制枱支持詳細的服務統計查詢及服務使用頻次管理,方便開發者掌握服務使用情況及變化趨勢。
核心技術特色
用户個性化的聲音建模技術和海量數據的區分度訓練技術
- 區分度的GMM模型訓練LDA, MPE, SAT, FMLLR, FMPE等
- 上萬小時的聲學模型訓練數據,覆蓋主要漢語普通話使用人羣
海量語言模型的高速訓練和自適應更新技術
- 支持T級語料的統計語言模型的高速訓練和更新
- 支持短信,微博,地圖,音樂,旅遊,視頻,APP等垂直領域的綜合建模
支持複雜漢語語義空間的一遍解碼技術
- 支持百億文法的語言模型的一遍解碼
- 支持包含語義信息的語法模型和普通統計語言模型混合解碼
- 能夠支持數百萬量級詞典的複雜語義空間建模
- 精度和速度統一的解碼算法
深度神經網絡聲學建模技術
- 支持海量數據的深度神經網絡並行訓練
- 支持個性化的深度神經網絡建模技術
深度語義理解
- 融合依存句法分析、信息抽取、短文本分類等自然語言處理技術以及多種機器學習算法
- 多領域的深度語義解析,領域無關的信息抽取、專名識別、語義歸一化等淺層語義標註
- 基於海量網頁、搜索以及社區數據挖掘,具備智能糾錯、推理等技術
參考資料