2012/3/24 10:05:24 作者:sc001 來源:1
3月22日下午,科大訊飛在北京國(guó)家會(huì)議中心發(fā)布新一代“語音云”平臺(tái),“捎帶”發(fā)布了“中文版Siri”應(yīng)用訊飛語點(diǎn)。
這里用“捎帶”形容現(xiàn)場(chǎng)的情況是最恰當(dāng)?shù)模嚎拼笥嶏wCEO劉慶峰作完演講后,邀請(qǐng)大家共同開啟“語音云”時(shí)代,掌聲落畢,他馬上補(bǔ)充說“抱歉,忘了一個(gè)環(huán)節(jié)”,然后由工作人員從臺(tái)下拿上來一部智能手機(jī),開始演示“訊飛語點(diǎn)”的Demo。這個(gè)橋段讓人不由得想起喬幫主“Onemorething…”的遺風(fēng)。
科大訊飛的“語音云”平臺(tái)是面向開發(fā)者和合作伙伴的,今天不是第一次發(fā)布,早在2010年10月就已經(jīng)發(fā)布了第一版(當(dāng)時(shí)股價(jià)大漲)。但今天的大會(huì)無疑是訊飛“開發(fā)者大會(huì)”歷史上最火爆的一場(chǎng),根據(jù)訊飛副總江濤(活動(dòng)現(xiàn)場(chǎng)總指揮)的估算,現(xiàn)場(chǎng)“來了2000多人”。我下午2點(diǎn)半進(jìn)場(chǎng),那時(shí)工作人員還在不斷地添加凳子,訊飛的人員在跟國(guó)家會(huì)議中心工作人員溝通:“實(shí)在出乎意料,來的人太多了”。
“語音云”發(fā)布會(huì)
發(fā)布會(huì)很精彩,我已經(jīng)聯(lián)系了江濤,請(qǐng)他提供劉慶峰在現(xiàn)場(chǎng)演講用的PPT(更新:PPT全文或前往微盤下載)。在現(xiàn)場(chǎng)我也拍了一些PPT照片,與大家分享。
首先來看一張發(fā)布會(huì)之前的觀眾席照片,微博上有評(píng)論說“比騰訊的場(chǎng)子都大”。國(guó)家會(huì)議中心的四層大會(huì)堂B大廳座無虛席,甚至開放了第二層。江濤在微博上的評(píng)論是“感謝蘋果對(duì)市場(chǎng)的教育”。不過與現(xiàn)場(chǎng)的熱度不同,資本市場(chǎng)反應(yīng)冷淡,甚至股價(jià)還下跌了0.2元人民幣,跌幅0.53%,報(bào)收37.7元。
這是一些采用訊飛“語音云”技術(shù)的應(yīng)用,包括新浪微博、搜狐微博、365日歷等等。我們采訪過的蟲洞也是采用訊飛語音云技術(shù),但蟲洞在其上面進(jìn)行了優(yōu)化。根據(jù)劉慶峰現(xiàn)場(chǎng)的介紹,科大訊飛開發(fā)伙伴達(dá)到3100家,終端用戶超過3000萬,日請(qǐng)求量超過700萬次。
科大訊飛現(xiàn)在支持多國(guó)語種識(shí)別,也支持國(guó)內(nèi)的方言識(shí)別,在美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院(NIST)的語種識(shí)別9項(xiàng)評(píng)測(cè)中7個(gè)排名第一。而語音合成系統(tǒng)方面,也支持了中、英、法、俄等語言。
現(xiàn)場(chǎng)劉慶峰播放了一段合成后的《新聞聯(lián)播》開場(chǎng)片頭,當(dāng)時(shí)發(fā)布會(huì)時(shí)間是3月22日15時(shí)19分,視頻中出現(xiàn)的聲音是“歡迎收看3月22日新聞聯(lián)播”,如果不仔細(xì)聽的話,還真的以為是李瑞英、康輝的聲音。我聽到3月22日的時(shí)候,特意看了手機(jī)上的時(shí)間——15時(shí)19分,離新聞聯(lián)播開始還有3個(gè)多小時(shí)嘛;不過后來康輝說的話多一些的時(shí)候,就聽出破綻來了。
發(fā)布會(huì)現(xiàn)場(chǎng)劉慶峰毫不避諱地與競(jìng)品進(jìn)行了多項(xiàng)參數(shù)對(duì)比(用字母來隱晦表示公司名稱),科大訊飛在多項(xiàng)比賽和測(cè)試結(jié)果中排名第一。當(dāng)然,發(fā)布會(huì)開始前宣傳短片中,“中文語音識(shí)別該由中國(guó)人來做”的口號(hào)更能挑起人們的興奮神經(jīng)。大家猜一下下圖中N、G、Q分別是哪個(gè)公司?我猜N、G一個(gè)是為Siri提供技術(shù)的Nuance,另一個(gè)是Google。
柳傳志寄語創(chuàng)業(yè)者
3月22日發(fā)布會(huì)結(jié)束之后,安排了一個(gè)高峰論壇,邀請(qǐng)到柳傳志、李開復(fù)和雷軍(南赴珠海領(lǐng)取“榮譽(yù)市民”未能到場(chǎng))來談“語音時(shí)代”。主持人是《商業(yè)價(jià)值》的主編張鵬。
柳傳志是科大訊飛尋找投資的“貴人”,柳傳志看著科大訊飛長(zhǎng)大。而科大訊飛是聯(lián)想投資成立后“按照正規(guī)流程”投資的第一家企業(yè),2001年的簽約儀式也是當(dāng)時(shí)柳傳志唯一出席過的一個(gè)。
科大訊飛是一家安徽公司,前身是“安徽硅谷天音信息科技有限公司”,創(chuàng)始人劉慶峰原來是“中國(guó)科技大學(xué)人機(jī)語音智能多媒體實(shí)驗(yàn)室”的主任,1999年6月響應(yīng)團(tuán)中央“關(guān)于大學(xué)生創(chuàng)業(yè)”號(hào)召,率領(lǐng)實(shí)驗(yàn)室團(tuán)隊(duì)創(chuàng)辦“硅谷天音”,注冊(cè)資金300萬元人民幣。1999年12月30日“硅谷天音”更名為“科大訊飛”,重新注冊(cè)后,加上3000萬元風(fēng)險(xiǎn)投資,公司注冊(cè)資金變?yōu)?000萬。2007年完成股份制改造,一年后2008年5月12日在深圳中小板上市。
2001年6月6日聯(lián)想向訊飛投資800萬元,實(shí)際投入2533萬元。2008年5月12日上市時(shí),聯(lián)想持有科大訊飛880股股票,占比8.21%,在上海廣信13.24%之后;當(dāng)時(shí)劉慶峰本人持股761萬股,占7.10%;科大訊飛管理層共持股約20%。
2011年蘋果iPhone4S發(fā)布后,借Siri的東風(fēng),科大訊飛開始慢慢走入普通人視野。在受到大眾關(guān)注之前,訊飛已經(jīng)做出了“訊飛語音輸入法”這樣面向普通用戶的app產(chǎn)品,但其風(fēng)頭顯然不及Siri教育大眾后,今天下午發(fā)布的“中文版Siri”訊飛語點(diǎn)。
柳傳志講自己投資的理念是“事為主,人為重”,他夸贊劉慶峰,說他“有理想、有胸懷、有能力,有強(qiáng)烈的把科技成果轉(zhuǎn)化為產(chǎn)品的意愿”。不過在講臺(tái)上,柳傳志并未一味夸贊,也提了新要求,比如增加語音識(shí)別的復(fù)雜度,“我現(xiàn)在出去跟別人演示,只敢選擇簡(jiǎn)單常規(guī)的問題進(jìn)行示例,比如‘明天什么天氣’,但生活更加口語和隨意,這一點(diǎn)是訊飛應(yīng)該加強(qiáng)的方面”。
主持人問到柳傳志對(duì)互聯(lián)網(wǎng)創(chuàng)業(yè)者的寄語,他的回答是“用做實(shí)業(yè)的態(tài)度做互聯(lián)網(wǎng)”。“創(chuàng)業(yè)之前,問題要想清楚,要想盈利模式,僅靠人氣勁兒、燒錢是不對(duì)的。而拿了投資后,也要算準(zhǔn)錢能燒到什么時(shí)候。如果你創(chuàng)業(yè)籌來的錢太不容易,‘錢太重’,就要謹(jǐn)慎選擇創(chuàng)業(yè)。其實(shí)創(chuàng)業(yè)失敗并不是什么,我投的200多家企業(yè)中,不少是經(jīng)歷失敗,吸取經(jīng)驗(yàn)再創(chuàng)業(yè)的;即使后來你不再創(chuàng)業(yè),創(chuàng)業(yè)過程中積淀的經(jīng)驗(yàn),對(duì)于你以后在公司工作也是很大的提升。”
柳傳志也以自己的經(jīng)歷,勉勵(lì)創(chuàng)業(yè)者保持“專注”:
身邊很多朋友賺了很多錢,我也可以賺很多錢。當(dāng)年96、97年民生銀行投資的時(shí)候,我被認(rèn)為最有可能第一個(gè)投資的,但我沒投。據(jù)別人替我估算,如果當(dāng)時(shí)投了那1億多,現(xiàn)在的回報(bào)是2000多億,我覺得我不必后悔,身邊不斷有這樣的事兒出現(xiàn),你說它是好事,它是壞事?這還真不好說,因?yàn)槲彝顿Y賺了這筆錢以后,我也許會(huì)想去投房地產(chǎn)、去做別的更多的事,電腦這條路可能做不成,也許到最后什么都可能做不成。
李開復(fù)談?wù)Z音識(shí)別技術(shù)
李開復(fù)是第二名上場(chǎng)的嘉賓。眾所周知,李開復(fù)是著名語音識(shí)別技術(shù)專家,談到語音識(shí)別,當(dāng)然少不了由他來現(xiàn)身說法。
事實(shí)上,在訊飛發(fā)布會(huì)之前,李開復(fù)曾在微博上對(duì)市面上存在的眾多“中國(guó)Siri”提出四個(gè)疑問:
1)智能手機(jī)主界面是手觸,語音助手解決了什么真正用戶需求和痛處?2)如何克服后臺(tái)海量數(shù)據(jù)學(xué)習(xí)技術(shù)門檻?全球只有一個(gè)公司有這個(gè)技術(shù)。3)應(yīng)用誰開發(fā)?自己開難擴(kuò)張,用別人的應(yīng)用整合不佳影響體驗(yàn),4)語音服務(wù)器和帶寬成本較大,如何克服?
今天發(fā)布會(huì)結(jié)束后,李開復(fù)更新微博:“訊飛語點(diǎn)推出后,2、4由訊飛解決了”。
事實(shí)上,在之前科大訊飛向愛范兒提供的獨(dú)家稿件中,訊飛一一回答了四個(gè)問題,3月22日發(fā)布會(huì)用實(shí)際產(chǎn)品進(jìn)行了回應(yīng)。詳細(xì)內(nèi)容見文末引用部分。
李開復(fù)的“爐邊談話”提供了很多“專家式”的內(nèi)容。簡(jiǎn)單整理成問答形式如下。
問:我們看到訊飛語音識(shí)別的技術(shù)已經(jīng)非常成熟,那么你認(rèn)為“應(yīng)用”的空間在哪里,未來語音識(shí)別技術(shù)還有什么挑戰(zhàn)?
李開復(fù):云端識(shí)別技術(shù),訊飛已經(jīng)解決了。“應(yīng)用”在哪里?這并不是一些專家在實(shí)驗(yàn)室里拍腦袋就能想到的。大家可以來試,可以在訊飛的云平臺(tái)上試一試,可能成功的會(huì)比較少,但能夠摸索到成功的應(yīng)用的概率也會(huì)增加。
語音技術(shù)方面,主要挑戰(zhàn)還有三方面:
一、語音識(shí)別相對(duì)容易,但語義理解相對(duì)困難。讓軟件聽懂容易,但理解會(huì)比較難。
二、如果能在一定程度上做到語義理解,那么怎么樣讓開發(fā)者介入不用太花時(shí)間?
三、用戶體驗(yàn)的期望值。語音是人類最自然交流的方式——與多點(diǎn)觸摸不同,一旦人們開始使用語音交互,會(huì)有比較大的心理預(yù)期:我愛怎么說就怎么說,你應(yīng)該能理解,這是一個(gè)比較長(zhǎng)久的挑戰(zhàn)。這中間,應(yīng)該有巧妙方式來降低這種感受。
問:語音技術(shù)里面,是不是使用的人越多,語音技術(shù)也會(huì)愈加成熟?
李開復(fù):當(dāng)然了,更多人參與,獲得更多自動(dòng)回饋,可以實(shí)現(xiàn)一個(gè)良性的正向循環(huán)方。一個(gè)人能力有限,一億用戶,每人使用3秒鐘,就是3億秒,這個(gè)數(shù)據(jù)量是龐大的。實(shí)際應(yīng)用中,正確的輸入可以被視作是“一次正確訓(xùn)練和學(xué)習(xí)”,吸收改進(jìn);一個(gè)錯(cuò)誤的結(jié)果,比如訂餐時(shí)識(shí)別錯(cuò)誤取消訂單,可以視作“不正確的學(xué)習(xí)”,同樣吸收改進(jìn)。
但這個(gè)比“聽寫”更困難:錯(cuò)了,是語音錯(cuò)了還是語義錯(cuò)了,或者其中一個(gè)正確、一個(gè)錯(cuò)誤;對(duì)了,是語音對(duì)了語義對(duì)了,或者其中一個(gè)正確、一個(gè)錯(cuò)誤。當(dāng)回饋量大于累計(jì)量和使用量,可以讓我們邁出一大步。
問:什么樣的語音應(yīng)用是用戶期待和接受的?
李開復(fù):我認(rèn)為有三個(gè)方向。1,相對(duì)是語音識(shí)別,而非深度語義理解的應(yīng)用,或者說“淺語義,深語音”。比如聽寫(Demo中有提到教育領(lǐng)域的聽寫測(cè)試、KTV評(píng)分、發(fā)短信、日程提醒),——輸入法也很重要,這個(gè)比較保險(xiǎn)。
2,娛樂性應(yīng)用,比如Siri這樣的調(diào)侃調(diào)戲類應(yīng)用。這種識(shí)別錯(cuò)了也無傷大雅,很愛使用。蘋果很聰明,用調(diào)侃Siri錄了很多語音,然后慢慢把真正的應(yīng)用做好。
3,在一些“眼忙手忙”的場(chǎng)景,這個(gè)時(shí)候語音需求就會(huì)很大,比如駕車的時(shí)候,這時(shí)候是不能多點(diǎn)觸控的,這算一個(gè)“剛性需求”的場(chǎng)所。
在這里我建議開發(fā)者:想把語音放進(jìn)來的時(shí)候,不是那么容易,因?yàn)檎Z音的API和語音的用戶體驗(yàn),比一般的API要難很多,比如百科全書類、地圖、本地商家,O2O,線上模式拉來線下消費(fèi),因?yàn)橛姓Z義部分在里面,要花很多時(shí)間去把它調(diào)好,不能用簡(jiǎn)單的API隨便聯(lián)接起來。
附:科大訊飛對(duì)李開復(fù)“中國(guó)Siri路在何方”的回應(yīng)稿件
第一,語音助手能夠解決什么真正的用戶需求?
大多數(shù)人提到Siri,第一印象就是調(diào)戲Siri,但如果一個(gè)產(chǎn)品只是用來“調(diào)戲”,那這個(gè)產(chǎn)品充其量只能算是玩具,而不是人們所必須使用的語音助手。所以,Siri的定位應(yīng)該是解決用戶的真正需求和痛處。
可惜,目前Siri的模仿者大多視這個(gè)需求而不見,而是關(guān)注如何才能更好的“調(diào)戲”用戶。相信只有真正做到解決用戶需求的產(chǎn)品,才能夠獲得用戶長(zhǎng)久的喜愛,希望國(guó)內(nèi)的開發(fā)者能夠注意這個(gè)問題。
Siri想要實(shí)用,就必須調(diào)用開放數(shù)據(jù)的平臺(tái),而中國(guó)卻沒有WolframAlpha這種引擎,所以中文Siri想要真正解決用戶需求,只能一家一家去談,比如找大眾點(diǎn)評(píng)、百科等。這是創(chuàng)業(yè)公司做不來的,而大公司(百度、騰訊等)來做,可能又存在利益沖突。
第二,如何克服后臺(tái)海量數(shù)據(jù)學(xué)習(xí)技術(shù)門檻?
雖然李開復(fù)老師說全球只有一個(gè)公司有這個(gè)技術(shù),而我們也不知道這個(gè)公司具體是指哪一個(gè)。但據(jù)我了解,在語音識(shí)別方面,科大訊飛是做的不錯(cuò)的,訊飛語音輸入法的識(shí)別率已經(jīng)達(dá)到85%以上。而且他們的語音識(shí)別是基于云計(jì)算實(shí)現(xiàn)的,應(yīng)該是具備數(shù)據(jù)學(xué)習(xí)能力的。
除了語音識(shí)別,還有一個(gè)難題是語義理解,這也是中文Siri的核心難題。讓機(jī)器真正理解人的語言,這是一件很困難的事。就目前來看,蘋果在英文方面都沒有很好解決,不然也不會(huì)有用戶要告蘋果虛假宣傳了。但蘋果可以依靠“調(diào)戲”用戶獲得大量語料,然后學(xué)習(xí)后提升可用度。
可見,語義理解是一個(gè)需要不斷優(yōu)化的過程,每一個(gè)用戶的參與都將對(duì)智能語義理解的完善做出奉獻(xiàn)。
第三,應(yīng)用誰開發(fā)?
Siri的前提是要有語音識(shí)別功能,這個(gè)功能的門檻之高,已經(jīng)讓很多開發(fā)者望而卻步。幸好,國(guó)內(nèi)有科大訊飛的語音云開放平臺(tái),為普通開發(fā)者提供了語音識(shí)別和語音合成的功能,讓中文Siri的開發(fā)有了基礎(chǔ),智能360和Airi等產(chǎn)品就是基于訊飛語音云平臺(tái)實(shí)現(xiàn)的。
作為普通開發(fā)者,使用語音云平臺(tái)研發(fā)產(chǎn)品是很正常的。但如果真的想做成Siri這種大眾性應(yīng)用,核心技術(shù)卻掌握在別人手里,這是致命的問題。所以,真正能夠做出中文Siri應(yīng)用的,應(yīng)該還是科大訊飛這種掌握核心技術(shù)的公司。
第四,語音服務(wù)器的成本太大?
語音服務(wù)器的成本問題對(duì)于創(chuàng)業(yè)公司來說,確實(shí)是個(gè)大問題。但事實(shí)情況是,需要承受這個(gè)壓力的,可能只有科大訊飛和谷歌,因?yàn)橐话愎灸壳斑B語音技術(shù)都沒有。
科大訊飛在2010年推出了開放的語音云平臺(tái),目前用戶規(guī)模已經(jīng)達(dá)到2500萬。3月22日,科大訊飛還將發(fā)布新一代的語音云,可見科大訊飛對(duì)于語音云開放平臺(tái)的投入力度很大。作為一家上市公司,相信科大訊飛還是有實(shí)力克服用戶擴(kuò)張帶來的服務(wù)器成本和帶寬壓力的。
相關(guān)新聞