2012/4/29 10:56:27 作者:sc001 來源:1
類似中國“Siri”或安卓“Siri”的計劃不太適合國內創(chuàng)業(yè)公司,因為投入大、風險高、技術難以實現(xiàn)。——創(chuàng)新工場董事長兼CEO李開復
中國“Siri”從頭開始創(chuàng)業(yè)難,但有積累有實力的中國企業(yè)還是存在的。建議這些實力企業(yè)積累自身創(chuàng)新研發(fā)能力的同時,要考慮可持續(xù)發(fā)展性。——天使投資人薛蠻子
“‘漢堡包多少錢一個’英文怎么說?”科大訊飛董事長劉慶峰向手上的智能手機發(fā)問,頓了兩三秒,手機“說話”了,不過說的卻是德國城市漢堡的百科知識。劉慶峰再試,手機才給出了正確的回答:“How much is a hamburger?”
這不是蘋果的“Siri”,而是科大訊飛不久前發(fā)布的“訊飛語點”,柳傳志、李開復等知名人士和1000多個開發(fā)者見證了此次發(fā)布。幾位業(yè)界大佬們的現(xiàn)身和發(fā)布會上語音識別出現(xiàn)錯誤,是國內手機智能語音助手開發(fā)領域火爆與問題并存的一個縮影。
自從蘋果在iPhone4S上推出智能語音助手“Siri”以來,智能語音助手的開發(fā)熱潮從國外迅速蔓延到國內。短短兩三個月,小唐龍、Airi、蟲洞、小i機器人等智能語音助手,如雨后春筍般冒出頭來。
如此火爆的情景,讓人不由發(fā)問,在中國類似“Siri”的開發(fā)和應用迎來春天了嗎?
中國“口音”帶給本土企業(yè)機遇
目前,蘋果公司對于Siri中文版研發(fā)進度、推出時間三緘其口。蘋果公司為何遲遲未推出Siri中文版呢?
有分析認為,聲調和地方口音龐雜,或許是Siri中文版遲遲未推出的主要原因。一家國外媒體表示,對于語音識別來說,中文極具挑戰(zhàn)性,因為普通話只有400個單音節(jié)聲音,根據(jù)聲調予以區(qū)別,而且中國還擁有很多種方言和數(shù)不盡的地方口音。
“中國語言和文化的特殊性,是Siri中文版需要克服的最大癥結。”捷通華聲董事長張連毅分析,以中國為代表的亞洲語言、文化有其特殊性。雅虎、谷歌等互聯(lián)網(wǎng)巨頭曾經(jīng)橫掃國際市場,但到了中國就“水土不服”,就是因為這個原因。
在這種情況下,一些國際語音巨頭轉而謀求收購中國公司。今年1月,自主研發(fā)的智能手機助手“小唐龍”,僅比蘋果公司iPhone4S發(fā)布的Siri晚了3個多月。但早在2010年,總部位于美國的一家世界級語音技術公司就找上門來,希望收購捷通華聲。
“蘋果公司前段時間在日本推出了Siri日文版,但并不是很成功。”張連毅分析,在中國市場上,蘋果公司一定會慎重而行,畢竟中國是一個龐大的市場。一旦推出一款不完善的產(chǎn)品,將會對蘋果公司的品牌形象造成“難以估量的影響”。
國際巨頭的劣勢,對中國企業(yè)而言就是機遇,這也是中國企業(yè)研發(fā)類似Siri產(chǎn)品的最大優(yōu)勢。
此外,與蘋果公司相對封閉的體系不同,中國本土企業(yè)的語音平臺從一開始就是開放的。今年初,捷通華聲和科大訊飛兩款智能語音平臺——“靈云”、“語音云”上線,向第三方開發(fā)者開放。第三方開發(fā)者可以利用語音平臺開發(fā)出第三方應用。
創(chuàng)新工場董事長兼CEO李開復認為,語音平臺向第三方開發(fā)者開放,開發(fā)者的參與必然會提高語音技術應用成功的概率。他還以自己的博士論文為例解釋說,做語音技術都基于語料庫,語料庫越大效果就越好。一個人能錄的語料很有限。但如果中國有一億用戶,每人一天哪怕講三秒,綜合起來是一個可觀數(shù)字。
“從3000萬用戶、到一個億、再到三億用戶,用戶量增長會讓語音云功能更強大。”劉慶峰期望通過用戶增長帶來更豐富的語料,“新一代語音云平臺推出后,用戶對口音、專用詞匯進行個性化訓練,可進一步提升語音作用”。
資金與技術掣肘中國“Siri”
看起來前途無量,但張連毅卻馬上加了一句:“即使再過一百年,語音技術也到不了完全成熟的地步。”一句話,折射出語音技術絕非一蹴而就的境況。
對于語音控制的前景,微軟的創(chuàng)新人蓋茨也曾說過,五年后語音會改變世界。只是,這樣的論調,蓋茨每隔五年都要再說一遍。
“過去30年,總說語音要改變世界,為什么沒有改?有幾個理由,第一是語音識別的精確度不夠,第二是語音應用在哪里,靠一小批的語音專家拍腦袋想,不是辦法。”李開復說。類似中國“Siri”或安卓“Siri”的計劃不太適合國內創(chuàng)業(yè)公司。
要知道,李開復從上世紀80年代就開始研究語音技術,他的一項語音技術還獲得過美國商業(yè)周刊最重要發(fā)明獎。但這其中到底難在哪兒?
資金投入是第一個難題。“語音合成、語音識別、語義識別,這些方面都需要建立數(shù)據(jù)庫。從成立以來,公司累計在語音技術上的投入至少超過2億元。有限的利潤中,前七八年股東沒拿過一分錢,全部投入再開發(fā)。但由于市場有限,企業(yè)效益卻不能立竿見影上新臺階。”
張連毅承認,就是因為公司“過得很艱難”,他數(shù)次想到要放棄。當2010年那家外國公司上門談收購時,他“心動”了,最后簽字前才拒絕這項收購邀約。
那有了巨額投入,就能成功么?
“做語音技術,沒錢肯定不行,但有錢也不一定就行。”張連毅說,因為有些知識是需要時間積累的。在以前,語音技術通常用于特定領域,比如天氣、股票等,這樣的數(shù)據(jù)庫相對就小很多。而現(xiàn)在,它們的技術已經(jīng)可以不限領域,不限話題范圍,不限制發(fā)音人。但即使這樣,仍然存在問題。“比如,如果說一句話時,中間增加停頓,它便無法正確理解。”
小i機器人的創(chuàng)始人袁輝亦認為,Siri的核心不是語音控制,而是人工智能,對復雜語法的分析。比如你對手機問“北京天氣怎么樣、北京下雨了嗎、需要加衣服嗎”,這三句話表達的是一個意思,智能機器人需要理解這三個問題,通過語法分析給出一個答案,但語音控制解決不了這些問題。
另外,語音的交流會帶來用戶期望值的提高,人們一旦開始使用語音跟機器交流了,就會把它當做一個人,期望值的提高,會給語音帶來很大的挑戰(zhàn)。美國的iPhone4S用戶此前就提出訴訟,稱Siri無法理解用戶表達的內容,蘋果具有欺詐性質的廣告與實際使用及操作Siri的體驗嚴重不符。
中文智能語音交互是一個巨大的市場,也是一個亟待挖掘的金礦,“但只有那些長期積累和考慮可持續(xù)發(fā)展的企業(yè),才能使中國‘Siri’技術得到更好的發(fā)展,成為代表中國的‘Siri’。”袁輝直言行業(yè)憂慮。