閱讀 | 訂閱
閱讀 | 訂閱
電子加工新聞

語音識別是移動互聯(lián)網(wǎng)的下個突破亮點

激光制造網(wǎng) 來源:鈦媒體2013-09-10 我要評論(0 )   

這幾天,可穿戴設(shè)備突然一下熱起來了,國內(nèi)廠商一口氣發(fā)布了好幾款智能手表,有映趣科技的inWatch,土曼科技的TWatch、盛大果殼電子的GeakWatch等,當然,最重頭的還是...

       這幾天,可穿戴設(shè)備突然一下熱起來了,國內(nèi)廠商一口氣發(fā)布了好幾款智能手表,有映趣科技的inWatch,土曼科技的TWatch、盛大果殼電子的GeakWatch等,當然,最重頭的還是三星在德國舉行的發(fā)布會上,發(fā)布了智能手表Galexy Gear。

      智能手表不是新發(fā)明的,有很多早就在市面上流行的產(chǎn)品,如索尼的SmatWatch等,就連做芯片的高通也發(fā)布了一款智能手表。大家早就看出,這里面是有前景的,是未來的一大趨勢,只是如果巨頭不出手,這個市場就很難被激活。

       智能手表到底是用來做什么的?在當前技術(shù)條件下,還只能發(fā)短信,拍個照,記錄筆記,充當健身輔助設(shè)備,在手機的支持下實現(xiàn)通話等,或許未來還可以在NFC的支持下完成近場支付等功能。智能手表的未來,一定不是滿足用戶的娛樂需求,而是著眼于普通人日常生活領(lǐng)域的諸多實際需求,這是由其自身特點所決定的。但我更關(guān)心的是,智能手表靠什么輸入文字,傳送信息。

       智能手表屏幕較小,使用額外的S-pen一類的輔助工具也并不現(xiàn)實,在當前條件下看,唯有依靠語音輸入了。語音輸入看上去是個不大的基礎(chǔ)應(yīng)用,實現(xiàn)起來卻需要非常復(fù)雜的技術(shù)能力,已經(jīng)涉及到人工智能AI的范疇,而且這個技術(shù)已經(jīng)進化了幾十年,似乎還沒得以大規(guī)模商用,可見其開發(fā)難度。

        13年前我曾買過一張IBM的Viavoice光盤,裝到電腦上后對著電腦練了一下午,希望其能快速熟悉我的個人口音,哪怕能有90%的識別率,也能為我繁重的文案工作減輕不少負擔。這次試驗最終還是失敗了,卻并不令人沮喪,至少領(lǐng)略了世界前沿的語音識別技術(shù),理解到識別自然語言對于計算機而言有多么難了。在當時,Viavoice是世界最尖端的語音識別技術(shù)。

        Gear中內(nèi)置了三星自己的S-Voice,另外也和百度合作,將百度語音助手預(yù)裝了進去??磥戆俣扰c三星的關(guān)系相當不一般,前有百度云,后有語音助手,對看重安卓更甚iOS的百度,支持力度相當大。不過,還是有理由相信,百度語音助手的技術(shù)實力已達到三星所期望的程度,預(yù)裝其語音產(chǎn)品,可以給智能手表帶來更好的用戶體驗。語音有可能是智能手表的唯一輸入方式,在這方面無法做到準確,易用,快捷,是很難讓用戶買單的,會成為其發(fā)展瓶頸。


       在周日的下午下載了百度語音助手,進行了一番測試。我發(fā)現(xiàn),普通話方面的語音識別準確率,已經(jīng)到了令人驚喜的地步。除了一些停頓和轉(zhuǎn)折,機器在識別上仍有一定困難外,基礎(chǔ)字詞很少會出現(xiàn)錯誤,只要對自己的普通話有一定自信,基本都能做到99%以上的識別率。

       之后我還對百度語音助手進行了上海話和英文的測試,發(fā)現(xiàn)效果并不理想,用上海話說了一串上海市井小吃的名字,基本無法識別,但在將上海的區(qū)縣名稱挨個念出來后,發(fā)現(xiàn)還是有一定的識別率。至于英文,則是基本無法識別??磥恚@一版語音助手,仍是以普通話識別為基礎(chǔ)的,還沒有考慮到更多需求。


        我不知道這是否代表中文普通話語音識別的最高水平了,其他一些語音識別工具,如搜狗和科大訊飛等產(chǎn)品,是不是也能做到差不多的識別效果。這一次的測試,與13年前的那次從感覺上完全不一樣。Viavoice是一種學(xué)習型的語音識別軟件,你需要適時地對識別結(jié)果進行調(diào)整,以方便機器下一次識別,積累下來的識別數(shù)據(jù)要妥善保護,要是因為一次重裝系統(tǒng)而導(dǎo)致丟失的話,一切都得重來。從商用角度來看,這還做不到多好的商用體驗,而如今的語音識別技術(shù),從體驗上明顯已能讓人看到曙光。

       甚至可以認為,只有在語音識別技術(shù)取得革命性突破之后,可穿戴設(shè)備真正的爆發(fā)之日才會到來。設(shè)想你可以與智能手表和眼鏡實現(xiàn)人機對話,戴著眼鏡時不必再傻傻地說句OK
 

      Glass才能開啟攝像,只需用生活中最自然的語言即可完成指令發(fā)送,之后再由機器將任務(wù)完成情況用語音反饋給你,到那時,屏幕的作用將弱化,移動互聯(lián)網(wǎng)的新入口將誕生。

       過去一年,百度在硅谷建立了IDL實驗室,進行深度學(xué)習方面的研究,在利用軟硬件模擬人腦方面試圖獲得更多成果。而這些工作,在過去印象中總是由IBM,貝爾實驗室等大機構(gòu)所做的,出了能商用的成果,大家去買授權(quán)好了,像百度這樣的廣告公司也來搞這個,著實令人感慨萬分。

       不過,這些耗費甚巨卻見不到短期產(chǎn)出的基礎(chǔ)研究項目,使得百度在語音識別技術(shù)方面有了相當不錯的進步,還沒有達到商用化的地步,最起碼也已可以進行積極布局,積累用戶了。

       未來隨著手持設(shè)備的小型化,甚至穿戴化,各種智能眼鏡,手表等層出不窮,誰能在語音輸入方面取得領(lǐng)先優(yōu)勢,誰就能掌握了用戶的一個基礎(chǔ)需求,誰也就能在這個由鼠標鍵盤、觸屏和語音所組成的互聯(lián)網(wǎng)世界里,占據(jù)一個重要入口。

 

轉(zhuǎn)載請注明出處。

暫無關(guān)鍵詞
免責聲明

① 凡本網(wǎng)未注明其他出處的作品,版權(quán)均屬于激光制造網(wǎng),未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用。獲本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使 用,并注明"來源:激光制造網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關(guān)責任。
② 凡本網(wǎng)注明其他來源的作品及圖片,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本媒贊同其觀點和對其真實性負責,版權(quán)歸原作者所有,如有侵權(quán)請聯(lián)系我們刪除。
③ 任何單位或個人認為本網(wǎng)內(nèi)容可能涉嫌侵犯其合法權(quán)益,請及時向本網(wǎng)提出書面權(quán)利通知,并提供身份證明、權(quán)屬證明、具體鏈接(URL)及詳細侵權(quán)情況證明。本網(wǎng)在收到上述法律文件后,將會依法盡快移除相關(guān)涉嫌侵權(quán)的內(nèi)容。

網(wǎng)友點評
0相關(guān)評論
精彩導(dǎo)讀