智能手機的超性能語音識別技術
發布時間:2011-12-20
中心議題:
當語音識別技術應用到計算機桌麵的時候,這看起來似乎是一個好主意。但是,對於大多數人來說,語音識別還不能取代鍵盤和鼠標。現在,語音技術正用於一個全新的環境:手shou機ji。語yu音yin識shi別bie技ji術shu在zai手shou機ji中zhong的de應ying用yong將jiang進jin一yi步bu推tui動dong這zhe種zhong技ji術shu向xiang新xin的de方fang向xiang發fa展zhan和he應ying用yong。這zhe是shi語yu音yin識shi別bie技ji術shu在zai台tai式shi電dian腦nao應ying用yong中zhong從cong來lai沒mei有you涉she足zu的de方fang向xiang。
IBM今年將紀念其創建100周年。IBM在60年代初期創建了一個名為“Shoebox”的試驗性的語音識別係統。這個係統解決了口語算法問題。語音識別技術是在50年代作為一項早期的技術第一次出現的,當時主要是由於好奇。在60年代初,IBM的“Shoebox”設備能夠識別出16個口語單詞並且能夠回答簡單的數學問題,如“3 + 4 =?”。
Dragon Systems在80年代初為DOS計算機推出的DragonDictatekenengshidiyigeyuyinshibieyingyongchengxu。zhegeyingyongchengxuzhinengshibiedangedanci,meicizhishuoyigedanci。suizheshijiandetuiyi,zhegeyingyongchengxuyijingfazhanchengweimingwei“Dragon NaturallySpeaking”(目前是第11個版本,由Nuance通訊公司所有)的產品。這個應用程序能夠翻譯以正常的會話語音和速度讀出的文本。
語(yu)音(yin)識(shi)別(bie)技(ji)術(shu)在(zai)台(tai)式(shi)電(dian)腦(nao)中(zhong)的(de)應(ying)用(yong)有(you)兩(liang)個(ge)製(zhi)約(yue)因(yin)素(su)。第(di)一(yi),為(wei)了(le)使(shi)這(zhe)個(ge)應(ying)用(yong)程(cheng)序(xu)以(yi)更(geng)高(gao)的(de)準(zhun)確(que)性(xing)工(gong)作(zuo),這(zhe)個(ge)應(ying)用(yong)程(cheng)序(xu)必(bi)須(xu)要(yao)進(jin)行(xing)訓(xun)練(lian)以(yi)便(bian)識(shi)別(bie)用(yong)戶(hu)的(de)語(yu)音(yin)特(te)征(zheng)。Windows Vista和Windows 7操作係統中的本地語音轉換文本技術和Dragon NaturallySpeaking等第三方產品仍然都需要一個用戶訓練期才能使用。
第二個製約因素是鍵盤的流行程度。大多數人已經習慣於鍵盤打字而不是講話,因此,語音控製麵臨Dvorak鍵盤布局同樣的應用障礙。當簡單的老式QWERTY鍵盤供貨充足並且工作的很好的時候,為什麼要學習使用Dvorak鍵盤呢?
微軟TellMe團隊是負責為多媒體環境開發語音識別技術的部門。TellMe團隊高級產品經理Abhi Rele指出,在台式電腦環境,用戶有方便的人機交流模式,如鍵盤和鼠標。因此,語音的使用主要是針對語音愛好者的。
語音控製的計算更廣泛的應用需要兩件事情:更好的方便的應用和主要使用語音的地方。手機正是很長時間以來一直在增長的這種地方。
Nuance負責產品管理和營銷的副總裁Matt Revis解釋說,台式電腦和移動環境的區別是這樣的:台式電腦是一個固定的環境,重點完全在於台式電腦的使用情況。因此,台式電腦的語音技術主要執行如下任務:支持辦公應用程序、網絡瀏覽、通訊等。在移動方麵,語音更多地用於支持各種生活方式方麵:移動中的專業人員、戶外的有趣活動、免提電話等等。
Gartner分析師Tuong Nguyen讚同這個觀點:語音在移動環境中更有意義。他說,從使用的角度看,掌上設備的語音識別功能價值更大。它增加了用戶友好的、方便的輸入方式。
Nguyen補bu充chong說shuo,如ru果guo不bu用yong語yu音yin技ji術shu說shuo出chu一yi個ge簡jian單dan的de說shuo明ming語yu句ju,而er是shi翻fan動dong許xu多duo菜cai單dan或huo者zhe努nu力li地di在zai小xiao顯xian示shi屏ping鍵jian盤pan上shang進jin行xing輸shu入ru,語yu音yin識shi別bie的de價jia值zhi就jiu顯xian現xian出chu來lai了le。隨sui著zhe觸chu摸mo屏ping設she備bei(沒有物理鍵盤)應用的增長,語音識別技術將用來增強數據輸入和輸出。語音識別還支持免提要求或者法律要求。
[page]
在移動設備方麵
因為移動設備一般僅支持台式電腦的一部分存儲和處理功能,語音處理需要一些時間才能以基本的形式出現在手機中。
語音處理Springer手冊解釋了手機在2000年(nian)代(dai)初(chu)的(de)情(qing)況(kuang)。盡(jin)管(guan)那(na)時(shi)還(hai)有(you)一(yi)些(xie)局(ju)限(xian)性(xing),但(dan)是(shi),手(shou)機(ji)經(jing)過(guo)編(bian)程(cheng)之(zhi)後(hou)能(neng)夠(gou)識(shi)別(bie)逐(zhu)個(ge)數(shu)字(zi)的(de)撥(bo)號(hao)語(yu)音(yin),在(zai)某(mou)種(zhong)程(cheng)度(du)上(shang)還(hai)能(neng)識(shi)別(bie)人(ren)的(de)名(ming)字(zi)。主(zhu)要(yao)問(wen)題(ti)是(shi)內(nei)存(cun),因(yin)此(ci),大(da)多(duo)數(shu)手(shou)機(ji)一(yi)次(ci)隻(zhi)能(neng)識(shi)別(bie)10個數字或者名字。但是,這些作者指出的另一個問題是這個功能使用的比較少,可能是因為手機廠商在這方麵的營銷很糟糕。
隨著手機的增加內存和增強處理能力,普通手機的識別能力也增強了。三星電子在2005年發布的售價99美元的SCH-p-207型手機增加了語音至文本的聽寫功能和語音撥號功能。隨著內存達到數百MB和存儲容量達到數GB,目前這一代智能手機很少受到限製。
lingyigeguanjiandejinbushiwangluosudu。sudugengkuaidewuxianwangluolangchaotaigaolexuduodachuan,baokuozuixinyidaideyuyinchulijishu。sudugengkuaidewangluonenggoubayuyinchulirenwucongwangluoqianyidaoyuanchengfuwuqi。
穀歌語音搜索產品經理Amir Manejieshilesudugengkuaidewangluoshiruhebangzhugugeyuyinyingyongchengxude。tashuo,youyusuoyoufanzhongdechulirenwudoushiyougugefuwuqizaiwangluoshangchulide,womenjianshaolezhangshangshebeijisuannenglidexianzhi。
目前的應用程序
shoujiyuyinshibiejishumuqiandezhuangtaibujinjinjuxianyuyuyinbohao。yuyinqidongdegongnengshijishangjiubaokuoyuyinbohao。zheshishoujishangchuxiandediyigeyuyinshibiegongneng。muqian,shenzhixuduodiduanshoujidouyouzhegegongneng,jinguanzhegegongnengchulishoujidianhuabuzhongyixiebuchangyongdemingzideshishaochayixie。
Gartner分析師Nguyen指zhi出chu,比bi較jiao新xin的de一yi代dai語yu音yin功gong能neng是shi更geng開kai放fang的de。不bu用yong編bian程cheng執zhi行xing某mou些xie功gong能neng的de具ju體ti的de語yu音yin指zhi令ling,應ying用yong程cheng序xu可ke識shi別bie語yu音yin並bing且qie執zhi行xing適shi當dang的de行xing動dong。更geng高gao端duan的de、更強大的設備使這些應用更可行。換句話說,不僅僅是能夠使用這個短語“呼叫888-555-1212”撥打一個電話號碼,用戶還可以說“呼叫媽媽”或者“給我媽媽打電話”。
gugeyuyinsousuoyongyoubiyiqiandeyuyinshibiejishugengshaodexianzhi,yinweisuoyoudefanzhongrenwudoushiyouwangluofuwuqiwanchengde。zheshigugeyuyinsousuodengyuyinqudongdeyingyongchengxugengkexing。liru,ruguonishuo“創戰紀電影時間”,你會看到一個網頁列出地區編號或者位置。這個應用程序不僅能夠識別出這個短語的意思,而且還能提供你的手機(你當前的位置)和網站(上映時間)的信息。
這個應用程序還非常熟悉英語,不用進行訓練就能自動分辨出一些詞彙的差別。如果我說“摩特裏褲(Motley Crue)樂隊”,這個應用程序甚至能在搜索詞彙方便使用這個樂隊的獨特的拚寫,盡管它會漏掉變音符號。搜索“Motley''''s Crew”,你會得到一個喜劇片。
zhejiushishuogugeyuyinshibiedexianzhimingxiandibiaomingjiangshinijinyibutuolizhuliudeyingyu。waiguorendemingzishimeiyoubangzhude。yuyinshibieyingyongchengxudelingyigewentishihuanjingdezaoyin。yidongyonghushouhuanjingzaoyindeyingxiangtongchangbitaishidiannaoyonghuduo。Nuance公司的Revis稱,在充滿噪音的戶外環境中,語音識別的準確性是一個問題。
自從2005年三星的那款手機推出以來,聽寫功能已經取得了長足的進步。由Dragon NaturallySpeaking驅動的iPhone的Dragon聽寫功能允許用戶聽寫從備忘錄、電子郵件到Twitter更新等一切內容。用於電子郵件的Dragon軟件為黑莓設備提供了類似的功能。
對於Android手機來說,Nuance提供了FlexT9軟件。這個軟件把Dragon聽寫功能與三種類型的觸摸屏輸入方式結合在了一起。還有一個Handcent短信應用程序。這個應用程序集成了Android本地語音識別技術以幫助你用語音發短信。
文本之間的翻譯目前已經推出多年(如通過知名的Babel Fish網站進行翻譯)。同聲翻譯功能現在還沒有,不過,這種軟件很快會推出。例如,用於iPhone的Jibbigo軟件可翻譯單詞、短語和合理的簡單句子,讓雙方交替地講話。
[page]
未來的方向
詢問參加開發語音技術的每一個人下一個巨大的步驟是什麼。他們一般會給你一個答案:自然語言處理。
Revisbatajieshiweilijienideyisidexitong,tabujinjinzhidaonishuoshenme。zaihuihuashidehudongmoshizhong,yonghushuozijiyaoshuodehua,meiyouxianzhiyonghuruheshuozhegehua。tatigonglezhilinghuozheyaoqiudedaoxinxidelizi,ru“我在什麼地方能夠買到100美元以下的尼康照相機?”或者“給傑尼發個短信說我晚到20分鍾”或者“今天晚上在Morton''''s訂三個人的地方”。
穀歌的Mane稱cheng,在zai口kou語yu對dui話hua中zhong提ti供gong自zi然ran的de語yu言yan處chu理li是shi一yi個ge雙shuang重zhong挑tiao戰zhan。首shou先xian,你ni必bi須xu識shi別bie這zhe些xie單dan詞ci,然ran後hou,你ni必bi須xu理li解jie這zhe個ge意yi思si。第di一yi部bu分fen變bian得de更geng加jia容rong易yi了le。但dan是shi,第di二er部bu分fen仍reng然ran很hen難nan解jie決jue:意思是根據上下文確定的和難以應付的,人類做的語法分析也不是總是成功的。
微軟的Rele認為,手機提供的額外的服務(如羅盤或者GPS)能夠增強自然語言處理的有用性。他說,你可以為兩個人安排吃飯和看電影,方法是利用不同來源的數據把這個任務分開,如使用日曆、飯店排名、電影評論和位置等數據。
此外,手機的服務能夠用於提供講話的環境。Relebiaoshi,yonghudeyuyinshuruyijicongqitayouguanyonghujiyonghuhuanjingdechuanganqihezhuangtaihuodedezhinengxinxikeyitigonggengfengfudehegengxiangguandejieguo。liru,ruguoniganggangshiyongFoursquare網站查看有關飯店,一些含糊的語音指令就會傾向於外出吃飯、訂膳宿和要一輛出租車等事情。
多平台應用程序Vlingo自稱是“虛擬助手”,已經能夠提供這些方麵的功能。這個軟件插入到OpenTable和Fandango等服務中以完成許多任務:訂飯店、訂電影票等等。
Nguyen認為未來語音識別技術改善的另一個領域是遊戲。他說,在遊戲中可以使用語音以增加玩遊戲的不同氛圍。例如,你可以把Kirk-style船長的命令傳遞給恒星飛船或者在在一個神秘的事情中審訊疑犯。
是你嗎?已經應用的另一個功能是自動地把語音識別適用於單個用戶。這是台式電腦語音識別技術所要求的免提版語音訓練。
例如,最新版本的穀歌語音搜索有一個選擇性加入功能,允許隨著時間的推移建立一個用戶的客戶化語音特征。Mane解釋說,當用戶選擇使用客戶化語音識別的時候,我們在用戶和用戶的語調方麵畫一個界限,這使我們能夠建立一個初步的、個性化的語音識別模式。
然而,個性化識別並不是一個能夠解決一切問題的技術,它隻是實現語音識別更加無縫化的一個過渡步驟。Mane稱,我們沒有把個性化識別看作一個唯一的解決方案,因為還會有更多的一係列的技術創新。Mane認為,這種技術未來的改進需要我們的用戶更積極的參與。
結論
shoujiyizhishixuduojishudefuhuaqihetuidongyinsu,zhebaokuoyingjianheruanjianjishu。daomuqianweizhi,zaizhegezuhezhongzengjiayuyingongnengjinchanshenglezhubudegaishan,gugeyuyinyingyongchengxudehenhaodegongneng。
但(dan)是(shi),這(zhe)些(xie)改(gai)進(jin)正(zheng)逐(zhu)步(bu)地(di)為(wei)更(geng)重(zhong)要(yao)的(de)進(jin)步(bu)鋪(pu)平(ping)道(dao)路(lu)。移(yi)動(dong)技(ji)術(shu)為(wei)如(ru)何(he)聚(ju)集(ji)這(zhe)些(xie)新(xin)技(ji)術(shu)提(ti)供(gong)了(le)一(yi)個(ge)全(quan)新(xin)的(de)舞(wu)台(tai)。下(xia)一(yi)步(bu)也(ye)許(xu)不(bu)是(shi)一(yi)個(ge)理(li)解(jie)你(ni)說(shuo)的(de)一(yi)切(qie)事(shi)情(qing)的(de)手(shou)機(ji),而(er)是(shi)能(neng)夠(gou)充(chong)分(fen)理(li)解(jie)你(ni)說(shuo)的(de)事(shi)情(qing)的(de)一(yi)個(ge)更(geng)有(you)用(yong)的(de)手(shou)機(ji)。
- 學習智能手機的超性能語音識別技術
- 手機提供的羅盤或者GPS能夠增強自然語言處理的有用性
- 在移動設備方麵設計
- 硬件和軟件技術
當語音識別技術應用到計算機桌麵的時候,這看起來似乎是一個好主意。但是,對於大多數人來說,語音識別還不能取代鍵盤和鼠標。現在,語音技術正用於一個全新的環境:手shou機ji。語yu音yin識shi別bie技ji術shu在zai手shou機ji中zhong的de應ying用yong將jiang進jin一yi步bu推tui動dong這zhe種zhong技ji術shu向xiang新xin的de方fang向xiang發fa展zhan和he應ying用yong。這zhe是shi語yu音yin識shi別bie技ji術shu在zai台tai式shi電dian腦nao應ying用yong中zhong從cong來lai沒mei有you涉she足zu的de方fang向xiang。
IBM今年將紀念其創建100周年。IBM在60年代初期創建了一個名為“Shoebox”的試驗性的語音識別係統。這個係統解決了口語算法問題。語音識別技術是在50年代作為一項早期的技術第一次出現的,當時主要是由於好奇。在60年代初,IBM的“Shoebox”設備能夠識別出16個口語單詞並且能夠回答簡單的數學問題,如“3 + 4 =?”。
Dragon Systems在80年代初為DOS計算機推出的DragonDictatekenengshidiyigeyuyinshibieyingyongchengxu。zhegeyingyongchengxuzhinengshibiedangedanci,meicizhishuoyigedanci。suizheshijiandetuiyi,zhegeyingyongchengxuyijingfazhanchengweimingwei“Dragon NaturallySpeaking”(目前是第11個版本,由Nuance通訊公司所有)的產品。這個應用程序能夠翻譯以正常的會話語音和速度讀出的文本。
語(yu)音(yin)識(shi)別(bie)技(ji)術(shu)在(zai)台(tai)式(shi)電(dian)腦(nao)中(zhong)的(de)應(ying)用(yong)有(you)兩(liang)個(ge)製(zhi)約(yue)因(yin)素(su)。第(di)一(yi),為(wei)了(le)使(shi)這(zhe)個(ge)應(ying)用(yong)程(cheng)序(xu)以(yi)更(geng)高(gao)的(de)準(zhun)確(que)性(xing)工(gong)作(zuo),這(zhe)個(ge)應(ying)用(yong)程(cheng)序(xu)必(bi)須(xu)要(yao)進(jin)行(xing)訓(xun)練(lian)以(yi)便(bian)識(shi)別(bie)用(yong)戶(hu)的(de)語(yu)音(yin)特(te)征(zheng)。Windows Vista和Windows 7操作係統中的本地語音轉換文本技術和Dragon NaturallySpeaking等第三方產品仍然都需要一個用戶訓練期才能使用。
第二個製約因素是鍵盤的流行程度。大多數人已經習慣於鍵盤打字而不是講話,因此,語音控製麵臨Dvorak鍵盤布局同樣的應用障礙。當簡單的老式QWERTY鍵盤供貨充足並且工作的很好的時候,為什麼要學習使用Dvorak鍵盤呢?
微軟TellMe團隊是負責為多媒體環境開發語音識別技術的部門。TellMe團隊高級產品經理Abhi Rele指出,在台式電腦環境,用戶有方便的人機交流模式,如鍵盤和鼠標。因此,語音的使用主要是針對語音愛好者的。
語音控製的計算更廣泛的應用需要兩件事情:更好的方便的應用和主要使用語音的地方。手機正是很長時間以來一直在增長的這種地方。
Nuance負責產品管理和營銷的副總裁Matt Revis解釋說,台式電腦和移動環境的區別是這樣的:台式電腦是一個固定的環境,重點完全在於台式電腦的使用情況。因此,台式電腦的語音技術主要執行如下任務:支持辦公應用程序、網絡瀏覽、通訊等。在移動方麵,語音更多地用於支持各種生活方式方麵:移動中的專業人員、戶外的有趣活動、免提電話等等。
Gartner分析師Tuong Nguyen讚同這個觀點:語音在移動環境中更有意義。他說,從使用的角度看,掌上設備的語音識別功能價值更大。它增加了用戶友好的、方便的輸入方式。
Nguyen補bu充chong說shuo,如ru果guo不bu用yong語yu音yin技ji術shu說shuo出chu一yi個ge簡jian單dan的de說shuo明ming語yu句ju,而er是shi翻fan動dong許xu多duo菜cai單dan或huo者zhe努nu力li地di在zai小xiao顯xian示shi屏ping鍵jian盤pan上shang進jin行xing輸shu入ru,語yu音yin識shi別bie的de價jia值zhi就jiu顯xian現xian出chu來lai了le。隨sui著zhe觸chu摸mo屏ping設she備bei(沒有物理鍵盤)應用的增長,語音識別技術將用來增強數據輸入和輸出。語音識別還支持免提要求或者法律要求。
[page]
在移動設備方麵
因為移動設備一般僅支持台式電腦的一部分存儲和處理功能,語音處理需要一些時間才能以基本的形式出現在手機中。
語音處理Springer手冊解釋了手機在2000年(nian)代(dai)初(chu)的(de)情(qing)況(kuang)。盡(jin)管(guan)那(na)時(shi)還(hai)有(you)一(yi)些(xie)局(ju)限(xian)性(xing),但(dan)是(shi),手(shou)機(ji)經(jing)過(guo)編(bian)程(cheng)之(zhi)後(hou)能(neng)夠(gou)識(shi)別(bie)逐(zhu)個(ge)數(shu)字(zi)的(de)撥(bo)號(hao)語(yu)音(yin),在(zai)某(mou)種(zhong)程(cheng)度(du)上(shang)還(hai)能(neng)識(shi)別(bie)人(ren)的(de)名(ming)字(zi)。主(zhu)要(yao)問(wen)題(ti)是(shi)內(nei)存(cun),因(yin)此(ci),大(da)多(duo)數(shu)手(shou)機(ji)一(yi)次(ci)隻(zhi)能(neng)識(shi)別(bie)10個數字或者名字。但是,這些作者指出的另一個問題是這個功能使用的比較少,可能是因為手機廠商在這方麵的營銷很糟糕。
隨著手機的增加內存和增強處理能力,普通手機的識別能力也增強了。三星電子在2005年發布的售價99美元的SCH-p-207型手機增加了語音至文本的聽寫功能和語音撥號功能。隨著內存達到數百MB和存儲容量達到數GB,目前這一代智能手機很少受到限製。
lingyigeguanjiandejinbushiwangluosudu。sudugengkuaidewuxianwangluolangchaotaigaolexuduodachuan,baokuozuixinyidaideyuyinchulijishu。sudugengkuaidewangluonenggoubayuyinchulirenwucongwangluoqianyidaoyuanchengfuwuqi。
穀歌語音搜索產品經理Amir Manejieshilesudugengkuaidewangluoshiruhebangzhugugeyuyinyingyongchengxude。tashuo,youyusuoyoufanzhongdechulirenwudoushiyougugefuwuqizaiwangluoshangchulide,womenjianshaolezhangshangshebeijisuannenglidexianzhi。
目前的應用程序
shoujiyuyinshibiejishumuqiandezhuangtaibujinjinjuxianyuyuyinbohao。yuyinqidongdegongnengshijishangjiubaokuoyuyinbohao。zheshishoujishangchuxiandediyigeyuyinshibiegongneng。muqian,shenzhixuduodiduanshoujidouyouzhegegongneng,jinguanzhegegongnengchulishoujidianhuabuzhongyixiebuchangyongdemingzideshishaochayixie。
Gartner分析師Nguyen指zhi出chu,比bi較jiao新xin的de一yi代dai語yu音yin功gong能neng是shi更geng開kai放fang的de。不bu用yong編bian程cheng執zhi行xing某mou些xie功gong能neng的de具ju體ti的de語yu音yin指zhi令ling,應ying用yong程cheng序xu可ke識shi別bie語yu音yin並bing且qie執zhi行xing適shi當dang的de行xing動dong。更geng高gao端duan的de、更強大的設備使這些應用更可行。換句話說,不僅僅是能夠使用這個短語“呼叫888-555-1212”撥打一個電話號碼,用戶還可以說“呼叫媽媽”或者“給我媽媽打電話”。
gugeyuyinsousuoyongyoubiyiqiandeyuyinshibiejishugengshaodexianzhi,yinweisuoyoudefanzhongrenwudoushiyouwangluofuwuqiwanchengde。zheshigugeyuyinsousuodengyuyinqudongdeyingyongchengxugengkexing。liru,ruguonishuo“創戰紀電影時間”,你會看到一個網頁列出地區編號或者位置。這個應用程序不僅能夠識別出這個短語的意思,而且還能提供你的手機(你當前的位置)和網站(上映時間)的信息。
這個應用程序還非常熟悉英語,不用進行訓練就能自動分辨出一些詞彙的差別。如果我說“摩特裏褲(Motley Crue)樂隊”,這個應用程序甚至能在搜索詞彙方便使用這個樂隊的獨特的拚寫,盡管它會漏掉變音符號。搜索“Motley''''s Crew”,你會得到一個喜劇片。
zhejiushishuogugeyuyinshibiedexianzhimingxiandibiaomingjiangshinijinyibutuolizhuliudeyingyu。waiguorendemingzishimeiyoubangzhude。yuyinshibieyingyongchengxudelingyigewentishihuanjingdezaoyin。yidongyonghushouhuanjingzaoyindeyingxiangtongchangbitaishidiannaoyonghuduo。Nuance公司的Revis稱,在充滿噪音的戶外環境中,語音識別的準確性是一個問題。
自從2005年三星的那款手機推出以來,聽寫功能已經取得了長足的進步。由Dragon NaturallySpeaking驅動的iPhone的Dragon聽寫功能允許用戶聽寫從備忘錄、電子郵件到Twitter更新等一切內容。用於電子郵件的Dragon軟件為黑莓設備提供了類似的功能。
對於Android手機來說,Nuance提供了FlexT9軟件。這個軟件把Dragon聽寫功能與三種類型的觸摸屏輸入方式結合在了一起。還有一個Handcent短信應用程序。這個應用程序集成了Android本地語音識別技術以幫助你用語音發短信。
文本之間的翻譯目前已經推出多年(如通過知名的Babel Fish網站進行翻譯)。同聲翻譯功能現在還沒有,不過,這種軟件很快會推出。例如,用於iPhone的Jibbigo軟件可翻譯單詞、短語和合理的簡單句子,讓雙方交替地講話。
[page]
未來的方向
詢問參加開發語音技術的每一個人下一個巨大的步驟是什麼。他們一般會給你一個答案:自然語言處理。
Revisbatajieshiweilijienideyisidexitong,tabujinjinzhidaonishuoshenme。zaihuihuashidehudongmoshizhong,yonghushuozijiyaoshuodehua,meiyouxianzhiyonghuruheshuozhegehua。tatigonglezhilinghuozheyaoqiudedaoxinxidelizi,ru“我在什麼地方能夠買到100美元以下的尼康照相機?”或者“給傑尼發個短信說我晚到20分鍾”或者“今天晚上在Morton''''s訂三個人的地方”。
穀歌的Mane稱cheng,在zai口kou語yu對dui話hua中zhong提ti供gong自zi然ran的de語yu言yan處chu理li是shi一yi個ge雙shuang重zhong挑tiao戰zhan。首shou先xian,你ni必bi須xu識shi別bie這zhe些xie單dan詞ci,然ran後hou,你ni必bi須xu理li解jie這zhe個ge意yi思si。第di一yi部bu分fen變bian得de更geng加jia容rong易yi了le。但dan是shi,第di二er部bu分fen仍reng然ran很hen難nan解jie決jue:意思是根據上下文確定的和難以應付的,人類做的語法分析也不是總是成功的。
微軟的Rele認為,手機提供的額外的服務(如羅盤或者GPS)能夠增強自然語言處理的有用性。他說,你可以為兩個人安排吃飯和看電影,方法是利用不同來源的數據把這個任務分開,如使用日曆、飯店排名、電影評論和位置等數據。
此外,手機的服務能夠用於提供講話的環境。Relebiaoshi,yonghudeyuyinshuruyijicongqitayouguanyonghujiyonghuhuanjingdechuanganqihezhuangtaihuodedezhinengxinxikeyitigonggengfengfudehegengxiangguandejieguo。liru,ruguoniganggangshiyongFoursquare網站查看有關飯店,一些含糊的語音指令就會傾向於外出吃飯、訂膳宿和要一輛出租車等事情。
多平台應用程序Vlingo自稱是“虛擬助手”,已經能夠提供這些方麵的功能。這個軟件插入到OpenTable和Fandango等服務中以完成許多任務:訂飯店、訂電影票等等。
Nguyen認為未來語音識別技術改善的另一個領域是遊戲。他說,在遊戲中可以使用語音以增加玩遊戲的不同氛圍。例如,你可以把Kirk-style船長的命令傳遞給恒星飛船或者在在一個神秘的事情中審訊疑犯。
是你嗎?已經應用的另一個功能是自動地把語音識別適用於單個用戶。這是台式電腦語音識別技術所要求的免提版語音訓練。
例如,最新版本的穀歌語音搜索有一個選擇性加入功能,允許隨著時間的推移建立一個用戶的客戶化語音特征。Mane解釋說,當用戶選擇使用客戶化語音識別的時候,我們在用戶和用戶的語調方麵畫一個界限,這使我們能夠建立一個初步的、個性化的語音識別模式。
然而,個性化識別並不是一個能夠解決一切問題的技術,它隻是實現語音識別更加無縫化的一個過渡步驟。Mane稱,我們沒有把個性化識別看作一個唯一的解決方案,因為還會有更多的一係列的技術創新。Mane認為,這種技術未來的改進需要我們的用戶更積極的參與。
結論
shoujiyizhishixuduojishudefuhuaqihetuidongyinsu,zhebaokuoyingjianheruanjianjishu。daomuqianweizhi,zaizhegezuhezhongzengjiayuyingongnengjinchanshenglezhubudegaishan,gugeyuyinyingyongchengxudehenhaodegongneng。
但(dan)是(shi),這(zhe)些(xie)改(gai)進(jin)正(zheng)逐(zhu)步(bu)地(di)為(wei)更(geng)重(zhong)要(yao)的(de)進(jin)步(bu)鋪(pu)平(ping)道(dao)路(lu)。移(yi)動(dong)技(ji)術(shu)為(wei)如(ru)何(he)聚(ju)集(ji)這(zhe)些(xie)新(xin)技(ji)術(shu)提(ti)供(gong)了(le)一(yi)個(ge)全(quan)新(xin)的(de)舞(wu)台(tai)。下(xia)一(yi)步(bu)也(ye)許(xu)不(bu)是(shi)一(yi)個(ge)理(li)解(jie)你(ni)說(shuo)的(de)一(yi)切(qie)事(shi)情(qing)的(de)手(shou)機(ji),而(er)是(shi)能(neng)夠(gou)充(chong)分(fen)理(li)解(jie)你(ni)說(shuo)的(de)事(shi)情(qing)的(de)一(yi)個(ge)更(geng)有(you)用(yong)的(de)手(shou)機(ji)。
特別推薦
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
技術文章更多>>
- 貿澤EIT係列新一期,探索AI如何重塑日常科技與用戶體驗
- 算力爆發遇上電源革新,大聯大世平集團攜手晶豐明源線上研討會解鎖應用落地
- 創新不止,創芯不已:第六屆ICDIA創芯展8月南京盛大啟幕!
- AI時代,為什麼存儲基礎設施的可靠性決定數據中心的經濟效益
- 矽典微ONELAB開發係列:為毫米波算法開發者打造的全棧工具鏈
技術白皮書下載更多>>
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索
Future
GFIVE
GPS
GPU
Harting
HDMI
HDMI連接器
HD監控
HID燈
I/O處理器
IC
IC插座
IDT
IGBT
in-cell
Intersil
IP監控
iWatt
Keithley
Kemet
Knowles
Lattice
LCD
LCD模組
LCR測試儀
lc振蕩器
Lecroy
LED
LED保護元件
LED背光


