80电影天堂网,欢乐斗地主经典老版,精品人妻无码一区二区三区三级,中国xxxxxl19免费视频

返回首頁

網(wǎng)站導(dǎo)航
資訊首頁> 網(wǎng)站公告 >產(chǎn)品資訊 > 拿下「麥克風(fēng)」之后,百度AI輸入法下一步要抓住你的「攝像頭」

    拿下「麥克風(fēng)」之后,百度AI輸入法下一步要抓住你的「攝像頭」

    產(chǎn)品資訊2018年01月19日
    分享

      「輸入法」是日常生活最平常但也最容易忽略的人機(jī)交互場景之一。

      問:用了“人工智能”和沒用“人工智能”的輸入法有什么區(qū)別?

      答:你用一下微軟全拼、智能ABC就知道現(xiàn)在的輸入法的詞條有多么智能了。

      以上是來自知乎網(wǎng)友「簡單粗暴」的問答。但同時也能反應(yīng)一個問題,被炒得火熱,又似乎無所不能的人工智能技術(shù),是怎樣應(yīng)用在「輸入法」這點(diǎn)小事兒上的?做語音輸入法的頭部玩家也都是標(biāo)榜做人工智能的巨頭公司,到底誰行?

      1月17日,百度輸入法AI新版正式上線,百度副總裁、AI技術(shù)平臺體系(AIG)總負(fù)責(zé)人王海峰為輸入法站臺,他表示,“輸入法是百度AI技術(shù)的橋頭堡,未來我們將用更多人工智能技術(shù)打造AI輸入,讓輸入法更懂你的表達(dá)。”

      一項(xiàng)技術(shù)突破:“深度尖峰技術(shù)Deep Peak 2 模型”

      百度語音技術(shù)部總監(jiān)高亮帶來的“深度尖峰技術(shù)Deep Peak 2 模型”堪稱AI新版輸入法的一大亮點(diǎn),通俗地解釋一下這項(xiàng)技術(shù)。

      Deep Peak 2 模型的全稱為基于 LSTM 和 CTC 的上下文無關(guān)音素組合建模,該技術(shù)將高頻出現(xiàn)的音素聯(lián)合在一起,形成一個音素組合體,然后將這個音素組合體看作一個基本建模單元。

      這可以看作是一次技術(shù)創(chuàng)新,此前數(shù)十年用的模型一直是上下文相關(guān)的建模方式。

      與上下文相關(guān)建模方式相比,Deep Peak 2 模型能夠充分發(fā)揮神經(jīng)網(wǎng)絡(luò)模型的參數(shù)優(yōu)勢,對多種說話方式的穩(wěn)定性更強(qiáng)、準(zhǔn)確度更高;同時能夠帶來更快的解碼速度,提升語音識別的整體效率,百度稱,聊天場景下的相對正確率已領(lǐng)先行業(yè)20%,而這個解碼速度也可提升10倍。

      高亮在接受36氪專訪中解釋:“20%這個數(shù)字怎么得出來的?是拿1400句語料來和競品進(jìn)行對比,來比較誰的句準(zhǔn)更準(zhǔn)。我們更關(guān)心字準(zhǔn)和句準(zhǔn)。過去的模型和競品比,是比較持平的。而這1400句是一直以來積累的「黑盒子」,訓(xùn)練數(shù)據(jù)完全看不到。”

      舉個例子,現(xiàn)在人們中英文夾雜著說話,發(fā)送語音已是稀松平常事。現(xiàn)在是上下文無關(guān)的建模方式,就可以把中文、英文一起識別,提高識別的準(zhǔn)確率。

      據(jù)稱,百度研發(fā)該技術(shù)有1年多之久,研發(fā)中遇到的最大難題就是解決「過擬合」的問題,百度通過聲學(xué)模型學(xué)習(xí)和語言信息學(xué)習(xí)相分離的特殊訓(xùn)練方法,使用音素組合來保留最重要的音素連接特性,最終成功解決了建模時的過擬合問題。

      高亮表示,國際上谷歌也發(fā)布論文在嘗試訓(xùn)練上下文無關(guān)的模型,但在工程上尚未體現(xiàn)。后續(xù)這項(xiàng)技術(shù)還將在百度其他產(chǎn)品中使用,驗(yàn)證模型的穩(wěn)定性。

      2012年,百度上線了基于 DNN 的語音識別模型,此后隨著技術(shù)的不斷迭代,每一年都有新的語音識別技術(shù)上線。

      「抓住麥克風(fēng)之后,下一步要抓住攝像頭」

      百度本次輸入法發(fā)布會主題是「AI輸入,開啟全感官輸入時代」。

      高亮告訴36氪,在識別率和準(zhǔn)確率達(dá)到一定技術(shù)高度,輸入法這個產(chǎn)品接下來的發(fā)展走向一定是應(yīng)用的場景越來越豐富。

      比如:“聲紋識別”、“輕聲識別”,在開會過程中若有需要輕聲發(fā)送語音,按住就可以輕聲說;在會議上做速記,可以根據(jù)聲紋的不同,可對不同發(fā)言的人內(nèi)容進(jìn)行分別記錄。

      而未來,也許一個手勢、一個眼神,甚至到終極一個腦電波,輸入法就可以get到你的意思進(jìn)行輸入。

      “AR表情”功能

      在高亮看來,“抓住麥克風(fēng)之后,下一步要抓住攝像頭”,因此百度輸入法這次還推出了“AR表情”的新功能。

      這次是結(jié)合了百度人臉識別技術(shù)和AR技術(shù),用戶不僅可根據(jù)相機(jī)或相冊進(jìn)行人臉識別、制作表情包,還支持用戶通過自己的表情控制虛擬人物形象,比如你可以看到孔子、武則天這些古代的人物沖你微笑抑或翻白眼。制作出來的AR表情,可以直接通過輸入法搜索、語音輸入和鍵盤輸入時展示出來。

      除此之外,為了豐富表情包的種類和風(fēng)格,一些中國民間傳統(tǒng)藝術(shù)如年畫等也引入到表情中,眾多古典人物形象沖破次元壁壘“活”了起來。

      就在昨天,微博也上新了點(diǎn)贊的新玩法,長按點(diǎn)贊按鈕,就可以出現(xiàn)多種表態(tài),如:高興、憤怒、驚訝等。

      搞怪有趣的表情可以俘獲年輕人的心,也更貼近用戶的個性化需求,百度輸入法在擁抱年輕的群體。

      輸入法本身是一個to C的產(chǎn)品,談不上何種商業(yè)模式,但是在和手機(jī)廠商合作預(yù)裝中,能夠敏感地捕捉到他們的需求,合作較好。

      百度表示,截至目前百度輸入法月活用戶已達(dá)4億,語音輸入日流量超過2.5億。百度輸入法除了有自己的核心研發(fā)團(tuán)隊(duì),攻克技術(shù)難題,還背靠技術(shù)大山,有王海峰領(lǐng)導(dǎo)的AIG團(tuán)隊(duì)的技術(shù)支持。

      其實(shí),語音識別這一單點(diǎn)技術(shù)已被突破,頭部玩家的識別準(zhǔn)確率早已都在97%以上,而接下來則更多是對語義的分析和理解,用戶的意圖判斷等。輸入法可以為百度積累分析語料以及盤活流量等,加之推出的“AR表情”功能,百度的AR怕是也要跟著火一把了

主站蜘蛛池模板: 木里| 克拉玛依市| 石景山区| 阳泉市| 富宁县| 罗定市| 城固县| 乌拉特后旗| 耒阳市| 玛纳斯县| 周宁县| 渭南市| 永仁县| 贵德县| 碌曲县| 内江市| 九寨沟县| 鄄城县| 全椒县| 盘锦市| 林西县| 呼图壁县| 珠海市| 尤溪县| 临猗县| 崇文区| 蓝田县| 沙坪坝区| 鱼台县| 会昌县| 玉田县| 榆中县| 秭归县| 虎林市| 柞水县| 溧水县| 西乡县| 本溪市| 丁青县| 望江县| 洛隆县|