進出小區(qū)要刷門禁卡,住宿出行要掏身份證,訂立合同要簽字蓋章,轉(zhuǎn)賬消費要輸入密碼,就連紫薇去認皇阿瑪,也得拿著一畫一扇當信物……
在與人類社會產(chǎn)生關(guān)聯(lián)的過程中,我們無時無刻不需要證明自己的身份,以獲得某種權(quán)限,為此我們發(fā)明了令牌、印章、證件、密碼作為身份符號。但和這些傳統(tǒng)方法相比,DNA、指紋、虹膜、人臉、聲紋等生物特征才是你唯一的、穩(wěn)定的、無法盜取也不會丟失的ID。這些生物信息ID和傳統(tǒng)身份符號相比,有很多優(yōu)勢:
比如,獨一無二,專屬
比如,隨身攜帶,方便
比如,難以復(fù)制,安全
也正因此,人類社會在從符號ID到生物ID的路上一直在默默前行。DNA檢驗在醫(yī)療、司法領(lǐng)域的應(yīng)用大家早已熟知;指紋識別在考勤、門鎖、手機上也已經(jīng)普及;人臉識別近幾年在支付、安防、金融等領(lǐng)域頗有建樹。生物識別方式如此眾多,我們?yōu)槭裁葱枰暭y識別?
加上聲紋識別這點料,語音交互才算真智能
3 月 21 日,獵豹發(fā)布了小豹智能音箱; 3 月 22 日,阿里云實驗室發(fā)布了新一代天貓精靈;谷歌還曾在其官方博客表示,上市 3 個月谷歌Home銷量突破 673 萬臺。根據(jù)市場分析公司Canalys預(yù)測,到 2018 年底智能音箱全球出貨量將達到 5630 萬臺。
毫無疑問,語音交互日趨成為人機交互的重要入口。語言自帶指令屬性,是人類最自然、最日常的溝通方式。從通過按鍵、觸控與機器交互過渡到語音人機交互,無疑是一大飛躍。但只能識別指令內(nèi)容是不夠的,真正的智能交互產(chǎn)生的基礎(chǔ)是機器能識別、區(qū)分人的身份,能像朋友一樣根據(jù)你的身份鑒別權(quán)限和提供個性化的服務(wù),否則語音交互就只是高配版遙控器,本質(zhì)還是單向的命令輸出工具——要實現(xiàn)真正智能的交互就需要加上聲紋識別這點料。
舉個例子,智能音箱愛好者估計都遇到過類似的麻煩:音箱放在客廳,電視響起,偶然播出喚醒詞,音箱分辨不出這并非你的指令,于是乖巧地做出反應(yīng)……類似的,在實際的車載場景中,智能后視鏡也很容易被乘客無意的聊天或廣播中偶然出現(xiàn)的喚醒詞喚醒。只能識別口令,無法區(qū)分說話人的身份,不會判斷什么人的話該聽,什么人的話不該聽,讓本屬于你的東西缺乏權(quán)限管控,更不能提供個性化服務(wù),是目前市面上許多智能語音交互產(chǎn)品的通病,而病因則在于,缺了通過聲紋識別技術(shù)辨別說話人這劑良方。
真正智能的人機交互,應(yīng)該在你喚醒的同時,就能通過聲紋識別技術(shù)知道你是你,并針對性地對口令做出反應(yīng)。比如,智能后視鏡能對廣播中的喚醒詞充耳不聞,只聽你的口令;智能音箱除了能只被家里特定成員喚醒外,還能根據(jù)不同家庭成員的習慣和喜好進行個性化推薦,早上給爸爸播新聞,晚上給媽媽放爵士,周末給寶寶放兒歌,閑時給爺爺奶奶播戲曲,讓所有人只需一句口令,就能聽到最合適的推薦,有如量身定制一般。
隱蔽+隨機+算法守衛(wèi),讓聲紋比安全更安全
既然是作為像身份證一樣,用來證明身份的ID,聲紋的安全性就不得不考量。比如,如果聲音被不法分子盜錄,豈不等于永久性地丟了通往世界的鑰匙,還不能換鎖?
首先,相對于人臉、步態(tài)等時刻暴露在外的生物特征,聲紋具有隱蔽性。比如,從公司到家這一路,你不知道會經(jīng)過多少攝像頭,人臉信息被錄入了幾次,但最起碼你還可以選擇不說話。
即使不法分子費盡心機盜錄了你的聲音,那也不怕。就像人臉識別會通過搖頭、眨眼等動作證明你是真人而非照片、模具一樣,聲紋識別可以通過隨機改變口令內(nèi)容來進行檢測。想想,數(shù)字、長句、英文,所有語言隨機組合,驗證方式可比簡單的搖頭、眨眼豐富多了。即使犯罪分子提前盜錄了你的聲音信息,面對隨機的、臨時的驗證口令,也毫用處。
除此之外,還有算法守衛(wèi)。
正常的聲紋識別流程是:人說話→聲紋系統(tǒng)檢測到聲音并進行識別;
錄音攻擊的聲紋識別流程是:人說話→盜錄→播放→聲紋系統(tǒng)檢測到聲音并進行識別。
在這個過程中,錄音會把人說話的聲音信號轉(zhuǎn)換成電信號保存,這個編碼的過程會導(dǎo)致部分聲紋特征損失;播放又會將保存的電信號轉(zhuǎn)化為聲音信號,這個過程也會導(dǎo)致部分聲紋特征的損失,再加上不同播放器材頻率響應(yīng)特征的影響,此時播放出來的聲音和你本身說話的聲音已經(jīng)不是同一個聲音。兩者聲紋特征的微妙差異人耳難以聽辨,但經(jīng)過深度學習的機器卻能準確識別,讓你失聲不“失身”。
生來要說話,我們需要更人性的交互
為了與世界交互,我們創(chuàng)造了許多操作,比如設(shè)置賬號密碼和敲擊鍵盤……雖然久經(jīng)演練的我們早已習慣,但不得不承認這些操作是違反人類習慣的,賬號密碼容易忘,鍵盤敲久了手會疼就是明證。對于另外一些群體,比如老年人、身體有殘疾的人或缺乏受教育機會的人,這些違反人類習慣、需要后天學習和大量演練的操作,就是他們通往世界的阻礙。
我們天然需要更自然、更簡單、更人性的交互方式,而聲紋的優(yōu)勢在于,不區(qū)分年齡、學歷和生活習慣,我們生來要說話——我們需要聲紋來解決許多困擾我們已久的事情,照顧更多被忽略已久的群體。
我們可以想象這些場景:
從此無需帶鑰匙,也不會出現(xiàn)把自己反鎖在門外,一句“芝麻開門”就能證明你是這房子的主人;
從此也不用記密碼,不論是簡單的手繪圖案還是字母數(shù)字下劃線這種反人類的組合,統(tǒng)統(tǒng)變成“過去”的事情;
對于有視力障礙的老人和盲人,不用害怕看不清屏幕或找不到攝像頭的位置,對著空氣說句話事兒就辦成了,和讓家人給自己端杯水一樣簡單;
無需動身,坐在原地對著麥克風說句話就識別身份,讓老年人足不出戶,在家一個電話就能領(lǐng)取社保,讓奔波的年輕人歇歇腳,遠程異地辦理各種業(yè)務(wù),豈不比需要站在特定位置刷證件、按指紋方便得多?
我們生來要說話,如果能讓聲音成為我們不變的、隨身攜帶的、不會忘記的、難以被竊取的ID,那么在通往世界的路上,所有需要證明你是你的場景,都變成了“一句話的事兒”。
AI的發(fā)展得益于算法、算法和大數(shù)據(jù)的進步。作為全球領(lǐng)先的聲紋識別和身份安全解決方案人工智能公司,SpeakIn自信地告訴大家,說話作為人類最高頻的交互方式,語音數(shù)據(jù)沉淀潛力無限;隨著算法升級,深入場景,未來聲紋識別會讓生活更智能、更安全、更人性。
免責聲明:本文為廠商推廣稿件,企業(yè)發(fā)布本文的目的在于推廣其產(chǎn)品或服務(wù),站長之家發(fā)布此文僅為傳遞信息,不代表站長之家贊同其觀點,不對對內(nèi)容真實性負責,僅供用戶參考之用,不構(gòu)成任何投資、使用等行為的建議。請讀者使用之前核實真實性,以及可能存在的風險,任何后果均由讀者自行承擔。