AI已經(jīng)學(xué)會(huì)猜密碼了?如果真是這樣,你還敢用“6個(gè)0”“6個(gè)8”這樣簡(jiǎn)單的密碼嗎?網(wǎng)絡(luò)還有安全可言嗎?
一些事之所以聳人聽(tīng)聞,是因?yàn)椴幻魉。為此,科技日(qǐng)?bào)記者帶著消息請(qǐng)教了中國(guó)科學(xué)院軟件研究所可信計(jì)算與信息保障實(shí)驗(yàn)室主任張振峰,請(qǐng)他詳細(xì)講講。
破解的是口令不是密碼
講正題前,插個(gè)花絮。單口相聲大王劉寶瑞存世的經(jīng)典作品里有個(gè)《黃半仙》,這位“半仙”捻動(dòng)須髯,算得出村里張媽的戒指丟在哪,算得出艷陽(yáng)天的后晌準(zhǔn)下雨……卻不是因?yàn)樗?ldquo;仙”,而是他匯總、分析小細(xì)節(jié),就能得出正確結(jié)論。這和AI的深度學(xué)習(xí)如出一轍,也就是說(shuō),美國(guó)這位“艾(AI)半仙”有25%的算中率,仰仗的是大量的基礎(chǔ)數(shù)據(jù),分析學(xué)習(xí)后,才能進(jìn)行猜測(cè),而不是因?yàn)樗?ldquo;天賦異稟”。
那么,問(wèn)題來(lái)了,用于AI深度學(xué)習(xí)的基礎(chǔ)數(shù)據(jù)庫(kù)從哪兒來(lái)?這個(gè)技術(shù)會(huì)不會(huì)造成網(wǎng)絡(luò)安全危機(jī)呢?
“先糾正一個(gè)概念,”張振峰說(shuō),“這則消息里說(shuō)的密碼,更準(zhǔn)確地說(shuō)是口令(password),而不是學(xué)術(shù)上密碼學(xué)(cryptology)中研究的密碼。”
它們最直觀的區(qū)別是“字符串長(zhǎng)度”,口令一般十幾個(gè)字符,字符組成的所有可能可以被“窮舉”,而一代RSA密碼算法就有1024位,“窮舉”在計(jì)算上是不可行的。打個(gè)不太恰當(dāng)?shù)谋扔,攻破口令要踹開(kāi)的是一扇門(mén),而攻破密碼是要征服一座迷宮。
“現(xiàn)在還沒(méi)有研究表明AI能破解密碼算法。”張振峰說(shuō),“密碼”被業(yè)界認(rèn)為是互聯(lián)網(wǎng)的基礎(chǔ)設(shè)施,一個(gè)國(guó)際標(biāo)準(zhǔn)的商用密碼是非常復(fù)雜的,里面包含復(fù)雜的密碼算法,凝結(jié)了研究人員多年的智慧,很難通過(guò)學(xué)習(xí)基礎(chǔ)數(shù)據(jù)倒推其中規(guī)律,進(jìn)而破解。張振峰所從事的正是密碼學(xué)領(lǐng)域的研究。
AI領(lǐng)軍人物、深圳先進(jìn)技術(shù)研究院副院長(zhǎng)湯曉鷗表示,AI很長(zhǎng)時(shí)間以內(nèi)是無(wú)法超越人類智慧的,也就是說(shuō)它無(wú)法像人類一樣進(jìn)行創(chuàng)造性的腦力勞動(dòng)。盡管這樣的研究也在進(jìn)行中,例如“谷歌大腦”項(xiàng)目,正是要開(kāi)發(fā)出一款模擬人腦的軟件。
猜對(duì)25%是怎樣的成績(jī)
這次不少報(bào)道標(biāo)題都提到了“25%”的準(zhǔn)確率,例如“準(zhǔn)確率居然達(dá)到25%”“準(zhǔn)確率逆天的25%”,潛臺(tái)詞是“25%”是個(gè)高不可攀的準(zhǔn)確率,那事實(shí)是不是這樣呢?
張振峰說(shuō):“AI獨(dú)立猜測(cè)成功的比例不到12%,破解軟件HashCat可以做到將近23%,這個(gè)25%是AI和HashCat兩種方法相結(jié)合得到的數(shù)字。”
此外,單從準(zhǔn)確率是“25%”判斷它是否有效果是片面的?茖W(xué)研究的做法是,以準(zhǔn)確率為縱軸、實(shí)驗(yàn)攻擊次數(shù)為橫軸,得出不同攻擊次數(shù)所對(duì)應(yīng)準(zhǔn)確率的曲線,“從曲線走向來(lái)看,準(zhǔn)確率攀升幅度越大,那么口令猜測(cè)的成績(jī)?cè)胶谩?rdquo;
可見(jiàn),25%既不說(shuō)明AI嘗試4次就能猜對(duì)一次口令,也不說(shuō)明它破解了1/4人群的口令,這個(gè)數(shù)字是AI創(chuàng)造出的新口令與它未知的另一部分舊口令比對(duì)之后,匹配的概率。
“25%說(shuō)明AI在一定程度上提高了傳統(tǒng)工具猜測(cè)密碼的能力,對(duì)于口令強(qiáng)度測(cè)試具有積極作用。”張振峰說(shuō)。
360網(wǎng)絡(luò)攻防實(shí)驗(yàn)室負(fù)責(zé)人林偉告也持類似觀點(diǎn),他認(rèn)為該研究可以加速破解口令的人工編程進(jìn)程,或者用來(lái)測(cè)試口令的強(qiáng)度。
可供AI學(xué)習(xí)的數(shù)據(jù)猛增引擔(dān)憂
那么AI破解口令,是怎么做到的呢?
原消息中提到,團(tuán)隊(duì)讓一個(gè)人工智能程序利用數(shù)千萬(wàn)個(gè)泄露的密碼來(lái)學(xué)習(xí)如何生成新密碼。
數(shù)據(jù)顯示,2016年,全球已知的用戶數(shù)據(jù)泄露有40億之多。2017年,這個(gè)數(shù)據(jù)可能更多。“猛增有可能是以前的存量,因?yàn)楹芏喾⻊?wù)器的數(shù)據(jù)泄露,自己并不知情,”張振峰說(shuō),“或者即便知道,自己也不愿意主動(dòng)公布。”
“也有可能是攻擊手段越來(lái)越多導(dǎo)致的。”張振峰說(shuō)。名噪一時(shí)的“永恒之藍(lán)”背后,是網(wǎng)絡(luò)攻擊武器庫(kù)的泄露。有消息稱,這些攻擊武器是在明碼標(biāo)價(jià)銷(xiāo)售的。黑客獲得更多的尖端攻擊手段,可能是數(shù)據(jù)泄露猛增的另一個(gè)原因。
“暗網(wǎng)上有很多賣(mài)數(shù)據(jù)的,但并不一定是剛剛被泄露的,有可能有時(shí)間差,”張振峰說(shuō),“比如,有可能是5年前拿到的數(shù)據(jù),因?yàn)橥当I的數(shù)據(jù)也不會(huì)是我們認(rèn)為的‘明碼’,而是服務(wù)器變換處理過(guò)的,還需要解密。”
無(wú)論何種原因,值得擔(dān)憂的是,“艾半仙”能用來(lái)學(xué)習(xí)的基礎(chǔ)數(shù)據(jù)越來(lái)越多。
“半仙”是如何修煉的
破解口令,目前大致有暴力攻擊、啟發(fā)式攻擊、概率猜測(cè)等方式。
張振峰一一解釋:暴力攻擊是最原始的方法,把所有的可能都試一遍,計(jì)算機(jī)的計(jì)算能力越強(qiáng)大,破解越快;啟發(fā)式攻擊,也叫字典攻擊,是根據(jù)泄露的口令進(jìn)行分析,把規(guī)律“編寫(xiě)”成“字典”,并結(jié)合矯正規(guī)則進(jìn)行猜測(cè),用于攻擊的“字典”不同,攻擊的方式就不同,同等硬件條件下,字典越好,越快破解;概率猜測(cè)基于人們?cè)O(shè)置密碼時(shí),有著和自然語(yǔ)言類似的分布特征,通過(guò)數(shù)據(jù)集計(jì)算其概率分布,有些字符組合用的頻率高,猜測(cè)就準(zhǔn)。諸如國(guó)內(nèi)網(wǎng)民最常用的25組密碼,密碼管理公司Keeper Security公布的2016年最常用的25個(gè)密碼等就是這一類猜測(cè)依據(jù)的“冰山一角”。
AI破解口令是深度學(xué)習(xí)的一種應(yīng)用,“它屬于一種啟發(fā)式方法,基于數(shù)據(jù)集來(lái)猜測(cè)口令,”張振峰說(shuō),“看起來(lái)還沒(méi)有得到實(shí)戰(zhàn)驗(yàn)證,只要用戶在數(shù)據(jù)泄露之后及時(shí)修改自己的口令。”
那么,AI是如何進(jìn)行口令猜測(cè)的呢?
有一個(gè)形象的比喻能說(shuō)明這個(gè)過(guò)程。AI神經(jīng)網(wǎng)絡(luò)由大量“感知機(jī)”相互連接構(gòu)成。感知機(jī)類似于生物神經(jīng)系統(tǒng)中的神經(jīng)元。它并非生來(lái)就具備強(qiáng)大的功能,而且需要訓(xùn)練才能掌握技能。例如希望神經(jīng)網(wǎng)絡(luò)通過(guò)西瓜的外形判斷瓜的甜度,一開(kāi)始AI并不懂如何去判斷,這時(shí)就需要分別把西瓜的外形和對(duì)應(yīng)的甜度輸入神經(jīng)網(wǎng)絡(luò),訓(xùn)練它學(xué)習(xí)兩者的對(duì)應(yīng)關(guān)系。訓(xùn)練過(guò)程實(shí)際上是通過(guò)學(xué)習(xí)數(shù)據(jù)來(lái)調(diào)整每一個(gè)感知機(jī)參數(shù)的過(guò)程。
神經(jīng)網(wǎng)絡(luò)讀取數(shù)據(jù)樣本后,感知機(jī)們會(huì)先根據(jù)現(xiàn)有模型參數(shù)進(jìn)行計(jì)算,然后把輸出的值與真實(shí)值進(jìn)行比較,再將兩者的差距反饋回去,以調(diào)整參數(shù)。經(jīng)過(guò)反復(fù)多次“計(jì)算—比對(duì)—反饋—調(diào)整”的循環(huán)后,AI就能判斷個(gè)八九不離十了。
但是,實(shí)際中,很多時(shí)候訓(xùn)練數(shù)據(jù)的真實(shí)結(jié)果信息難以獲得——比如不能把每個(gè)瓜切開(kāi)嘗嘗。這就用到了消息中美國(guó)史蒂文斯理工學(xué)院團(tuán)隊(duì)利用的“生成對(duì)抗網(wǎng)絡(luò)”,巧妙避開(kāi)“無(wú)法實(shí)時(shí)核實(shí)密碼”這個(gè)問(wèn)題。簡(jiǎn)單地說(shuō),研究團(tuán)隊(duì)設(shè)計(jì)出兩個(gè)對(duì)抗的系統(tǒng)互相修煉,把獲得數(shù)據(jù)一分為二,一部分用于生產(chǎn),另一部分用于核驗(yàn)。通過(guò)訓(xùn)練,一個(gè)系統(tǒng)就像做贗品的畫(huà)院學(xué)生練成了畫(huà)家,另一個(gè)系統(tǒng)用“核驗(yàn)”數(shù)據(jù)充當(dāng)“鑒定師”。
“但這些的基礎(chǔ)都是源自已有的數(shù)據(jù),這些數(shù)據(jù)是離線的,該消息中所用數(shù)據(jù)來(lái)自于2010年泄露的數(shù)據(jù)集合,其口令是明碼存儲(chǔ)在服務(wù)器上,而且長(zhǎng)度不超過(guò)10個(gè)字符。”張振峰說(shuō)。
共0條 [查看全部] 網(wǎng)友評(píng)論