MD5即Message-Digest Algorithm 5(信息-摘要算法 5),是網(wǎng)絡(luò)上廣泛使用的散列(Hash)算法之一,可以實(shí)現(xiàn)將任意長度的數(shù)值映射為固定長度的較小數(shù)值。
MD5是一種常用的單向Hash算法。它被廣泛用于以下幾個用途:
1、檢查數(shù)據(jù)是否一致。將兩地存儲的數(shù)據(jù)進(jìn)行哈希,比較結(jié)果,如果結(jié)果一致就無需再進(jìn)行數(shù)據(jù)比對。這是利用了其“抵抗沖突”(collision- resistant)的能力,兩個不同的數(shù)據(jù),其哈希值只有很小的幾率一致。相當(dāng)多數(shù)據(jù)服務(wù),尤其是網(wǎng)盤服務(wù),利用類似的做法來檢測重復(fù)數(shù)據(jù),避免重復(fù)上傳。
2、存儲用戶密碼。將密碼哈希后的結(jié)果存儲在數(shù)據(jù)庫中,以做密碼匹配。這是利用了其做為單向哈希的特點(diǎn),從計算后的哈希值不能得到密碼。
3、校驗(yàn)數(shù)據(jù)正確性。將數(shù)據(jù)和數(shù)據(jù)哈希后的結(jié)果一并傳輸,用于檢驗(yàn)傳輸過程中數(shù)據(jù)是否有損壞。這是利用了很難找到兩個不同的數(shù)據(jù),其哈希結(jié)果一致的特點(diǎn)。
下面我們將說明為什么對于上面三種用途, MD5都不適用。
第一個用途尤其可怕。這個用途的最大的問題是,MD5在現(xiàn)實(shí)中已經(jīng)被發(fā)現(xiàn)有相當(dāng)多的數(shù)據(jù)都可能導(dǎo)致沖突。舉例而言,如下兩段數(shù)據(jù)的MD5哈希值就是完全一樣的。
數(shù)據(jù) 1
4d c9 68 ff 0e e3 5c 20 95 72 d4 77 7b 72 15 87
d3 6f a7 b2 1b dc 56 b7 4a 3d c0 78 3e 7b 95 18
af bf a2 00 a8 28 4b f3 6e 8e 4b 55 b3 5f 42 75
93 d8 49 67 6d a0 d1 55 5d 83 60 fb 5f 07 fe a2數(shù)據(jù) 2
4d c9 68 ff 0e e3 5c 20 95 72 d4 77 7b 72 15 87
d3 6f a7 b2 1b dc 56 b7 4a 3d c0 78 3e 7b 95 18
af bf a2 02 a8 28 4b f3 6e 8e 4b 55 b3 5f 42 75
93 d8 49 67 6d a0 d1 d5 5d 83 60 fb 5f 07 fe a2輸出相同的MD5 哈希
008ee33a9d58b51cfeb425b0959121c9
這意味著,如果用戶提供數(shù)據(jù) 1,服務(wù)器已經(jīng)存儲數(shù)據(jù) 2。通過簡單的MD5哈希方式檢查重復(fù),服務(wù)器上為用戶保存的數(shù)據(jù)就是2。 接下來發(fā)生的事情大家都知道了,就是用戶數(shù)據(jù)丟了!
第二個用途很容易遭到rainbow table攻擊,和明文存儲密碼的實(shí)質(zhì)區(qū)別不大。更詳細(xì)的分析可以察看這篇文章。
第三個用途里一般會在需要哈希的數(shù)據(jù)中混入某些秘密,也就是計算公式為md5(secret key + data)。 但這樣并不適合用于驗(yàn)證數(shù)據(jù)的完整性。這是因?yàn)?,從理論上上來說,如果知道m(xù)d5(secret key +X),即使不知道secret key的內(nèi)容, 仍然可能通過對X的分析,計算得到md5(secret key +Y),從而將X成功的替換成Y,導(dǎo)致接收方仍然認(rèn)為數(shù)據(jù)是正確的。