0411-39943997

客服中心

售前咨詢
售前咨詢

電話咨詢：0411-39943997

手機(jī)咨詢:15840979770
手機(jī)咨詢:13889672791

網(wǎng)絡(luò)營(yíng)銷 >更多

網(wǎng)站優(yōu)化

網(wǎng)站SEO優(yōu)化

百度竟價(jià)

google竟價(jià)

SEO優(yōu)化報(bào)價(jià)

您現(xiàn)在的位置：首頁(yè) > 新聞中心 > 常見問題

大連網(wǎng)站建設(shè)_使用PHP對(duì)網(wǎng)站驗(yàn)證碼進(jìn)行破解

作者：billionnet 發(fā)布于:2011/12/19 15:33:44 點(diǎn)擊量：

大連仟億科技友情提供：http://www.billionnet.net

使用PHP對(duì)網(wǎng)站驗(yàn)證碼進(jìn)行破解

驗(yàn)證碼的功能一般是防止使用程序惡意注冊(cè)、暴力破解或批量發(fā)帖而設(shè)置的。所謂驗(yàn)證碼，就是將一串隨機(jī)產(chǎn)生的數(shù)字或符號(hào)，生成一幅圖片，圖片里加上一些干擾象素（防止OCR），由用戶肉眼識(shí)別其中的驗(yàn)證碼信息，輸入表單提交網(wǎng)站驗(yàn)證，驗(yàn)證成功后才能使用某項(xiàng)功能。學(xué)習(xí)驗(yàn)證碼的破解/識(shí)別技術(shù)，不僅可以知道驗(yàn)證碼的原理，而且可以讓你知道怎樣才能防止驗(yàn)證碼被破解。

最常見的驗(yàn)證碼主要有以下幾種：

四位數(shù)字，隨機(jī)的一數(shù)字字符串，最原始的驗(yàn)證碼，驗(yàn)證作用幾乎為零。
隨機(jī)數(shù)字圖片驗(yàn)證碼。圖片上的字符比較中規(guī)中矩，有的可能加入一些隨機(jī)干擾素，還有一些是隨機(jī)字符顏色，驗(yàn)證作用比上一個(gè)好。沒有基本圖形圖像學(xué)知識(shí)的人，不可破！
各種圖片格式的隨機(jī)數(shù)字+隨機(jī)大寫英文字母+隨機(jī)干擾像素+隨機(jī)位置。
漢字是注冊(cè)目前最新的驗(yàn)證碼，隨機(jī)生成，打起來更難了,影響用戶體驗(yàn)，所以，一般應(yīng)用的比較少。

為簡(jiǎn)單起見，破解說明主要針對(duì)是第2種類型的，先來看看網(wǎng)上常見的這種驗(yàn)證碼的圖片：

第一種，最容易，圖片背景和數(shù)字都使用相同的顏色，字符規(guī)整，字符位置統(tǒng)一。
第二種，看似不容易，其實(shí)仔細(xì)研究會(huì)發(fā)現(xiàn)其規(guī)則，背景色和干擾素?zé)o論怎么變化，驗(yàn)證字符字符規(guī)整，顏色相同，所以排除干擾素非常容易，只要是非字符色素全部排除即可。
第三種，看似更復(fù)雜，處理上面提到背景色和干擾素一直變化外，驗(yàn)證字符的顏色也在變化，并且各個(gè)字符的顏色也各不相同。
第四種，除了第三個(gè)圖片上提到的特征外，又在文字上加了兩條直線干擾率，看似困難其實(shí)，很容易去掉。

驗(yàn)證碼識(shí)別一般分為以下幾個(gè)步驟：

取出字模 識(shí)別驗(yàn)證碼，畢竟不是專業(yè)的OCR識(shí)別，并且，由于各個(gè)網(wǎng)站的驗(yàn)證碼各不相同，所以，最常見的方法就是就是建立這個(gè)驗(yàn)證碼的特征碼庫(kù)。去字模時(shí)，我們需要多下載幾張圖片，使這些圖片中，包括所有的字符，我們這里的字母只有圖片，所以，只要收集到包括0-9的圖片即可。
二值化 二值化就是把圖片上的驗(yàn)證數(shù)字上每個(gè)象素用一種數(shù)字表示1，其他部分用0表示。這樣就可以計(jì)算出每個(gè)數(shù)字字模，記錄下這些字模來，當(dāng)作key即可。
計(jì)算特征 把要識(shí)別的圖片，進(jìn)行二值化，得到圖片特征。
對(duì)照樣本 把步驟3種的圖片特征碼和驗(yàn)證碼的字模進(jìn)行對(duì)比，得到驗(yàn)證圖片上的數(shù)字。

使用目前這種方法，對(duì)驗(yàn)證碼的識(shí)別基本上可以做到100%。

通過以上步驟，您可能說了，并沒有發(fā)現(xiàn)如何取出干擾素啊！其實(shí)取出干擾素的方法很簡(jiǎn)單，干擾素的一個(gè)重要特征是，不能影響驗(yàn)證碼的顯示效果，所以制作干擾素時(shí)它的RGB可能低于或者高于某個(gè)特定值，比如我給的例子中的圖片，干擾素的RGB各項(xiàng)值是不會(huì)超過125的，所以，這樣我們就很容易去掉干擾素了。

簡(jiǎn)單的驗(yàn)證碼只有數(shù)字和字母組成，格式統(tǒng)一，每次出現(xiàn)位置固定。下面繼續(xù)深入研究識(shí)別驗(yàn)證碼，這次需要識(shí)別的目標(biāo)是：驗(yàn)證碼有字符和數(shù)字組成，驗(yàn)證碼存在旋轉(zhuǎn)（可能左右都旋轉(zhuǎn)），位置不固定，存在字符與字符之間的粘連，且驗(yàn)證碼有更強(qiáng)的干擾素。

我們以下圖為例進(jìn)行講解。

第一步：二值化。把驗(yàn)證碼的部分用 1 表示，背景部分用 0 表示出來，識(shí)別方法很簡(jiǎn)單，我們打印出驗(yàn)證碼整張圖片的 RGB ，然后分析其規(guī)律即可，通過 RGB 碼，我們很容易分辨出上面這張圖片的 R 值大于 120 ， G 和 B 的值小于 80 ，所以依據(jù)這個(gè)規(guī)則我們很容易把上面的圖片二值化。

再來看看上面的第三種驗(yàn)證碼圖片

剛看上去，感覺很復(fù)雜。驗(yàn)證碼的圖片每次背景色都不相同，且不是單色，各個(gè)驗(yàn)證碼數(shù)字的顏色每次也各不相同。貌似很難二值化，其實(shí)我們打印出其 RGB 值很容易就發(fā)現(xiàn)。無論驗(yàn)證數(shù)字顏色如何變化，該數(shù)字的 RGB 值總有一個(gè)值小于 125 ，所以通過如下判斷 $rgbarray['red'] < 125 || $rgbarray['green']<125|| $rgbarray['blue'] < 125 我們就很容易分辨出哪里是數(shù)字，哪里是背景。

我們能夠找到這些規(guī)律的原因是，在制作驗(yàn)證碼的干擾素時(shí)，為了使干擾素不影響數(shù)字的顯示效果，必須使用干擾素的 RGB 和數(shù)字 RGB 相互獨(dú)立，互不干擾。只要懂得這個(gè)規(guī)律，我們就很容易實(shí)現(xiàn)二值化。

我們找到的 120 ， 80 ， 125 等閾值，可能和實(shí)際的 RGB 有出入，所以，有時(shí)二值化后，會(huì)有部分地方出現(xiàn) 1 ，對(duì)于驗(yàn)證碼上固定位置顯示數(shù)字，這種干擾沒有太大意義。但是對(duì)于驗(yàn)證碼位置不確定的圖片來說，在我們切割字符時(shí)，很可能造成干擾。所以，在二值化后要進(jìn)行去噪處理。

第二部：去噪處理。去噪的原理很簡(jiǎn)單，就是把孤立的有效的值去掉，如果噪點(diǎn)比較高，要求的效率也比較高的話，這里面也有很多工作要做。幸好這里我們不要求這么高深，我們使用最簡(jiǎn)單的方法就可以，如果一個(gè)點(diǎn)為 1 則判斷這個(gè)點(diǎn)的上下左右上左上右下左下右 8 個(gè)方位上數(shù)字是否為 1 ，如果不為 1 ，就認(rèn)為是一個(gè)燥點(diǎn)，直接設(shè)置為 1 即可。

如上圖所示，我們使用此方法很容易發(fā)現(xiàn)紅色方框部分的 1 為燥點(diǎn)，直接設(shè)置為 1 即可。在判斷時(shí)我們使用了一個(gè)技巧，有時(shí)候的噪點(diǎn)可能是兩個(gè)連續(xù)的 1 ，所以我們計(jì)算這個(gè)點(diǎn)的 8 個(gè)方向上的值之和，最后我們判斷他們的和是否小于特定的閾值。

第三部：切割字符。切割字符的方法有很多種，這里采用最簡(jiǎn)單的一種，先垂直方向切割成為字符，然后在水平方向去掉多于的 0000 ，如下圖

第一步切割紅線部分，第二步切割藍(lán)線部分，這樣就可以得到獨(dú)立的字符了。但是像下面這種情況

按上面的方法會(huì)把 dw 字符切割成一個(gè)字符，這是錯(cuò)誤的切割，所以這里我們涉及到粘連字符的切割。

第四步：粘連字符切割。制作驗(yàn)證碼時(shí)，規(guī)則字符的粘連很容易分割開，如果字符本身有縮放，變形就很難處理，經(jīng)過分析，我們可以發(fā)現(xiàn)，上面的字符粘連屬于很簡(jiǎn)單的方式，只是規(guī)則字符的粘連，所以處理這種情況，我們也使用很簡(jiǎn)單的處理方式。當(dāng)完成分割操作后，我們不能馬上確定分割的部分就為一個(gè)字符，要進(jìn)行驗(yàn)證，驗(yàn)證的關(guān)鍵因素就是，切割下來的字符的寬是否大于閾值，這個(gè)閾值的取舍標(biāo)準(zhǔn)是，一個(gè)字符無論怎么旋轉(zhuǎn)變形都不會(huì)大于這個(gè)閾值，所以，如果我們切割的塊大于這個(gè)閾值，就可以認(rèn)為這是一個(gè)粘連字符；如果大于兩個(gè)閾值之和，就認(rèn)為是三個(gè)字符粘連，以此類推。知道這個(gè) 規(guī)則后，切割粘連字符也就很簡(jiǎn)單了。如果我們發(fā)現(xiàn)是粘連字符塊，直接平分這個(gè)塊為兩個(gè)或者多個(gè)新的塊就可以。當(dāng)然為了更好的還原字符，我一般都采用平分 +1 ， -1 對(duì)字符塊的部分進(jìn)行適當(dāng)?shù)难a(bǔ)充。

第五步：匹配字符。對(duì)于旋轉(zhuǎn)字符的特征碼建立，有很多種方法，這里就不做深入研究了。我這里使用的最簡(jiǎn)單的方式，為所有字符的所有情況建立匹配庫(kù)，所以在我提供的代碼種增加了 study 操作，其目的就是，先有人手工識(shí)別圖片的驗(yàn)證碼，然后通過 study 方法，寫入特征碼庫(kù)。這樣寫入的圖片數(shù)據(jù)越多，驗(yàn)證識(shí)別的準(zhǔn)確行也就越高。

經(jīng)過以上步驟，我們基本上可以識(shí)別現(xiàn)在互聯(lián)網(wǎng)上大部分的驗(yàn)證碼，這里我們都是使用的最簡(jiǎn)單的方法，沒有使用任何 OCR 知識(shí)。

另外制作驗(yàn)證碼的一些建議：

對(duì)于識(shí)別驗(yàn)證碼的程序來說，最難得部分是驗(yàn)證字符的切割和特征碼的建立，而國(guó)內(nèi)很多程序員只做驗(yàn)證碼時(shí)，總是喜歡在驗(yàn)證碼加很多干擾素，干擾線，影響效果不說，還達(dá)不到很好的效果；所以，要想使自己驗(yàn)證碼難于本識(shí)別，只做下面兩點(diǎn)就夠了

字符粘連，最好所有的字符都有粘連的部分；
不要使用規(guī)格字符，驗(yàn)證碼的各個(gè)部分使用不同比例的縮放或者旋轉(zhuǎn)。

只要做到這兩點(diǎn)，或者這兩點(diǎn)的變形，識(shí)別程序就很難識(shí)別。具體參考Google的驗(yàn)證碼即可

大連仟億科技、大連網(wǎng)站建設(shè)、大連網(wǎng)站制作、大連網(wǎng)頁(yè)制作、大連網(wǎng)頁(yè)設(shè)計(jì)、大連網(wǎng)站設(shè)計(jì)、大連網(wǎng)站推廣、大連軟件開發(fā)、大連網(wǎng)絡(luò)公司

本文地址：http://www.achat-haute-saone.com/c/454.html

分享到：

【刷新頁(yè)面】【加入收藏】【打印此文】【關(guān)閉窗口】

Copyright@ 2011-2016 版權(quán)所有：大連千億科技有限公司遼ICP備11013762-3號(hào) google網(wǎng)站地圖百度網(wǎng)站地圖網(wǎng)站地圖

公司地址：大連市沙河口區(qū)中山路692號(hào)辰熙星海國(guó)際2317 客服電話：0411-39943997 QQ：2088827823 37482752

法律聲明：未經(jīng)許可，任何模仿本站模板、轉(zhuǎn)載本站內(nèi)容等行為者，本站保留追究其法律責(zé)任的權(quán)利！隱私權(quán)政策聲明

日韩精品免费在线_含咬她的花蒂高潮h|HD中文字幕在线播放,国产精品久久久久久久久久妇女,精品国产乱码久久久久久蜜臀,风流少妇被粗大爽

大連網(wǎng)站建設(shè)_使用PHP對(duì)網(wǎng)站驗(yàn)證碼進(jìn)行破解

作者：billionnet 發(fā)布于:2011/12/19 15:33:44 點(diǎn)擊量：