近期收到一些開(kāi)發(fā)者反饋,為什么網(wǎng)站或智能小法式資源的內(nèi)容很是優(yōu)質(zhì),可是沒(méi)有查詢到百度蜘蛛抓取紀(jì)錄,或在百度搜索中沒(méi)有獲得收錄和展現(xiàn)?
在手藝剖析后發(fā)現(xiàn),有些網(wǎng)站或智能小法式存在封禁百度蜘蛛的情形,導(dǎo)致百度蜘蛛無(wú)法正常抓取,以是無(wú)法在百度搜索中正常收錄和展現(xiàn),或在搜索效果中的摘要展現(xiàn)為“存在robots封禁”字樣。
為了讓寬大開(kāi)發(fā)者的網(wǎng)站或小法式,在百度搜索中獲得正常的收錄和展現(xiàn),建議開(kāi)發(fā)者實(shí)時(shí)憑證以下內(nèi)容自查,掃除封禁問(wèn)題,并通過(guò)鏈接提交工具自動(dòng)提交給我們。
常見(jiàn)的封禁行為包羅robots封禁、封禁百度UA、封禁百度IP等。
若何驗(yàn)證網(wǎng)站和智能小法式是否存在封禁百度蜘蛛的情形?
1、首先, 審查robots.txt文件,是否存在封禁紀(jì)錄。(一樣平常robots.txt文件放置在網(wǎng)站根目錄下。)
【建議方案】掃除robots封禁:robots封禁情形,請(qǐng)檢查robots.txt文件,實(shí)時(shí)修改。
robots文件說(shuō)明:https://ziyuan.baidu.com/college/articleinfo?id=1516
2、robots文件無(wú)異常,進(jìn)一步排查是否存在封禁百度UA情形;
方案一:執(zhí)行 curl --head --user-agent 'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)' --request GET 'xxxxxxx'
注:正常返回碼是200,其他情形為異常。
xxxxxxx為網(wǎng)站域名,如:http://abc.com.cn。
準(zhǔn)確識(shí)別和獲取百度蜘蛛,https://ziyuan.baidu.com/college/articleinfo?id=2855
方案二:變換瀏覽器UA驗(yàn)證;
【建議方案】掃除百度UA封禁:審查網(wǎng)站反爬蟲(chóng)戰(zhàn)略,舉行戰(zhàn)略調(diào)整?;蜥槍?duì)百度UA添加戰(zhàn)略白名單。
3、以上驗(yàn)證均無(wú)異常,最后進(jìn)一步排查是否存在IP級(jí)此外封禁;
常見(jiàn)的IP封禁,源自網(wǎng)站的防火墻系統(tǒng)設(shè)置,需要審查防火墻設(shè)置系統(tǒng)后臺(tái),檢查是否存在百度蜘蛛的IP級(jí)別封禁措施。
【建議方案】掃除百度IP封禁:審查網(wǎng)站反爬蟲(chóng)戰(zhàn)略,舉行戰(zhàn)略調(diào)整。