robots.txt是一種存放于網(wǎng)站根目錄下的文本文件,用于告訴鄭州搜索引擎的爬蟲(spider),此網(wǎng)站中的哪些內(nèi)容是不應(yīng)被搜索引擎的索引,哪些是可以被索引。通常認為,robots.txt文件用來搜索引擎對目標(biāo)網(wǎng)頁的抓取。
robots.txt協(xié)議并不是一個規(guī)范,而只是約定俗成的,通常搜索引擎會識別這個文件,但也有一些特殊情況。
對于Google來說,使用robots也未必能阻止Google將網(wǎng)址編入索引,如果有其他網(wǎng)站鏈接到該網(wǎng)頁的話,Google依然有可能會對其進行索引。按照Google的說法,要想徹底阻止網(wǎng)頁的內(nèi)容在Google網(wǎng)頁索引中(即使有其他網(wǎng)站鏈接到該網(wǎng)頁)出現(xiàn),需要使用noindex元標(biāo)記或x-robots-tag。例如將下面的一行加入到網(wǎng)頁的header部分。
<meta name="googlebot" content="noindex">
如果Google看到某一頁上有noindex的元標(biāo)記,就會將此頁從Google的搜索結(jié)果中完全丟棄,而不管是否還有其他頁鏈接到此頁。
對于百度來說,情況和Google類似,如果有其他網(wǎng)站鏈接目標(biāo)網(wǎng)頁,也有可能會被百度收錄,從百度的說明頁面上看,百度并不支持像Google那樣通過noindex完全將網(wǎng)頁從索引上刪除,只支持使用noarchive元標(biāo)記來禁止百度顯示網(wǎng)頁快照。具體的語句如下。
<meta name="Baiduspider" content="noarchive">
上面這個標(biāo)記只是禁止百度顯示該網(wǎng)頁的快照,百度會繼續(xù)為網(wǎng)頁建索引,并在搜索結(jié)果中顯示網(wǎng)頁摘要。
例如,淘寶網(wǎng)目前就通過robots.txt來屏蔽百度爬蟲,但百度依舊收錄了淘寶網(wǎng)的內(nèi)容,百度搜索“淘寶網(wǎng)”,第一個結(jié)果也是淘寶網(wǎng)首頁地址,只是該頁面沒有網(wǎng)頁快照,因此看來,網(wǎng)站只能禁止百度的快照,而無法禁止百度為網(wǎng)頁建索引。