鄭州搜索引擎的Robots規(guī)則

作者：網(wǎng)站建設出處：學眾科技發(fā)布時間：2020年04月21日點擊數(shù)：2226

robots.txt是一種存放于網(wǎng)站根目錄下的文本文件，用于告訴鄭州搜索引擎的爬蟲（spider），此網(wǎng)站中的哪些內容是不應被搜索引擎的索引，哪些是可以被索引。通常認為，robots.txt文件用來搜索引擎對目標網(wǎng)頁的抓取。

robots.txt協(xié)議并不是一個規(guī)范，而只是約定俗成的，通常搜索引擎會識別這個文件，但也有一些特殊情況。

對于Google來說，使用robots也未必能阻止Google將網(wǎng)址編入索引，如果有其他網(wǎng)站鏈接到該網(wǎng)頁的話，Google依然有可能會對其進行索引。按照Google的說法，要想徹底阻止網(wǎng)頁的內容在Google網(wǎng)頁索引中（即使有其他網(wǎng)站鏈接到該網(wǎng)頁）出現(xiàn)，需要使用noindex元標記或x-robots-tag。例如將下面的一行加入到網(wǎng)頁的header部分。

如果Google看到某一頁上有noindex的元標記，就會將此頁從Google的搜索結果中完全丟棄，而不管是否還有其他頁鏈接到此頁。

搜索引擎的Robots規(guī)則

對于百度來說，情況和Google類似，如果有其他網(wǎng)站鏈接目標網(wǎng)頁，也有可能會被百度收錄，從百度的說明頁面上看，百度并不支持像Google那樣通過noindex完全將網(wǎng)頁從索引上刪除，只支持使用noarchive元標記來禁止百度顯示網(wǎng)頁快照。具體的語句如下。

上面這個標記只是禁止百度顯示該網(wǎng)頁的快照，百度會繼續(xù)為網(wǎng)頁建索引，并在搜索結果中顯示網(wǎng)頁摘要。

例如，淘寶網(wǎng)目前就通過robots.txt來屏蔽百度爬蟲，但百度依舊收錄了淘寶網(wǎng)的內容，百度搜索“淘寶網(wǎng)”，第一個結果也是淘寶網(wǎng)首頁地址，只是該頁面沒有網(wǎng)頁快照，因此看來，網(wǎng)站只能禁止百度的快照，而無法禁止百度為網(wǎng)頁建索引。

丰满熟妇大号bbwbbwbbw,av在线中文字幕网址,让少妇达到高潮在线观看,久久精品电影院

鄭州搜索引擎的Robots規(guī)則