關于搜索引擎的禁止抓取機制
作者:佚名 時間:2014-05-21 分享到:
當企業(yè)網(wǎng)站正在改版的時候,您可能希望搜索引擎不抓取您的網(wǎng)站。或許網(wǎng)站中的一些內容你不希望被搜索引擎抓取,比如說網(wǎng)站的后臺頁面,登錄頁面等。這時候,我們就需要學會如何運用搜索引擎禁止抓取文件——Robots文件或者是MATA Robots標簽。
下面,聯(lián)楷小編詳細介紹一下什么是Robots文件和MATA Robots標簽。
Robots文件
當搜索引擎抓取一個網(wǎng)站之前,首先會查看這個網(wǎng)站的根目錄下有沒有ROBOTS.TXT文件,這是一個文本文檔。用來告訴搜索引擎這個網(wǎng)站里面的那些內容或者是一些特定的部分不想被搜索引擎抓取,因為很多是對排名沒有意義的頁面或者是一些牽涉到網(wǎng)站隱私的部分。如果沒有發(fā)現(xiàn)這個文件或者是里面的內容為空,那么搜索引擎就認為這個網(wǎng)站的所有的東西自己都能夠進行訪問并抓取。
關鍵字段是USER-AGENT: 一般使用*代表所有的搜索引擎,或者也可以指定特定的搜索引擎的蜘蛛。Disallow: 后面寫指定的禁止訪問收錄的文件目錄,如果不寫的話,就表示允許。需要注意的是如果有好幾個目錄,一定要分開寫,每一個不想讓收錄的頁面都使用一個 DISALLOW。
目前,絕大部分的搜索引擎都會遵守這個指令,不過被這個指令禁止搜錄的頁面的網(wǎng)址還能夠以URL的形式在搜索的結果當中。要想讓URL也完全的不出現(xiàn),最好在頁面上使用META ROBOTS標簽。所以,建議各位在做網(wǎng)站建設的朋友們根據(jù)需要自己的需要來設置好,千萬不能設置錯了。
META ROBOTS標簽
這個標簽是網(wǎng)頁META標簽的一種,主要作用是讓搜索引擎不要索引這個頁面的內容.meta的名稱是robots,內容是寫不像被搜索跟蹤的內容.比如下面:
NOINDEX:讓搜索引擎不要索引這個頁面;
NOFOLLOW:讓搜索引擎不要追蹤這個頁面上的鏈接;
NOARCHIVE:讓搜索引擎不顯示網(wǎng)頁快照。
這里需要重點強調的是,NOINDEX使用之后,頁面還是能被抓取,不會索引這個頁面,但搜索引擎還是能夠追蹤網(wǎng)頁上的一些鏈接,也能夠通過鏈接傳遞權重。