禁止搜索引擎抓取robots.txt文件設(shè)置方法
作者:佚名 時(shí)間:2014-10-08 分享到:
通常情況下,網(wǎng)站都是需要讓搜索引擎收錄的,這樣才能更好地增加網(wǎng)站的訪問量,但是也有個(gè)別行業(yè)的網(wǎng)站,如安全性要求較高銀行和企業(yè)的內(nèi)部管理系統(tǒng)等他們這種站的安全性和私密性較高,肯定是不希望把數(shù)據(jù)在第三方上顯露,那么如果禁止網(wǎng)站被搜索引擎抓取呢?聯(lián)楷網(wǎng)絡(luò)科技總結(jié)如下:
先在站點(diǎn)的根目錄下新建一個(gè)robots.txt文本文件。當(dāng)搜索蜘蛛訪問這個(gè)站點(diǎn)時(shí),它會首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索蜘蛛就會先讀取這個(gè)文件的內(nèi)容:
文件寫法
user-agent: * 這里的*代表的所有的搜索引擎種類,*是一個(gè)通配符
disallow: / 這里定義是禁止爬尋站點(diǎn)所有的內(nèi)容
disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
disallow: /abc/ 這里定義是禁止爬尋abc目錄下面的目錄
disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的url(包含子目錄)。
disallow: /*?* 禁止訪問網(wǎng)站中所有包含問號 (?) 的網(wǎng)址
disallow: /.jpg$ 禁止抓取網(wǎng)頁所有的.jpg格式的圖片
disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄
allow: /tmp 這里定義是允許爬尋tmp的整個(gè)目錄
allow: .htm$ 僅允許訪問以".htm"為后綴的url。
allow: .gif$ 允許抓取網(wǎng)頁和gif格式圖片
sitemap: 網(wǎng)站地圖 告訴爬蟲這個(gè)頁面是網(wǎng)站地圖
下面列出來的是比較出名的搜索引擎蜘蛛名稱:
google的蜘蛛: googlebot
百度的蜘蛛:baiduspider
yahoo的蜘蛛:yahoo slurp
msn的蜘蛛:msnbot
altavista的蜘蛛:scooter
lycos的蜘蛛: lycos_spider_(t-rex)
alltheweb的蜘蛛: fast-webcrawler/
inktomi的蜘蛛: slurp
sogou的蜘蛛:sogou web spider/4.0和sogou inst spider/4.0
按照以上的說明,我們可以給大案一個(gè)示例,以sogou的來說,禁止抓取的robots.txt代碼寫法如下:
user-agent: sogou web spider/4.0
disallow: /goods.php
disallow: /category.php