禁止搜索引擎抓取robots.txt文件設(shè)置方法

作者：佚名時(shí)間：2014-10-08 分享到：

通常情況下,網(wǎng)站都是需要讓搜索引擎收錄的,這樣才能更好地增加網(wǎng)站的訪問量,但是也有個(gè)別行業(yè)的網(wǎng)站,如安全性要求較高銀行和企業(yè)的內(nèi)部管理系統(tǒng)等他們這種站的安全性和私密性較高,肯定是不希望把數(shù)據(jù)在第三方上顯露,那么如果禁止網(wǎng)站被搜索引擎抓取呢?聯(lián)楷網(wǎng)絡(luò)科技總結(jié)如下:
先在站點(diǎn)的根目錄下新建一個(gè)robots.txt文本文件。當(dāng)搜索蜘蛛訪問這個(gè)站點(diǎn)時(shí)，它會首先檢查該站點(diǎn)根目錄下是否存在robots.txt，如果存在，搜索蜘蛛就會先讀取這個(gè)文件的內(nèi)容:
文件寫法
user-agent: * 這里的*代表的所有的搜索引擎種類，*是一個(gè)通配符
disallow: / 這里定義是禁止爬尋站點(diǎn)所有的內(nèi)容
disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
disallow: /abc/ 這里定義是禁止爬尋abc目錄下面的目錄
disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的url(包含子目錄)。
disallow: /*?* 禁止訪問網(wǎng)站中所有包含問號 (?) 的網(wǎng)址
disallow: /.jpg$ 禁止抓取網(wǎng)頁所有的.jpg格式的圖片
disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
allow: /cgi-bin/　這里定義是允許爬尋cgi-bin目錄下面的目錄
allow: /tmp 這里定義是允許爬尋tmp的整個(gè)目錄
allow: .htm$ 僅允許訪問以".htm"為后綴的url。
allow: .gif$ 允許抓取網(wǎng)頁和gif格式圖片
sitemap: 網(wǎng)站地圖告訴爬蟲這個(gè)頁面是網(wǎng)站地圖

下面列出來的是比較出名的搜索引擎蜘蛛名稱：
google的蜘蛛： googlebot
百度的蜘蛛：baiduspider
yahoo的蜘蛛：yahoo slurp
msn的蜘蛛：msnbot
altavista的蜘蛛：scooter
lycos的蜘蛛： lycos_spider_(t-rex)
alltheweb的蜘蛛： fast-webcrawler/
inktomi的蜘蛛： slurp
sogou的蜘蛛：sogou web spider/4.0和sogou inst spider/4.0

按照以上的說明,我們可以給大案一個(gè)示例,以sogou的來說,禁止抓取的robots.txt代碼寫法如下:
user-agent: sogou web spider/4.0
disallow: /goods.php
disallow: /category.php

如沒特殊注明，文章均為上海聯(lián)楷網(wǎng)絡(luò)原創(chuàng),轉(zhuǎn)載請注明來自：http://www.ktcbnqb.cn/seo/20151126/n494.html

上海網(wǎng)站建設(shè)

服務(wù)熱線:021-61394118

禁止搜索引擎抓取robots.txt文件設(shè)置方法

作者：佚名時(shí)間：2014-10-08 分享到：

最近新聞

上海網(wǎng)站建設(shè)

服務(wù)熱線:021-61394118

禁止搜索引擎抓取robots.txt文件設(shè)置方法

作者：佚名 時(shí)間：2014-10-08 分享到：

最近新聞

作者：佚名時(shí)間：2014-10-08 分享到：