了解網站推廣robots協議詳解 robots.txt
作者:佚名 時間:2015-09-26 分享到:
robots協議的正確設置,是影響網站效果的第一步。先了解下obots協議也就是robots.txt,網站通過robots協議準確告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。Robots協議是網站國際互聯網界通行的道德規范,其目的是保護網站數據和敏感信息、確保用戶個人信息和隱私不被侵犯。因其不是命令,故需要搜索引擎自覺遵守。
先講一下搜索引擎即我們俗稱的爬蟲或蜘蛛的簡單工作流程:
1 我們發布的網站,都有一堆url;
2 蜘蛛抓取這些url并解析網頁,抽取其中的超級鏈接;
3 蜘蛛接著抓取新發現新的網頁;
4 以上循環往復。
robots協議就是用來告訴搜索引擎哪些網頁頁面可以被抓取,哪些網頁不能抓取。
robots協議的寫法規范:
User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符
Disallow: /xx/ 禁止抓取xx目錄下面的目錄
Disallow: /xx/ 這里定義是禁止抓取xx目錄下面的目錄
Disallow: /xx/ 這里定義是禁止抓取xx目錄下面的目錄
Disallow: /xx/*.htm 禁止訪問/xx/目錄下的所有以".htm"為后綴的URL(包含子目錄)。
Disallow: /*?* 禁止抓取網站中所有包含問號 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/xx/xx.html 禁止抓取xx文件夾下面的xx.html文件。
Allow: /xx/ 這里定義是允許抓取xx目錄下面的目錄
Allow: /xx 這里定義是允許抓取xx的整個目錄
Allow: .htm$ 僅允許抓取以".htm"為后綴的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖
用法一:
禁止所有搜索引擎訪問網站的任何部分
User-agent: *
Disallow: /
用法二:
允許所有的robot訪問
User-agent: *
Allow: /