網站建設教你分析網站日志
作者:佚名 時間:2012-08-15 分享到:
怎么樣分析網站IIS日志中的搜索引擎爬蟲軌跡,這是很多網站建設新手放在心里的一個疑問。
假如你要搜索百度的爬蟲,那么就直接在保存記錄的文本文檔上搜索“Baiduspider”,我們節選以下一行來做詳細的分析:
2011-02-27 13:02:40 W3SVC321 222.73.86.227 GET /index.html - 80 - 61.135.168.39 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64- - www.ktcbnqb.cn這段IIS日志代碼表示:在2011-02-27 13:02:40 這個時間,百度搜索引擎的蜘蛛(ip地址為61.135.168.39,后面的http://www.baidu.com/search/spider.htm是關于Baiduspider+的相關問題)訪問了服務器ip為222.73.86.227的網站www.ktcbnqb.cn,并且抓取了首頁/index.html,該日志記錄保存在 W3SVC321文件夾。其中,兩個地方值得說明:
一是各大搜索引擎爬蟲(蜘蛛)的名稱整理如下,大家可以對號入座:
1. Google爬蟲名稱
1.1 Googlebot:從Google的網站索引和新聞索引中抓取網頁
1.2 Googlebot-Mobile針對Google的移動索引抓取網頁
1.3 Googlebot-Image:針對Google的圖片索引抓取網頁
1.4 Mediapartners-Google:抓取網頁確定 AdSense 的內容。只有在你的網站上展示 AdSense 廣告的情況下,Google才會使用此漫游器來抓取您的網站。
1.5 Adsbot-Google:抓取網頁來衡量 AdWords 目標網頁的質量。只有在你使用 Google AdWords 為你的網站做廣告的情況下,Google才會使用此漫游器。
2. 百度(Baidu)爬蟲名稱:Baiduspider
3. 雅虎(Yahoo)爬蟲名稱:Yahoo Slurp
4. 有道(Yodao)蜘蛛名稱:YodaoBot
5. 搜狗(sogou)蜘蛛名稱:sogou spider
6. MSN的蜘蛛名稱:Msnbot
其他的搜索引擎我們使用得很少,就不需要理會了。
二是代碼中的200表示搜索引擎蜘蛛爬行后返回HTTP的狀態代碼,代表成功爬行并抓取。
各個數字代碼的具體意思參見如下:
2xx 成功
200 正常;請求已完成。
201 正常;緊接 POST 命令。
202 正常;已接受用于處理,但處理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;無響應 — 已接收請求,但不存在要回送的信息。
3xx 重定向
301 已移動 — 請求的數據具有新的位置且更改是永久的。
302 已找到 — 請求的數據臨時具有不同 URI。
303 請參閱其它 — 可在另一 URI 下找到對請求的響應,且應使用 GET 方法檢索此響應。
304 未修改 — 未按預期修改文檔。
305 使用代理 — 必須通過位置字段中提供的代理來訪問請求的資源。
306 未使用 — 不再使用;保留此代碼以便將來使用。
4xx 客戶機中出現的錯誤
400 錯誤請求 — 請求中有語法問題,或不能滿足請求。
401 未授權 — 未授權客戶機訪問數據。
402 需要付款 — 表示計費系統已有效。
403 禁止 — 即使有授權也不需要訪問。
404 找不到 — 服務器找不到給定的資源;文檔不存在。
407 代理認證請求 — 客戶機首先必須使用代理認證自身。
410 請求的網頁不存在(永久);
415 介質類型不受支持 — 服務器拒絕服務請求,因為不支持請求實體的格式。
5xx 服務器中出現的錯誤
500 內部錯誤 — 因為意外情況,服務器不能完成請求。
501 未執行 — 服務器不支持請求的工具。
502 錯誤網關 — 服務器接收到來自上游服務器的無效響應。
503 無法獲得服務 — 由于臨時過載或維護,服務器無法處理請求