網站建設教你分析網站日志

作者：佚名時間：2012-08-15 分享到：

怎么樣分析網站IIS日志中的搜索引擎爬蟲軌跡,這是很多網站建設新手放在心里的一個疑問。　
　假如你要搜索百度的爬蟲，那么就直接在保存記錄的文本文檔上搜索“Baiduspider”，我們節選以下一行來做詳細的分析：
　　2011-02-27 13:02:40 W3SVC321 222.73.86.227 GET /index.html - 80 - 61.135.168.39 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64- - www.ktcbnqb.cn這段IIS日志代碼表示：在2011-02-27 13:02:40 這個時間，百度搜索引擎的蜘蛛（ip地址為61.135.168.39，后面的http://www.baidu.com/search/spider.htm是關于Baiduspider+的相關問題）訪問了服務器ip為222.73.86.227的網站www.ktcbnqb.cn，并且抓取了首頁/index.html，該日志記錄保存在 W3SVC321文件夾。其中，兩個地方值得說明：

　　一是各大搜索引擎爬蟲（蜘蛛）的名稱整理如下，大家可以對號入座：
　　1. Google爬蟲名稱
　　1.1 Googlebot：從Google的網站索引和新聞索引中抓取網頁
　　1.2 Googlebot-Mobile針對Google的移動索引抓取網頁
　　1.3 Googlebot-Image：針對Google的圖片索引抓取網頁
　　1.4 Mediapartners-Google：抓取網頁確定 AdSense 的內容。只有在你的網站上展示 AdSense 廣告的情況下，Google才會使用此漫游器來抓取您的網站。
　　1.5 Adsbot-Google：抓取網頁來衡量 AdWords 目標網頁的質量。只有在你使用 Google AdWords 為你的網站做廣告的情況下，Google才會使用此漫游器。
　　2. 百度（Baidu）爬蟲名稱：Baiduspider
　　3. 雅虎（Yahoo）爬蟲名稱：Yahoo Slurp
　　4. 有道（Yodao）蜘蛛名稱：YodaoBot
　　5. 搜狗（sogou）蜘蛛名稱：sogou spider
　　6. MSN的蜘蛛名稱：Msnbot
　　其他的搜索引擎我們使用得很少，就不需要理會了。

二是代碼中的200表示搜索引擎蜘蛛爬行后返回HTTP的狀態代碼，代表成功爬行并抓取。
　　各個數字代碼的具體意思參見如下：
　　2xx 成功
　　200 正常;請求已完成。
　　201 正常;緊接 POST 命令。
　　202 正常;已接受用于處理，但處理尚未完成。
　　203 正常;部分信息 — 返回的信息只是一部分。
　　204 正常;無響應 — 已接收請求，但不存在要回送的信息。

　　3xx 重定向
　　301 已移動 — 請求的數據具有新的位置且更改是永久的。
　　302 已找到 — 請求的數據臨時具有不同 URI。
　　303 請參閱其它 — 可在另一 URI 下找到對請求的響應，且應使用 GET 方法檢索此響應。
　　304 未修改 — 未按預期修改文檔。
　　305 使用代理 — 必須通過位置字段中提供的代理來訪問請求的資源。
　　306 未使用 — 不再使用;保留此代碼以便將來使用。

　　4xx 客戶機中出現的錯誤
　　400 錯誤請求 — 請求中有語法問題，或不能滿足請求。
　　401 未授權 — 未授權客戶機訪問數據。
　　402 需要付款 — 表示計費系統已有效。
　　403 禁止 — 即使有授權也不需要訪問。
　　404 找不到 — 服務器找不到給定的資源;文檔不存在。
　　407 代理認證請求 — 客戶機首先必須使用代理認證自身。
　　410 請求的網頁不存在(永久);
　　415 介質類型不受支持 — 服務器拒絕服務請求，因為不支持請求實體的格式。

　　5xx 服務器中出現的錯誤
　　500 內部錯誤 — 因為意外情況，服務器不能完成請求。
　　501 未執行 — 服務器不支持請求的工具。
　　502 錯誤網關 — 服務器接收到來自上游服務器的無效響應。
　　503 無法獲得服務 — 由于臨時過載或維護，服務器無法處理請求

如沒特殊注明，文章均為上海聯楷網絡原創,轉載請注明來自：http://www.ktcbnqb.cn/news/20151229/n6859.html

上海網站建設

服務熱線:021-61394118

網站建設教你分析網站日志

作者：佚名時間：2012-08-15 分享到：

最近新聞

上海網站建設

服務熱線:021-61394118

網站建設教你分析網站日志

作者：佚名 時間：2012-08-15 分享到：

最近新聞

作者：佚名時間：2012-08-15 分享到：