搜索引擎的地址倉庫作用
作者:佚名 時間:2012-03-11 分享到:
為了避免搜索引擎收錄頁面時抓取到重復的地址,搜索引擎會建立一個地址倉庫來存放記錄,記錄已經被發現還沒有抓取的頁面以及已經被抓取的頁面.這也就是我們在百度統計里面看到有700條收錄頁,而實現只收錄500條的原因.
地址倉庫中的url有如下幾個來源:
1.人工錄入的種子網址.
2.蜘蛛抓取頁面后,從html中解析出新的鏈接url,與地址倉庫中的數據進行對比,如果是地址倉庫中沒有的,那么就存入等待訪問地址倉庫中.
3.站長通過搜索引擎網頁提交的表格中抓取,像谷歌站長工具中有一個提交網站地圖的功能,就是用來做這個的.
如沒特殊注明,文章均為上海聯楷網絡原創,轉載請注明來自:http://www.ktcbnqb.cn/hynews/20151126/n2235.html