搜索引擎蜘蛛的跟蹤鏈接
作者:佚名 時間:2012-03-11 分享到:
搜索引擎是以收錄最多頁面為榮,所以為了抓取網上盡量多的內容,蜘蛛們會跟蹤頁面上的鏈接,從一個頁面跳轉到另一個頁面,就好像蜘蛛在蜘蛛網上行走那樣,這就是搜索引擎蜘蛛名字的由來.
整個互聯網是由相互鏈接起來的頁面組成,從理論上來說,蜘蛛從任何一個頁面出發,順著鏈接到可以能在網上找到的任意網頁頁面.當然,由于網站及面面鏈接結構異常復雜,蜘蛛需要采取一定的爬策略才能找到所有的頁面.
最簡單的爬行收錄所有網頁策略有兩種,一種是深度優先,另一種是廣度優先.
深度優先,是指蜘蛛沿著發現的網頁鏈接一直向前爬行,直到前面再也沒有其他鏈接了,然后返回到第一個頁面,沿著另一個鏈接再一直往前爬行.
廣度優先,是指蜘蛛在一個頁面上發現多個鏈接時,不是順著一個鏈接一直向前,而是把頁面上所有的第一導鏈接都爬一遍,然后再治著第二層頁面上發現的鏈接爬向第三層頁面.
從理論上講,無論是深度優先還是廣度優先,只要給蜘蛛足夠的時間,都能爬完整個互聯網,然而現實是服務器的功能和速度都是有限的,現階段只能對大一點的網站,或者權重高的網站盡可能的全部收錄,所以這也是我們做seo的目的和要求.
如沒特殊注明,文章均為上海聯楷網絡原創,轉載請注明來自:http://www.ktcbnqb.cn/help/20151126/n735.html