網站建好后的7個蜘蛛陷阱
作者:佚名 時間:2012-02-14 分享到:
在SEO工作中,網頁被收錄是基礎工作,但對于搜索引擎來講,極少情況會100%收錄你網站的所有網頁,搜索引擎的爬蟲程序設計的再精巧,也難以逾越所謂的蜘蛛陷阱(蜘蛛陷進)。
蜘蛛陷阱是組織蜘蛛程序爬行網站的障礙物,通常是那些顯示網頁的技術方法,目前很多瀏覽器在設計的時候考慮過這些因素,所以可能網頁界面看起來非常正常,但這些蜘蛛陷阱會對蜘蛛程序贊成障礙,如果消除這些蜘蛛陷阱,可以是蜘蛛程序收錄更多的網頁。
很對蜘蛛陷阱都是先進的技術方法,開發成本相對也較大,但是這些的確會影響搜索引擎對你網站的了解,甚至還可能被整個網站都不被搜索引擎收錄,那么,當務之急,是消除這些蜘蛛陷阱,讓搜索引擎收錄你的更多網頁,這才將有利于你的SEM營銷計劃的開展。
一、注意robots文件正確書寫
robots.txt 文件看似一個簡單的文本文件,放在網站的根目錄下面,但它可以告訴搜索引擎的蜘蛛程序在服務器上的那些文件是可以被查看的,那些文件是私人文件將不被查看。
1、User agent(用戶代理):User agent 定義了下面的禁止命令使用于那個蜘蛛程序,如果對 User agent 定義為星號(*),則表示針對所有的蜘蛛程序。
User-agent: Baiduspider (百度蜘蛛)
Disallow: /
User-agent: * (所有蜘蛛)
Disallow: /
2、Disallow(禁止):禁止指明了具體那個文件蜘蛛程序不能查看,可以指定精確的文件名或者任意文件,甚至是目錄名的一部分,比如:
User-agent: * (所有蜘蛛)
Disallow: /(所有文件被禁止查看)
User-agent: Baiduspider (百度蜘蛛)
Disallow: /admin (根目錄下任何以admin開頭的目錄和文件)
User-agent: * (所有蜘蛛)
Disallow: /admin/(admin目錄和該目錄下的任何文件)
意外的失誤對網站帶來的影響很普遍,在網站上線之前可能會對整個網站暫時屏蔽,但上線以后往往忙于其他事情而忘記該文件的更正,導致網站不能正常被搜索引擎收錄。
除了robots.txt文件外,還應該注意元標記也可能會導致同樣的問題,但這類情況往往很少。
二、消除彈窗
雖然彈窗(彈出窗口)很吸引眼球,但大多數用戶都不喜歡它,因為這些“小廣告”是強制展示給用戶的,可能用戶正在認真瀏覽他感興趣的信息,這時候彈到用戶面前,感受可想而知。
如果使用彈窗來顯示一些補充和重要內容,最好在網站地圖或者其他正常網頁上給這些頁面做上鏈接,不然可能或導致這些頁面的無法正常收錄。
三、避免使用JS下拉菜單
蜘蛛程序對JS的理解還不深入,一些在JS存在的鏈接可能無法被蜘蛛程序捕捉到,而往往菜單中的鏈接又是很重要的,所以使用JS下拉菜單的網頁最好使用html重新這些鏈接。
除了用html代碼,還可以使用