搜索引擎要知道你的網(wǎng)站內(nèi)容,就需要去搜集資料。在Yahoo的創(chuàng)辦初期,有許多編輯天天泡在網(wǎng)上,訪問新站,然后搜集信息集合整理成序。當(dāng)時(shí)的網(wǎng)站沒有現(xiàn)在這么多,所以還能做的過來(lái)。而現(xiàn)在的新站的出現(xiàn)數(shù)量,老站的更新都是爆炸式的,靠人工是不可能完成這個(gè)任務(wù)的。所以搜索引擎的就設(shè)計(jì)了程序,派他們來(lái)做這些工作。
探測(cè)器有許多種叫法,也叫crawler(爬行器)、spider(蜘蛛)、robot(機(jī)器人)。這些形象的叫法是描繪搜索引擎排除的蜘蛛機(jī)器人爬行在互聯(lián)網(wǎng)上探測(cè)新的信息。Google把這種探測(cè)器稱為Googlebot,百度叫做Baiduspiderr,MSN叫做,MSNbot,而Yahoo則叫slurp。這個(gè)探測(cè)器實(shí)際上是人們編制的計(jì)算機(jī)程序,由它不分晝夜地進(jìn)入訪問網(wǎng)站,摘取網(wǎng)站內(nèi)容、標(biāo)簽、圖片等。然后依照搜索引擎的算法給他們制定索引。所以,這里說一下,它不是“爬行”而是光速訪問的。
一個(gè)搜索引擎能夠會(huì)同時(shí)派遣很多探測(cè)器。這些探測(cè)器或者從站長(zhǎng)直接提交的URL去訪問,或者由一個(gè)網(wǎng)絡(luò)用戶所裝的搜索引擎工具欄(如Google工具欄)得知用戶去的網(wǎng)站,或者是從一個(gè)網(wǎng)站中指向另一個(gè)站的鏈接過去。所以說探測(cè)器不一定是從網(wǎng)站的首頁(yè)進(jìn)入訪問,為了引來(lái)搜索引擎就需要使用一些方法。
但是,探測(cè)器對(duì)許多的網(wǎng)站是不能完整抓取的,這個(gè)大多是由于網(wǎng)站設(shè)計(jì)沒有按照搜索引擎探測(cè)器的思路來(lái)進(jìn)行優(yōu)化。比如說,如果一個(gè)網(wǎng)頁(yè)比較大,探測(cè)器也只能截取網(wǎng)頁(yè)的首部,而且只能跟著少量的鏈接走。Google目前能夠吸收100KB的文件,Yahoo相對(duì)多一些。這些都可以通過實(shí)驗(yàn)來(lái)測(cè)試。將一個(gè)搜索關(guān)鍵詞放在一個(gè)很長(zhǎng)的網(wǎng)頁(yè)(約150KB)中的尾部。然后看Google的cache說這個(gè)網(wǎng)頁(yè)只有100KB,很顯然,有一部分沒有抓取到。
這個(gè)現(xiàn)象告訴我們網(wǎng)頁(yè)的設(shè)計(jì)不要過大,過長(zhǎng)。將一個(gè)較大的網(wǎng)頁(yè)分為若干小的頁(yè)面有以下幾個(gè)好處。
1.可以使網(wǎng)頁(yè)容易被探測(cè)器抓取。
2.更容易建立合理的站內(nèi)鏈接關(guān)系。
3.每個(gè)頁(yè)面可以更加集中關(guān)鍵詞的主題。
4.減少服務(wù)器的負(fù)載。
5.對(duì)用戶來(lái)說,方便閱讀。