蜘蛛是如何爬取內(nèi)容的
蜘蛛是如何爬取網(wǎng)頁內(nèi)容的?一起來跟亳州網(wǎng)站制作的編輯來學(xué)習(xí)下吧。
蜘蛛先去抓取百度白名單的網(wǎng)站或者一些信任度非常高的站點(diǎn)和頁面(例如:一些高權(quán)重網(wǎng)站和網(wǎng)站的首頁),在抓取這些網(wǎng)頁的內(nèi)容時(shí)發(fā)現(xiàn)一些指向另外一些一些頁面的鏈接。蜘蛛會(huì)把這些鏈接保存在自己的數(shù)據(jù)庫(kù)里面,然后再根據(jù)抓取順序依次來抓取這些網(wǎng)頁。
1、蜘蛛抓取網(wǎng)頁的規(guī)則:
對(duì)于蜘蛛說網(wǎng)頁權(quán)重越高、信用度越高抓取越頻繁,例如網(wǎng)站的首頁和內(nèi)頁。蜘蛛先抓取網(wǎng)站的首頁,因?yàn)槭醉摍?quán)重更高,并且大部分的鏈接都是指向首頁。然后通過首頁抓取網(wǎng)站的內(nèi)頁,并不是所有內(nèi)頁蜘蛛都會(huì)去抓取。
搜索引擎認(rèn)為對(duì)于一般的中小型站點(diǎn),3層足夠承受所有的內(nèi)容了,所以蜘蛛經(jīng)常抓取的內(nèi)容是前三層,而超過三層的內(nèi)容蜘蛛認(rèn)為那些內(nèi)容并不重要,所以不經(jīng)常爬取。
2、如何看蜘蛛的抓???
通過iis日志可以看蜘蛛爬取了哪些內(nèi)容,iis日志有百度蜘蛛、谷歌蜘蛛等。從iis日志里賣弄分析得出蜘蛛的類型、抓取時(shí)間、抓取的頁面、抓取內(nèi)容的大小以及返回的頁面代碼,200代表抓取順利。
以上就是亳州網(wǎng)站制作的編輯整理的內(nèi)容,更多詳情請(qǐng)點(diǎn)擊:http://m.gztdc.com/