今天與大家交流一個話題,也是最近比較有影響力、非常受歡迎的話題,如何分析百度怎么抓取網(wǎng)站內(nèi)容。一個好的網(wǎng)站就像一個明星如果沒有粉絲的追捧,他的人氣排名肯定也上不來。下面我以問答的方式與大家溝通:
一、問:百度自己也有一個CDN加速(百度云加速),對抓錄排名有沒有影響?
答:在使用CDN加速這個問題上,我們對所有站點(diǎn)一視同仁。但我建議你使用技術(shù)能力強(qiáng)的CDN服務(wù)商,保證站點(diǎn)的穩(wěn)定和速度,百度會更喜歡。
二、問:多個域名,他有相同的一些內(nèi)容,怎么建庫?
答:如果是多域名在同一個主域下面有相同內(nèi)容的話,不可能所有都建庫,而且被建庫的那個可能不是你希望的那個,所以盡量不要有相同的內(nèi)容。
三、問:如果說頁面里url特別多的話,蜘蛛會不會有選擇性的進(jìn)行抓取?
答:不會,他都會一個不漏給你提出來,但會把JS、CSS這樣的鏈接給過濾掉。但請注意,全部抓取過來之后會進(jìn)行篩選,并不是所有都會建庫。
四、問:多個域名,他有相同的一些內(nèi)容,怎么建庫?
答:如果是多域名在同一個主域下面有相同內(nèi)容的話,不可能所有都建庫,而且被建庫的那個可能不是你希望的那個,所以盡量不要有相同的內(nèi)容。
五、問:現(xiàn)在我的網(wǎng)站被很多蜘蛛爬,我想只讓百度蜘蛛爬,百度蜘蛛IP多少?能設(shè)白名單么?
答:百度蜘蛛IP是不斷變的,現(xiàn)在網(wǎng)上的確有一些白名單的說法,暫時是有較的,但不保證今后不會變,所以建議站點(diǎn)還是通過ua進(jìn)行判斷。
六、問:如果我寫robots只想禁掉動態(tài)鏈接的話,會不會影響動態(tài)參數(shù)前面正常鏈接的抓取?
答:不會的,你原來的頁面還在,肯定會抓。
七、問:比如我們一個域名www.yuhou.cn,我們想把帶?號的url全部禁掉,首頁我們不要禁掉,怎么弄?
答:?前面有個*,后面再有個*就可以了。
八、問:我想了解,如果我現(xiàn)在收錄有5萬,大概多長時間才能把我原來收錄5萬重新抓取一遍?
答:不同站點(diǎn)不好說,一個是你站點(diǎn)做的很好,知名度很響更新很快質(zhì)量很好就會快;如果你的站點(diǎn)默默無聞,貢獻(xiàn)很少,可能就會很慢。
九、問:如果說頁面里url特別多的話,蜘蛛會不會有選擇性的進(jìn)行抓取?
答:不會,他都會一個不漏給你提出來,但會把JS、CSS這樣的鏈接給過濾掉。但請注意,全部抓取過來之后會進(jìn)行篩選,并不是所有都會建庫。
十、問:現(xiàn)在很多網(wǎng)站都有自己的站內(nèi)搜索,都會產(chǎn)生站內(nèi)搜索結(jié)果頁,百度不喜歡搜索結(jié)果頁的話,我們用這個會不會對我們有影響?只是不喜歡還是對我們網(wǎng)站會有懲罰?
答:蜘蛛會去抓,抓完之后重要是提取里面的鏈接。如果只有一兩條這樣的頁面質(zhì)量不好問題不大,如果整體質(zhì)量較差,有可能受到懲罰。
|