網(wǎng)站質(zhì)量、網(wǎng)頁質(zhì)量是SEO經(jīng)常提的一個SEO術(shù)語。但是具體的,搜索引擎是如何判斷一個網(wǎng)頁、網(wǎng)站質(zhì)量的,相信大部分的SEO對此都沒有了解。主要原因是這些算法是搜索引擎公司的核心機密,搜索引擎公司幾乎不會公布關(guān)于算法的任何一點蛛絲馬跡。但是通過對搜索引擎原理以及搜索引擎主流網(wǎng)頁質(zhì)量分析技術(shù)的研究,我們大概也能探知60%。
網(wǎng)頁質(zhì)量直接測度指標,這篇文章是思億歐網(wǎng)站權(quán)重研究系列文章之三。系列文章之一:網(wǎng)頁質(zhì)量 系列文章之二結(jié)合網(wǎng)頁質(zhì)量分析的搜索模式
1.基于網(wǎng)頁鏈接關(guān)系的評價指標
基于網(wǎng)頁鏈接關(guān)系的分析方法認為,能夠被更多網(wǎng)頁鏈入的流行網(wǎng)頁是更為重要的網(wǎng)頁,也是質(zhì)量較高的網(wǎng)頁。事實證明這個方法比較成功,如Google的方法就采用了這樣的方式來對網(wǎng)頁進行加權(quán)。
這個方法有效的主要原因在于網(wǎng)絡(luò)環(huán)境的特殊性??梢赃@樣認為,在Web網(wǎng)絡(luò)上沒有整體上的質(zhì)量控制,所以Web網(wǎng)頁不具有類似于出版環(huán)境下的權(quán)威性評價特征(在出版環(huán)境下,相關(guān)文獻可以通過同行評審等方法來獲得別人的認可,從而表現(xiàn)出高質(zhì)量),所以Web用戶就需要使用其他一些方法來對網(wǎng)站的專業(yè)能力和可信度進行判斷。其中,比較常見的方法就是網(wǎng)頁的鏈人數(shù)量和鏈入網(wǎng)頁的質(zhì)量.顯然,網(wǎng)頁鏈人數(shù)量越多或者鏈入網(wǎng)頁的質(zhì)量越高,都能反映出當前網(wǎng)頁的質(zhì)量較高,如被大學(xué)、圖書館或者有價值的網(wǎng)站鏈接的網(wǎng)站通常都是一些具有高質(zhì)量的網(wǎng)站。同時,各個網(wǎng)頁也愿意對其他網(wǎng)頁建立鏈接關(guān)系,因為在缺乏整體網(wǎng)頁質(zhì)量控制的條件下,網(wǎng)頁可以通過建立指向高質(zhì)量網(wǎng)頁的鏈接來表現(xiàn)自己的內(nèi)容有較好的出處和來源,對來源網(wǎng)頁的鏈接從另一方面來看就是希望得到用戶對當前網(wǎng)頁的認可,這在一定程度上可以解釋為什么在Web環(huán)境下網(wǎng)頁超鏈很普及的原因。
然而,雖然這個方法便于實施,很多搜索引擎系統(tǒng)都能提供基于網(wǎng)頁超鏈關(guān)系的分析技術(shù),并將其應(yīng)用到網(wǎng)頁推薦服務(wù)上,但是它也存在很多問題。例如,上述評價標準基于一個基礎(chǔ)的前提,那就是鏈人數(shù)量較多的網(wǎng)頁,即流行的網(wǎng)頁一定是質(zhì)量較高的網(wǎng)頁。但是這存在很多問題,如那些在檢索結(jié)果中排名靠后的不流行網(wǎng)頁就不太可能被用戶訪問到;相反,那些非常流行的網(wǎng)頁由于獲得較高的鏈人數(shù)量,排名靠前,所以更有可能被更多的用戶訪問到,從而越來越流行,越能表現(xiàn)出質(zhì)量較高的狀態(tài),產(chǎn)生了所謂的“富越富(rich-get-richer)”現(xiàn)象。這顯然并不公平,特別是對于一些高質(zhì)量的現(xiàn)有網(wǎng)頁和一些不可能獲得太多鏈人數(shù)量的、新出現(xiàn)的高質(zhì)量網(wǎng)頁而言,更為不公平。
2.基于網(wǎng)站流量的評價指標
此方法利用網(wǎng)站流量來對網(wǎng)站的網(wǎng)頁質(zhì)量進行評價,如Alexa,它通過站點訪問流量之間的對比關(guān)系來對網(wǎng)站進行排名,同時它也參考網(wǎng)站的鏈入節(jié)點數(shù)量和用戶的評論信息。但是具有流行話題的網(wǎng)站通常會具有更大的訪問流量,所以Alexa沒有提供針對不同主題下的網(wǎng)站排名情況,仍然顯得不是很完整。也有學(xué)者提出基于不同主題的網(wǎng)站流量排名方法,不過主題范圍較為寬泛。
3.基于Web用戶訪問模型的評價指標
正是因為上述方法存在諸多不足,所以有學(xué)者提出網(wǎng)頁質(zhì)量可以表示為一個尋找指定信息的隨機訪問用戶愿意訪問到此網(wǎng)站網(wǎng)頁的概率,如Topic試驗系統(tǒng)。不同于基于網(wǎng)頁鏈接關(guān)系的評價指標,這個指標建立在一個假設(shè)基礎(chǔ)之上,即如果用戶在瀏覽一個網(wǎng)頁后,在較短的時間內(nèi)對其建立了超鏈,則可以認為這種網(wǎng)頁具有較高的質(zhì)量,所以可以將所有網(wǎng)頁展示給所有用戶,通過了解用戶是否在較短的時間內(nèi)對其建立超鏈來計算用戶對它們的喜愛程度,并以此來得到網(wǎng)頁的質(zhì)量。顯然,雖然一位用戶對網(wǎng)頁建立超鏈的行為并不一定反映出該網(wǎng)頁的質(zhì)量,但是如果面向大多數(shù)用戶,這種統(tǒng)計意義上的匯總信息將能在客觀上表明網(wǎng)頁的質(zhì)量。因此,這種定義方法可以被稱為基于用戶訪問模型的方法。
由于網(wǎng)頁質(zhì)量和網(wǎng)頁本身的流行度也存在關(guān)聯(lián),所以傳統(tǒng)的基于網(wǎng)頁鏈接關(guān)系的評價方法也間接地考慮了網(wǎng)頁的質(zhì)量,網(wǎng)頁質(zhì)量通過網(wǎng)頁被喜好的程度來測量,而網(wǎng)頁被喜好的程度則可以通過喜歡該網(wǎng)頁的用戶數(shù)量來決定,而這個喜歡該網(wǎng)頁的用戶數(shù)量又可以通過網(wǎng)頁的鏈入數(shù)量來間接測度,所以鏈人數(shù)量這個指標正比于網(wǎng)頁質(zhì)量指標。不過,它對所有網(wǎng)頁提供了相同的面向用戶機會,所以新出現(xiàn)的網(wǎng)頁就沒有可能比原有的流行網(wǎng)頁獲得更多的鏈人數(shù)量。從這一點來看,傳統(tǒng)的基于網(wǎng)頁鏈接關(guān)系的評價方法對網(wǎng)頁質(zhì)量的考慮還是不充分的,它只是利用某個時間點上網(wǎng)頁的鏈接關(guān)系來做出判斷,而在基于用戶訪問模型的網(wǎng)頁質(zhì)量定義中,重點強調(diào)了在較短的時間內(nèi)建立鏈接的特點,所以必須通過在動態(tài)時間間隔內(nèi)的網(wǎng)頁鏈接關(guān)系變化來做出測度。也就是說,網(wǎng)頁流行度可以被定義為在一個時間點上用戶喜歡該網(wǎng)頁的程度,而網(wǎng)頁質(zhì)量定義為在用戶發(fā)現(xiàn)網(wǎng)頁時,在單位時間內(nèi)喜歡該網(wǎng)頁的程度。
顯然,網(wǎng)頁質(zhì)量和網(wǎng)頁流行度存在正相關(guān)關(guān)系,但是存在網(wǎng)頁被訪問概率的影響因素。其中的網(wǎng)頁質(zhì)量可以看成是網(wǎng)頁的客觀指標,不會隨著時間發(fā)生改變,所以在網(wǎng)頁質(zhì)量既定的情況下,網(wǎng)頁流行度主要是由網(wǎng)頁被訪問的概率來決定的。
當然,這種指標的設(shè)計不能說沒有問題,它會產(chǎn)生主題偏向性(topic bias)。例如,話題流行度和質(zhì)量。一般而言,如果網(wǎng)頁談?wù)摰脑掝}是較為流行的話題,相對而言,該網(wǎng)頁要比那些只談?wù)撨^時話題的網(wǎng)頁更有質(zhì)量。不過,從網(wǎng)頁質(zhì)量來看,這一點似乎也很正常,畢竟測量網(wǎng)頁真實質(zhì)量的方法是要考慮網(wǎng)頁話題的內(nèi)容。同時,由于搜索引擎在返回結(jié)果中,一般只會將需要排序的網(wǎng)頁限定在一個較少的范圍內(nèi),作為同一個用戶查詢的返回結(jié)果,這些網(wǎng)頁之間在語義上基本接近,因此這些網(wǎng)頁質(zhì)量之間的相對大小還是具有可比性的。所以,在Web信息搜索環(huán)境下,這種網(wǎng)頁質(zhì)量直接測度指標較為適用。