利用關(guān)鍵詞序列得到的用戶事務(wù)模式經(jīng)過(guò)聚類以后,形成了表達(dá)用戶個(gè)性化信息需求的不同模式特征。和關(guān)鍵詞序列相比,聚類后的用戶事務(wù)模式顯然具有更少的數(shù)量和更明確的個(gè)性化特征,所以使用此用戶事務(wù)聚類模式就可以進(jìn)行下一步的個(gè)性化信息推薦活動(dòng)。
目前搜索引擎中常見(jiàn)的個(gè)性化信息推薦方式主要有兩種:一種是查詢改進(jìn);一種是個(gè)性化網(wǎng)頁(yè)權(quán)重。前者主要是利用改變用戶實(shí)際搜索的關(guān)鍵詞內(nèi)容來(lái)表達(dá)用戶的個(gè)性化信息需求,而后者主要是根據(jù)網(wǎng)頁(yè)權(quán)重對(duì)結(jié)果網(wǎng)頁(yè)進(jìn)行排序來(lái)表達(dá)用戶的個(gè)性化信息需求?;趥€(gè)性化網(wǎng)頁(yè)權(quán)重的推薦方法和基于查詢改進(jìn)的推薦方法相比,具有很多優(yōu)勢(shì),主要表現(xiàn)在以下幾個(gè)方面:
一是經(jīng)過(guò)實(shí)踐證明,諸如PageRank等網(wǎng)頁(yè)權(quán)重值是一種較為有效反映網(wǎng)頁(yè)客觀重要性的指標(biāo),同時(shí)相應(yīng)算法具有技術(shù)易行性。
二是算法主要解決了網(wǎng)頁(yè)客觀重要性的評(píng)價(jià)問(wèn)題,可以在網(wǎng)頁(yè)相關(guān)度排序上發(fā)揮作用。也就是說(shuō),該算法能夠?qū)M足用戶個(gè)性化要求的網(wǎng)頁(yè)放在結(jié)果網(wǎng)頁(yè)集合的最前端。事實(shí)上,這更有助于用戶得到所需的個(gè)性化信息。
最后,相關(guān)的網(wǎng)頁(yè)權(quán)重計(jì)算工作無(wú)需在線進(jìn)行,只需利用離線階段的存儲(chǔ)數(shù)據(jù)即可計(jì)算,從而能夠有效節(jié)省用戶查詢所需要的時(shí)間開(kāi)銷。
基于個(gè)性化網(wǎng)頁(yè)權(quán)重的推薦算法思想是在傳統(tǒng)的網(wǎng)頁(yè)權(quán)重算法基礎(chǔ)之上,通過(guò)合理地修改和添加其中使用的具體參數(shù),以表達(dá)不同用戶的個(gè)性化需求特征,從而計(jì)算出不同用戶所特有的網(wǎng)頁(yè)權(quán)重值,并在用戶查詢時(shí),利用這個(gè)值來(lái)計(jì)算網(wǎng)頁(yè)的相關(guān)度和優(yōu)先級(jí)。
較為常見(jiàn)的個(gè)性化網(wǎng)頁(yè)權(quán)重方式為個(gè)性化PageRank方法。傳統(tǒng)的PageRank是一種用于查詢結(jié)果網(wǎng)頁(yè)的相關(guān)度排序技術(shù),它通過(guò)網(wǎng)頁(yè)問(wèn)的鏈人和鏈出關(guān)系來(lái)計(jì)算不同網(wǎng)頁(yè)的權(quán)重值,并據(jù)此來(lái)實(shí)現(xiàn)網(wǎng)頁(yè)排序。這種算法目前已有多種衍生類型,主要目的都是著眼于對(duì)結(jié)果做進(jìn)一步的信息表達(dá)。其中,最為常見(jiàn)的做法是使用個(gè)性化PageRank向量來(lái)表達(dá)不同用戶的個(gè)性化信息需求,并使用此向量計(jì)算網(wǎng)頁(yè)的相關(guān)度,從而產(chǎn)生針對(duì)特定用戶的個(gè)性化搜索結(jié)果。
個(gè)性化PageRank算法主要依據(jù)個(gè)性化PageRank向量來(lái)使結(jié)果網(wǎng)頁(yè)產(chǎn)生對(duì)特定用戶的偏好特性。其中,很多算法都是以基于Web的圖論算法為基礎(chǔ)的,最為常見(jiàn)的模型有馬爾可夫模型等。對(duì)于馬爾可夫模型,人們已經(jīng)提出了很多不同的具體類型,如一階馬爾可夫鏈模型、高階馬爾可夫鏈模型和混合馬爾可夫鏈模型等。其中,一階馬爾可夫鏈模型雖然能對(duì)序列依賴給出一個(gè)簡(jiǎn)單的描述方法,但是它沒(méi)有考慮網(wǎng)絡(luò)沖浪行為的長(zhǎng)效記憶特征;高階馬爾可夫鏈模型能夠更加準(zhǔn)確地預(yù)測(cè)導(dǎo)航路徑,但是它也會(huì)隨著維度增多而產(chǎn)生覆蓋度和計(jì)算復(fù)雜性的權(quán)衡問(wèn)題,且這種復(fù)雜模型通常要求相當(dāng)大的訓(xùn)練集;混合馬爾可夫鏈模型組合了各階的馬爾可夫模型,在預(yù)處理和訓(xùn)練的時(shí)候也需要更多的資源。
顯然,此處的算法和選用的模型是相關(guān)的,要根據(jù)對(duì)簡(jiǎn)易性和正確性的權(quán)衡情況來(lái)決定所選模型類型,甚至是一些其他模型,這些其他模型多半采用基于樹(shù)狀導(dǎo)航圖結(jié)構(gòu)的數(shù)據(jù)挖掘算法,如聚類、序列模型挖掘、頻繁項(xiàng)挖掘等。
現(xiàn)在人們提出的個(gè)性化PageRank方法雖然有很多,但是主要分為兩大類:一類是直接修改基于超鏈關(guān)系得到的網(wǎng)頁(yè)權(quán)重值;另一類是在傳統(tǒng)PageRank公式上添加修正參數(shù)來(lái)反映用戶的個(gè)性化要求