日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

作者:Pavel Kordík

編譯:ronghuaiyang

導讀

一般來說,搜索是非個性化的,不過如果和推薦系統組合起來,也會有意想不到的效果。

尋找正確的信息總是很困難的。在不久之前,文檔還是存放在實際的物理倉庫中,要找到相關的文檔是非常困難的。

個性化搜索的介紹,推薦和搜索的強強結合

 

當文檔可以通過在線存儲庫訪問時,索引文檔的數量開始超出物理存儲的限制。電子商務網站提供的產品數量或通過在線流媒體服務提供的內容數量亦是如此。

用戶傾向于在一個地方找到所有東西,他們中的大多數人喜歡從更相關的選擇中進行挑選,所以服務提供商需要適應這種需求。一些全球性的服務(如谷歌、亞馬遜、Netflix、Spotify),在飛快的增長,用戶幾乎在上面可以找到任何東西。推動它們在全球占據主導地位的最強大工具之一,是它們以機器學習技術為動力的高度先進的個性化技術。這些技術就是推薦系統個性化搜索。

個性化搜索的介紹,推薦和搜索的強強結合

 

推薦系統使用用戶與物品的交互的歷史來為用戶生成最相關物品的排序列表。搜索引擎根據與給定查詢的相似度對內容進行排序,而不考慮用戶的歷史記錄。

推薦系統使用戶能夠在線發現相關文檔、產品或內容。通常,用戶可能最喜歡的物品隱藏在數百萬個其他物品中。用戶無法通過搜索引擎直接找到這些商品,因為他們很少知道它們的標簽,甚至可能不知道它們的存在。

另一方面,有時用戶需要尋找一個特定的物品,并愿意通過表達他們的需求來幫助在線系統,以減少可能被推薦的物品的數量。

個性化搜索的介紹,推薦和搜索的強強結合

 

有幾種方法可以幫助用戶表達他們的需求。用戶體驗在這里扮演著非常重要的角色。很多用戶通過他們的手機訪問在線服務,但顯示興趣的能力有限。在線服務應該專注于利用所有可用信息過濾可能的搜索結果。

用戶地理位置可以顯著縮小可能的搜索和推薦結果。例如,在Recombee中,您可以選擇推薦只包含距離用戶位置一定范圍內的物品。另一種方法是,當某個物品在地理位置上更接近某個用戶時,你可以提高該物品被推薦的可能性。

個性化搜索的介紹,推薦和搜索的強強結合

 

用戶希望使用特定的標簽或類別過濾掉可能的搜索結果。它通常只需要一次點擊就可以過濾除特定類別之外的所有物品(例如,除了科幻小說之外的所有文章)。應該讓用戶盡可能輕松地表達他們的興趣。

一定比例的用戶希望可以使用一個查詢文本(即使只是幾個字符)的方式來縮小搜索范圍。他們的目的可能是找到一個特定類別的商品,或者通過他們知道的正在尋找的商品的標簽直接來搜索一個特定的商品。他們輸入的文本被稱為a user query,這篇博客文章討論了如何利用一個query來幫助用戶找到她/他要找的東西。這篇博客文章從理論部分開始,然后是實踐部分。

信息檢索

為給定文本query尋找合適物品的問題作為信息檢索(information retrieval, IR)已經研究了幾十年。當用戶向系統輸入一個query時,信息檢索過程就開始了。query是信息需求的正式形式,例如web搜索引擎中的搜索字符串。在信息檢索中,query不能唯一地標識集合中的單個物品(文檔)。相反,有幾個物品能與query匹配,可能具有不同程度的相關性。

傳統的方法試圖將query與文檔匹配,并根據相似度獲得相關性。機器學習方法通過從訓練數據構建一個排序模型來解決IR問題。這樣的訓練數據(對于搜索引擎來說)是什么樣的呢?通常,它是對每個query進行“適當”排序的文檔的集合。

以下是在相關博客中描述的IR系統方案:

個性化搜索的介紹,推薦和搜索的強強結合

 

經典的IR系統不是個性化的,它只是為一個query返回大部分相關的文檔。機器學習通常是不需要的,因為系統遵循預定義的過程(如TF-IDF相似性查找)。

該系統通過匹配query和文檔并計算它們的相似度來工作。大多數相似的文檔都是按照與query的相似度排序返回的。相似度是計算出來的,比如TF-IDF向量的余弦相似度。

個性化搜索的介紹,推薦和搜索的強強結合

 

通過重新排序(使用機器學習模型)可以改進搜索結果。在本例中,還使用搜索引擎來減少機器學習模型的候選項的數量,從而使評分更快。

Learning to rank(LTR)是機器學習的一種應用,它根據人的期望對物品進行排序。LTR模型通常使用人類標記的數據進行訓練。

在召回階段,LTR模型獲取由搜索引擎生成的一個query和返回的文檔(項)的子集,作為每個物品的輸入和輸出相關性。最后,它可以輸出一個經過排序的文檔列表(k-最相關的文檔)。請注意,現代系統還可以將用戶屬性文件作為輸入,并執行個性化學習來對機器學習任務進行排序。

經典預測模型, learning to rank模型和推薦系統之間的區別是什么?

  • 預測模型/分類器通常只有幾個輸出屬性,它們的設計目的不是為及百萬用戶進行幾百萬物品的排序。
  • Learning to Rank系統,對于給定的query,返回的結果是相同的列表,不涉及個性化。
  • 推薦系統不使用query,它們根據用戶歷史和用戶之間的相似性生成相關物品。相關物品的計算方法是在評分矩陣中預測它們的評分,或者根據它們的屬性推薦類似的物品。

下一節對LTR和推薦系統都很有用,因為模型的評估與機器學習中的經典預測模型是相似的。

評估LTR和推薦系統

累積收益度量通過learning to rank系統或推薦系統返回的前k項的相關性。

個性化搜索的介紹,推薦和搜索的強強結合

 

例如,我們可以把6個返回物品的相關性加起來(注意,第4項是不相關的)。

個性化搜索的介紹,推薦和搜索的強強結合

 


個性化搜索的介紹,推薦和搜索的強強結合

 

顯示給用戶的物品很少有統一的可見性方式。例如,在電子商務中,由于大多數用戶不想向下滾動列表,所推薦的商品的可見性急劇下降。在媒體領域,一個內容經常被高亮顯示,而其他內容則很難被發現。

CG的問題是它沒有考慮到物品的位置。例如,第一個推薦可能有比其他五個大得多的圖像顯示。此外,用戶傾向于瀏覽列表頂部的幾個物品,而他們看到列表更下方的物品的可能性要小得多。基于這個原因,discounted cumulative gain(DCG)比簡單的CG更受歡迎。

個性化搜索的介紹,推薦和搜索的強強結合

 

在DCG中,相關性值與結果的位置成對數比例遞減。

個性化搜索的介紹,推薦和搜索的強強結合

 

DCG可以很容易地計算,如上例所示。

有些變體甚至更加強調檢索列表頂部的相關物品。

個性化搜索的介紹,推薦和搜索的強強結合

 

假設一個數據集包含N個query。通常的做法是對每個query的DCG分數進行歸一化,并得到所有query的平均DCG(“NDCG”)分數。有這樣一個評價指標是很好的,但請記住現實世界是殘酷的。

傳統的LTR算法

  • Pointwise方法將排序轉化為單個物品的回歸或分類。然后,該模型一次只獲取一個物品,它要么預測其相關性得分,要么將該物品歸類到一個相關性類中。
  • Pairwise方法將問題處理為物品對的分類,即確定在第一個位置上的物品是不是具有更高的相關性,反之亦然。
  • Listwise方法把整個物品列表作為一個學習樣本。例如,使用屬于一個特定query的所有物品的得分,而不是僅通過比較成對或單個樣本。

以下是一些LTR算法的例子:

PRank算法,使用感知器(線性函數)從文檔的特征向量中估計文檔的得分。query被附加到文檔嵌入的特征向量中。我們還可以將文檔分類為相關類(例如相關/不相關)。這個函數幾乎可以用任何機器學習方法來建模。大多數算法使用決策樹和森林?,F代方法利用深度學習網絡。

個性化搜索的介紹,推薦和搜索的強強結合

 

最終的排名列表是通過對所有文檔進行評分并根據預測的相關性進行排序得到的。顯然,當對模型進行輸入嵌入和相應輸出相關性的訓練時,我們并沒有直接最小化NDCG或其他上述評價標準。與Pointwise方法相一致,Pairwise方法也使用代理可微損失函數。

個性化搜索的介紹,推薦和搜索的強強結合

 

為了更好地理解pairwise方法,我們應該記住在二元分類中使用的交叉熵損失,它懲罰了模型的高置信度的錯誤的預測。

對數損失可以通過對0,1標簽的損失求和來計算:−(y log(p) +(1−y) log(1−p))

正如你所看到的,錯誤的高置信度的答案得到很高的損失。

個性化搜索的介紹,推薦和搜索的強強結合

 

更多關于LTR系統的梯度訓練算法可以在這里找到:
https://medium.com/recombee-blog/ 
//www.microsoft.com/en-us/research/wp-content/uploads/2005/08/icml_ranking.pdf。

Rankboost直接優化分類錯誤。它源自Adaboost,在文檔對上進行訓練。它訓練弱分類器,將更多的權重賦給在前面步驟中沒有正確分類的對。

RankSVM是第一批采用pairwise方法解決問題的算法之一。它以序數回歸的方式進行排序,并對類的閾值進行訓練。RankSVM采用hinge損耗函數最小化。它還允許直接使用kernel進行非線性處理。

listwise方法的動機

pairwise的方法很好,但也有缺點。訓練過程是昂貴的,并且存在固有的訓練偏差,在不同的query中差異很大。也只有pairwise的關系被考慮在內。我們想使用一個評價指標,能讓我們優化完整的list,同時考慮到所有物品的相關性。

個性化搜索的介紹,推薦和搜索的強強結合

 

指數排序的優勢在于,即使當模型f給所有文檔分配相似的分數時,它們的最高概率也會非常不同 —— 最好的文檔接近1,相關性較低的文檔接近0。

個性化搜索的介紹,推薦和搜索的強強結合

 

這里,損失是針對一個文檔列表計算的。我們不太關心不相關的文檔Py(x)=0,最大的損失是由相關文檔造成的。

如何得到LTR系統的訓練數據?

獲取LTR系統的訓練數據可能是一個漫長而昂貴的過程。你通常需要一群人,人工來輸入查詢并判斷搜索結果。關聯判斷也比較困難。評估人評估下列分數之一:

相關度 —— 二值:相關與不相關(適合pointwise)

pairwise偏好 —— 文件A比文件B更相關。

總的順序 —— 文件按A、B、C、…,排序,根據它們的相關性。(對listwise來說很完美,但很耗時)

很明顯,人工標注非常貴,而且它們的標簽也不是很可靠。因此,應該從用戶在網站上的行為來獲得排名和訓練系統。

更好的方法是用推薦系統代替上述的LTR算法。


個性化搜索回顧

當根據用戶的偏好對搜索結果進行排序時,用戶對搜索功能的總體滿意度會顯著提高。

個性化搜索的介紹,推薦和搜索的強強結合

 

個性化搜索還應該考慮用戶偏好、歷史交互和相似用戶的交互。為什么不利用推薦系統呢?對于相同的搜索查詢,兩個用戶可以期望非常不同的推薦。

解決方案是將搜索引擎與強大的推薦系統相結合,而不是像上面描述的那樣將經典學習應用到機器學習(LTR)模型中。這種方法有幾個優點,我們將在后續的博客文章中分析它們。

個性化搜索的介紹,推薦和搜索的強強結合

 

我們的個性化搜索方法結合了搜索引擎和推薦系統。首先,搜索引擎對推薦物品(與查詢無關)進行重新排序,以過濾掉不相關的推薦,并推送與query匹配的物品及其描述。其次,搜索引擎返回最佳匹配的候選項,而不管用戶屬性文件或交互歷史記錄。然后,這些商品由推薦系統重新排序,以更好地適應每個特定用戶的口味。最終結果由上游的排名投票產生。

英文原文:
https://medium.com/recombee-blog/introduction-to-personalized-search-2b70eb5fa5ae

分享到:
標簽:個性化
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定