2022淘系排序算法|賈真和電商108將

昨天在某個程序猿的公眾號里,聽了一下午阿里算法資深專家小二分享《2022年目前淘系算法的內部資料》。

今天就把小二分享的部分ppt截圖出來,并且給大家深入淺出的解讀一下,現(xiàn)在淘系的搜索算法,是怎么工作的。

排序算法的背景問題

先看第一張ppt,目前小二舉例的時候,一般會用兩個類目,一個是服飾,一個是3c。

2022淘系排序算法|賈真和電商108將

往往以服飾為主,3c數(shù)碼配件類目,作為差異化參照物。

也就是說,研究淘系算法,用服飾類目的產品去研究,才能了解最前沿的算法改變。

先說了淘系搜索目標,是多目標,比如gmv(平臺交易總額),ipv(進入商品頁的點擊次數(shù)),ux(用戶體驗)等等。

基于這多目標,算法工作的流程是:

  • 1.用戶有了搜索關鍵詞行為。
  • 2.通過召回模型,在數(shù)據庫里匹配幾萬個商品。
  • 3.通過預估模型,在幾萬個商品里,找到符合要求的幾千個商品。
  • 4.通過極致模型,利用人工學習算法,精選幾十個最符合的產品,進行展現(xiàn)。

算法工作的過程,最終實現(xiàn)的目標,是為了實現(xiàn)交易總額,搜索結果點擊率和用戶體驗,這三個核心維度的最優(yōu)化。

【注意】

不完全把交易額,當成唯一目標。早期淘系就是解決剛需,轉化就是的唯一目標。

但目前淘系不僅想要剛需市場,也想要“種草”市場。

而種草的核心表現(xiàn),不是立刻購買,是喚起興趣,而喚起興趣的具體行為,就是點擊。

【結論】

點擊率,無比重要!

從LR到深度模型

第二張ppt,淘系從2017年開始進行的深度學習,也就是千人千面。

2022淘系排序算法|賈真和電商108將

算法從原來的單一銷量維度,到現(xiàn)在的單場景多任務。

這里的場景,是指主搜索場景,天貓搜索場景,店鋪內搜索場景等,我們賣家關注的,就是主搜索場景。

在主搜索場景下,有多任務:

ctr(曝光點擊率)cvr(轉化率),加購率的最優(yōu)結果。

我們不需要知道,具體算法怎么工作的,只要知道算法的結果是為了點擊率,轉化率,加購率最大化。

那我們想拿搜索流量,就要圍繞著點擊率,轉化率和加購率這三個點,去選產品就可以。

【注意】
從頭到尾,沒有提uv價值這個數(shù)據。

手淘深度預估模型的基礎結構

第三張ppt,預估模型里(從幾萬個粗排結果,到幾千個結果的過程)最核心的工作,是在曝光沒發(fā)生前,預估點擊,轉化,加購的概率。

2022淘系排序算法|賈真和電商108將

預估之后,根據反饋進行排序更新:

1.批模式更新,就是累積一批數(shù)據,統(tǒng)一處理,這個時間周期是一天,每天早上8點更新。

2.流模式更新,流動數(shù)據處理,處理時間是5-10分鐘(抖音,直播間的算法)。

淘寶的更新模式,是批模式+流模式:

  • 1.在一天之內流模式不斷更新。
  • 2.第二天早上8點左右,把一天累積的數(shù)據,再批處理一下,做大更新。
  • 3.然后流模式再基于批模式的更新結果,繼續(xù)實時更新。

【注意】
搜索批模式,每天都會更新,如果你流量沒變化,那是說明你產品賽馬沒過關,所以停留在原來曝光池。

在這里我們看到,商品數(shù)據中,因為成交延遲的問題,所以比起抖音,直播,做實時排序難度更大。

抖音用戶刷到某個內容,喜歡就關注了,沒關注后面也不會去找了。

但淘系用戶看到某個商品,當時沒買,有可能過一周后,又找出來買。

用戶個性化的多維視角

第四張ppt,在得到精排的幾千個結果之后,會基于用戶信息,把結果基于用戶反饋。

2022淘系排序算法|賈真和電商108將

做千人千面的展示,而千人千面主要關注下面3個維度數(shù)據:

一、關注用戶資料:
1.用戶的注冊信息,年齡,性別等。
2.動態(tài)行為提交的標簽,瀏覽過的店鋪。
3.基于用戶行為,學習到的數(shù)據資料。

二、關注用戶行為周期:
1.秒級行為:瀏覽,點擊,購買。
2.小時級和天級行為。
3.年級別的反饋,復購。

三、關注用戶行為的類別:
正反饋加分 :點擊 ,加購,購買。
負反饋減分:停留時長短,曝光未點擊。

之前我們只關注“正反饋”結果,但今天聽小二分解,他們更在意的是“負反饋”,因為比起正反饋,負反饋數(shù)據量更大。

一個搜索結果頁面,沒有點擊的產品數(shù),往往比點擊的商品數(shù)量更多。

負反饋行為舉例:曝光未點擊,點擊未加購。

【結論】
如果重視負反饋數(shù)據,也就意味著,只要產品不行,絕大多數(shù)的增加曝光量“運營”行為,都是自殺。

用戶行為序列模型

第五張ppt里,重點講解了行為模式下,是怎么打分的。

2022淘系排序算法|賈真和電商108將

行為打分的重要性排序:
購買>加購>點擊>收藏

這個重要性排序的原因,是發(fā)現(xiàn)距離購買的時間越近,動作行為越重要。

比如,收藏的往往近期不下單,加購的很快會下單,所以加購比收藏更重要。

搜索的機制模型的排序算法,本質上就是基于用戶行為打分,正反饋加分,負反饋減分。

而不同的正反饋,加的分值不一樣。

比如購買+10分,加購+7分,點擊+3分,收藏+1分

同樣道理,不同的負反饋行為,也會減不同的分值,貨比三家加分并不是最多,曝光未點擊應該最多。

【結論】
點擊率,是商品搜索里最重要維度。

在線學習

第六張ppt里,列舉了在線學習的難點和解決辦法。

2022淘系排序算法|賈真和電商108將

1.時效性:
比如現(xiàn)在春節(jié)前,和春節(jié),紅色相關的產品,反饋表現(xiàn)很好。

但春節(jié)一過,反饋就會出現(xiàn)很大差別。

這個就是我研究小紅書的最大收獲,我們發(fā)現(xiàn)小紅書的筆記,都要講究“天時”。

天氣變化,節(jié)日,甚至電影,電視劇,熱搜,甚至比產品本身,更影響用戶的行為反饋結果。

所以,中小賣家的逆襲機會,都出現(xiàn)在預測“天時”。

我們也做了一個表格,什么時間發(fā)什么樣的筆記,能順應“天時”,想要的可以聯(lián)系108將社群里,你的專屬班主任索取。

2022淘系排序算法|賈真和電商108將

【解決辦法】
算法在樣本重要性和時效性上,做權衡。

2.正確性
成交反饋延遲,這個是我之前反復說到的。

家具類目,如果用成交作為反饋,轉化周期長,反饋的準確性就會很低。

比如,這個用戶點擊了某個產品,未購買,系統(tǒng)如果把它當成負樣本,準確性就大大降低。

【解決辦法】
新的重要性采樣策略,把加購當成“流模式”更新的維度。

不斷地用“批模式”反饋結果,來升級流模式算法。

3.算力問題
數(shù)據量級太大,在線實時更新,對于算力要求太大

【解決辦法】
從客戶端和云兩個方向,做數(shù)據更新。

客戶端上的數(shù)據,不上傳到阿里云,這樣利用了客戶手機的算力,來實現(xiàn)千人千面。

商品的多模態(tài)表示學習

第7張ppt,里面提到了搜索學習商品的特征信息包含哪些。

2022淘系排序算法|賈真和電商108將

1.商品信息,賣家信息,品牌信息,類目信息

2.銷量信息。

3.展示價格,類目價格檔(價格千人千面依據)。

4.文本信息:不僅抓取標題,還會抓取評價里的文本。

5.圖像信息:產品圖,同款圖(同款打散)。

【重點】
連衣裙舉例,主圖展示的款式,是服飾品類的點擊率預估的重要標準。

也就是說,搜索可以通過圖片識別,把圖片款式識別成“風格”,然后把產品推送給喜好相應風格的人。

產品的款式,款式的背景,都會影響到圖片識別的款式。

【舉例】
我喜歡干凈的圖片,所以我在小紅書里刷到的都是干凈的圖片。

但是我看別人小紅書刷到的,都是牛皮癬的,說明主圖制作的風格,也會影響到人群千人千面。

系統(tǒng)創(chuàng)新

最后一張ppt,里面提到了目前淘系搜索的一個創(chuàng)新。

2022淘系排序算法|賈真和電商108將

為了降低數(shù)據處理的量級,在用戶客戶端(手機,pc)建立神經網絡,這樣客戶行為數(shù)據,就不用上傳到阿里云,也能實現(xiàn)顧客手機端的千人千面。

【舉例】
你搜索到第一屏結果,有了點擊行為,那么你第二屏的排序,就會基于你第一屏內容的行為,進行實時的排序變化。

好了,我們今天的2022年最新淘系算法的解讀,就到這里。

本文經授權發(fā)布,不代表增長黑客立場,如若轉載,請注明出處:http://m.gptmaths.com/quan/57786.html

(6)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2022-02-14 09:36
下一篇 2022-02-14 09:58

增長黑客Growthhk.cn薦讀更多>>

發(fā)表回復

登錄后才能評論