日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

商品的信息結(jié)構(gòu)化程度在某種意義上來說決定導(dǎo)購效率的天花板。閑魚商品結(jié)構(gòu)化和淘寶/天貓最大的區(qū)別在于閑魚賣家都是個(gè)人用戶,無論是專業(yè)程度還是行動力遠(yuǎn)不及淘寶賣家。為了不阻礙商品發(fā)布,閑魚一直倡導(dǎo)輕發(fā)布,理想狀況用戶拍完照片輸入一段描述即可完成發(fā)布。但是這和商品結(jié)構(gòu)化相悖:賣家輸入信息越多,越有利于商品結(jié)構(gòu)化,但是用戶發(fā)布商品的意愿就會越低。我們要做的就是在不阻礙用戶發(fā)布商品的前提下提高商品結(jié)構(gòu)化程度。

結(jié)構(gòu)化歷程

閑魚商品結(jié)構(gòu)化的探索一直沒有停過。目前為止,可以劃分出四個(gè)階段

閑魚的商品結(jié)構(gòu)化是如何演進(jìn)的(超詳細(xì))
  • 2016年及以前:利用文本挖掘算法,從用戶輸入的標(biāo)題/描述中提取出結(jié)構(gòu)化信息。

  • 2017年:文本屬性依賴用戶輸入。遺憾的是大部分閑魚用戶輸入相當(dāng)"簡潔"。于是我們把目光轉(zhuǎn)向圖片:1)從商品圖片中提取結(jié)構(gòu)化信息。2)根據(jù)商品圖片預(yù)測商品類目。

  • 2018年:2018年以前閑魚類目處于刀耕火種的原始狀態(tài),發(fā)布時(shí)需要選擇商品應(yīng)該在哪個(gè)類目之下。所以我們建立了閑魚渠道類目,將類目映射到渠道類目。另一個(gè)嘗試就是將閑魚商品直接與天貓的SPU(Standar Product Unit,標(biāo)準(zhǔn)產(chǎn)品單元)映射。

  • 2019年:啟動了哥倫布項(xiàng)目,進(jìn)一步挖掘圖像潛力。通過圖像相似度識別,直接將閑魚商品和淘寶/天貓商品進(jìn)行關(guān)聯(lián),通過對淘寶同款的結(jié)構(gòu)化信息清洗得到閑魚商品的結(jié)構(gòu)化信息。

當(dāng)前結(jié)構(gòu)化策略

目前圍繞著算法,我們在商品發(fā)布的各個(gè)環(huán)節(jié)都提供了同款關(guān)聯(lián)的入口:從智能發(fā)布到發(fā)布完成之后的算法識別以及售賣體系。

閑魚的商品結(jié)構(gòu)化是如何演進(jìn)的(超詳細(xì))

現(xiàn)階段閑魚商品結(jié)構(gòu)化圍繞著算法,在商品發(fā)布的各個(gè)環(huán)節(jié)都提供了同款關(guān)聯(lián)的入口:從智能發(fā)布到發(fā)布完成之后的算法識別以及售賣體系。

  • 端側(cè)智能發(fā)布。商品發(fā)布過程中,充分利用端側(cè)計(jì)算能力,將商品結(jié)構(gòu)化的產(chǎn)品問題,轉(zhuǎn)變成同款商品匹配這樣的技術(shù)問題。模糊檢測,相似度檢測,主體識別這些算法都是在端側(cè)實(shí)現(xiàn)的。

  • 算法圖像識別。商品發(fā)布完成后,借助圖像識別算法,對于精度較高的識別結(jié)果直接和商品建立映射關(guān)系。

  • 售賣項(xiàng)目。當(dāng)圖像識別算法只能縮小范圍而無法精確給出結(jié)果時(shí),借助于售賣任務(wù)體系,可以讓用戶選擇完成同款關(guān)聯(lián)。

通過同款關(guān)聯(lián),閑魚商品結(jié)構(gòu)化往前走了一大步,使得閑魚商品結(jié)構(gòu)化的比例有將近47%的提升。盡管如此閑魚商品結(jié)構(gòu)化現(xiàn)狀仍不容樂觀,主要體現(xiàn)在

  • 同款覆蓋率。覆蓋雖然提升比例較大,但離目標(biāo)還有一定的距離。

  • 同款精度。1)部分類目精度低,比如手機(jī)和手機(jī)殼在圖像上相似,但實(shí)際是不同的商品。2)整體精度離目標(biāo)仍有較大gap。

  • 結(jié)構(gòu)化信息應(yīng)用。目前只應(yīng)用在了搜索場景的商品擴(kuò)招回,結(jié)構(gòu)化信息的應(yīng)用仍有待充分挖掘。

 

未來的打法

當(dāng)前結(jié)構(gòu)化策略面臨著一個(gè)問題:當(dāng)算法能力達(dá)到上限后,如何繼續(xù)推進(jìn)結(jié)構(gòu)化覆蓋&精度提升?目前為止起碼有三種手段

  • 算法多模態(tài)。集團(tuán)有著眾多在各自領(lǐng)域深耕的圖像算法團(tuán)隊(duì),比如在女裝等垂直類目上沉淀深厚的專家系統(tǒng)。融合多算法團(tuán)隊(duì)能在一定程度上提升算法能力的天花板。

  • 文本識別。在下面的case中,單純憑借圖片無法識別是否是同款,因?yàn)閳D像確實(shí)非常相似,這個(gè)時(shí)候就需要文本的輔助。

閑魚的商品結(jié)構(gòu)化是如何演進(jìn)的(超詳細(xì))
  • 輸入輔助。文本識別模型依賴用戶的輸入。輸入輔助引導(dǎo)用戶輸入更多高質(zhì)量文本的同時(shí)降低用戶描述成本。另一方面輸入輔助也可以承擔(dān)部分屬性補(bǔ)全的能力。

然而在現(xiàn)階段以算法為中心的工程體系中,上面的策略應(yīng)用上會面臨很多痛點(diǎn)

  • 如何定義結(jié)構(gòu)化。本質(zhì)上是結(jié)構(gòu)化標(biāo)準(zhǔn)的問題,一方面相同的商品算法識別出來的結(jié)果千差萬別,相同的商品不同算法識別出來的結(jié)果最終如何歸一化成相同的同款。另一方面對于算法覆蓋不到的領(lǐng)域如何通過其他手段來完成結(jié)構(gòu)化。

  • 算法多模態(tài)接入成本飆升。如何抹平多算法之間的差異,算法對大盤的貢獻(xiàn),各個(gè)算法之間的效果快速上線對比?

  • 輸入輔助。輸入輔助需要解決2個(gè)問題:1)輸入聯(lián)想素材池來源。2)用戶體驗(yàn),輸入輔助對實(shí)時(shí)響應(yīng)有著非常高的要求。

這些問題大部分本質(zhì)還是工程問題(結(jié)構(gòu)化定義,多算法融合,輸入輔助等)。所以轉(zhuǎn)換一下結(jié)構(gòu)化思路:以算法為中心轉(zhuǎn)向以工程為中心,把算法當(dāng)作能力補(bǔ)齊插件。結(jié)構(gòu)化圍繞著屬性補(bǔ)齊做如下抽象

閑魚的商品結(jié)構(gòu)化是如何演進(jìn)的(超詳細(xì))

總體策略

閑魚的商品結(jié)構(gòu)化是如何演進(jìn)的(超詳細(xì))

總結(jié)起來做這幾件事

  • 閑魚vid體系重新定義結(jié)構(gòu)化標(biāo)準(zhǔn)。

  • 算法多模態(tài)接入,提升覆蓋&精度。

  • 引入規(guī)則引擎,服務(wù)于輸入輔助等場景。

  • 結(jié)構(gòu)化數(shù)據(jù)持久化&特征計(jì)算,提升搜索推薦等導(dǎo)購場景的匹配效率。

 

重新定義結(jié)構(gòu)化

定義結(jié)構(gòu)化的標(biāo)準(zhǔn),一方面可以抹平多算法接入帶來的差異,另一方面對于拓展算法邊界也有重要意義。所以重新給商品結(jié)構(gòu)化下一個(gè)定義:如果一個(gè)商品的關(guān)鍵屬性都有,那我們認(rèn)為這個(gè)商品就是結(jié)構(gòu)化的。

閑魚的商品結(jié)構(gòu)化是如何演進(jìn)的(超詳細(xì))

這套標(biāo)準(zhǔn)稱為閑魚vid(想好名字前暫且叫vid)體系,基于閑魚渠道類目+屬性組成。這套標(biāo)準(zhǔn)有兩種方式生成

  • 天貓spu體系。天貓的spu運(yùn)營到現(xiàn)在,數(shù)據(jù)體系已經(jīng)較為完善,標(biāo)準(zhǔn)品類和閑魚有很大重疊部分,這部分可以直接實(shí)現(xiàn)spu互通。

  • 對于非標(biāo)品,從需求側(cè)分析而來。通過搜索推薦等導(dǎo)購場景反向分析可以拿到當(dāng)前買家關(guān)心的品類+屬性。這部分可以補(bǔ)齊SPU缺失的數(shù)據(jù)。

基于這套標(biāo)準(zhǔn)體系,可以很好的解決多算法接入問題:直接以vid體系對應(yīng)的種子商品集為候選池,實(shí)現(xiàn)同款掛靠。除此之外,算法沒法覆蓋的商品(圖文質(zhì)量較差)如果能確定類目和屬性,也能實(shí)現(xiàn)vid掛靠。

算法多模態(tài)

工程上主要解決算法接入效率問題。當(dāng)從商品發(fā)布到最后的導(dǎo)購主鏈路搭建完成,算法以插件化的方式運(yùn)行在主鏈路之上。

閑魚的商品結(jié)構(gòu)化是如何演進(jìn)的(超詳細(xì))

這里多模態(tài)主要包括兩方面:1)識別能力從圖像擴(kuò)展到文本,圖文結(jié)合。2)算法模型從單團(tuán)隊(duì)拓展到多團(tuán)隊(duì),能力互補(bǔ)。解決的問題主要包括

  • 屏蔽數(shù)據(jù)差異。不同算法數(shù)據(jù)產(chǎn)生方式的差異,實(shí)時(shí)/準(zhǔn)實(shí)時(shí)/離線。

  • 數(shù)據(jù)融合。算法快速上線/數(shù)據(jù)效果對比/結(jié)構(gòu)化信息入引擎。

  • 算法結(jié)果對齊。根據(jù)定義的結(jié)構(gòu)化標(biāo)準(zhǔn),抹平算法結(jié)果差異。如果識別出的同款商品本質(zhì)上是同一個(gè)商品,那多算法的識別結(jié)果最終應(yīng)當(dāng)能歸一化。

 

輸入輔助

輸入輔助需要解決兩個(gè)問題:

  • 聯(lián)想素材池來源:用戶輸入具有持續(xù)時(shí)間很短的特征,所以在較短時(shí)間內(nèi)輔助用戶進(jìn)行有價(jià)值的輸入很關(guān)鍵。

  • 用戶體驗(yàn):嚴(yán)苛的實(shí)時(shí)性要求。用戶輸入是一個(gè)連續(xù)且對時(shí)效要求極高的過程,所有數(shù)據(jù)的交互需在極短時(shí)間內(nèi)完成。

第一個(gè)問題很好解決,素材池提煉可以包括:

  • 搜索逆向分析產(chǎn)出。根據(jù)用戶query統(tǒng)計(jì)分析,可以得到買家關(guān)心的屬性。

  • 算法產(chǎn)出:算法對動銷高的商品進(jìn)行特征提取得到,并歸到對應(yīng)的渠道類目上。

  • 運(yùn)營行業(yè)經(jīng)驗(yàn)產(chǎn)出。

第二個(gè)問題最好的解法肯定是把所有的邏輯全部下放到端上本地執(zhí)行避免響應(yīng)問題。然而不可能把所有的邏輯放到端上,比如需要算法介入時(shí),我們不可能把復(fù)雜的算法模型運(yùn)行在端上。所以把素材池分成兩部分:

  • 需要算法介入的邏輯放在服務(wù)端來完成。

  • 其余邏輯選擇適當(dāng)時(shí)機(jī)下發(fā)給端上執(zhí)行,這部分需要保證良好的擴(kuò)展能力。

通過對輸入輔助的執(zhí)行邏輯進(jìn)行抽象發(fā)現(xiàn)其存在形式類似于規(guī)則引擎中的規(guī)則。在規(guī)則引擎中規(guī)則一般包含三要素:事實(shí),規(guī)則,模式。

閑魚的商品結(jié)構(gòu)化是如何演進(jìn)的(超詳細(xì))

這里的事實(shí)對應(yīng)著用戶的輸入,module對應(yīng)著單個(gè)判定條件,rule則對應(yīng)著條件判定以及對應(yīng)的action。以運(yùn)營的行業(yè)經(jīng)驗(yàn)產(chǎn)出為例,手機(jī)類目下有兩個(gè)很重要的屬性:1)是否維修過。2)是否過保。那這條經(jīng)驗(yàn)可以翻譯成兩條規(guī)則:1)IF類目=手機(jī)AND屬性不包含 是否維修過THEN引導(dǎo)用戶選擇。2)IF類目=手機(jī)AND屬性不包含 是否過保THEN引導(dǎo)用戶選擇。當(dāng)執(zhí)行邏輯被抽象成若干條規(guī)則時(shí),就可以在適當(dāng)?shù)臅r(shí)機(jī)下發(fā)到客戶端側(cè)本地執(zhí)行。整個(gè)流程抽象如下

閑魚的商品結(jié)構(gòu)化是如何演進(jìn)的(超詳細(xì))

當(dāng)新的運(yùn)營經(jīng)驗(yàn)或者分析數(shù)據(jù)產(chǎn)生時(shí),通過翻譯成規(guī)則可以很好的實(shí)現(xiàn)輔助輸入的擴(kuò)展性。通過規(guī)則的共享,客戶端的邏輯可以無感知的在服務(wù)端執(zhí)行。

上線效果

商品結(jié)構(gòu)化的目標(biāo)圍繞著結(jié)構(gòu)化信息的覆蓋&精度進(jìn)行,目前已經(jīng)上線了部分功能(文本同款以及算法多模態(tài)),從數(shù)據(jù)上看取得了不錯(cuò)的效果:

  • 算法多模態(tài)接入能對結(jié)構(gòu)化覆蓋占比8%絕對提升。

  • 文本同款正在分桶測試中,從分桶數(shù)據(jù)來看覆蓋上漲13%絕對值提升。

展望

結(jié)構(gòu)化的愿景是在不影響發(fā)布體驗(yàn)的前提下完成商品結(jié)構(gòu)化工作。理想情況下只需要一張照片,一段描述就能完成商品發(fā)布,其余工作統(tǒng)統(tǒng)移交給算法以及工程同學(xué)。當(dāng)圖像和文本內(nèi)容能被充分挖掘理解,標(biāo)簽成色甚至類目這些都可以去掉,用戶只需要點(diǎn)確認(rèn)發(fā)布按鈕即可。我們會不斷朝著這個(gè)目標(biāo)努力。

閑魚技術(shù)團(tuán)隊(duì)不僅是阿里巴巴集團(tuán)旗下閑置交易社區(qū)的創(chuàng)造者,更是移動與高并發(fā)大數(shù)據(jù)應(yīng)用新技術(shù)的引導(dǎo)者與創(chuàng)新者。我們與google Flutter/Dart小組密切合作,為社區(qū)貢獻(xiàn)了多個(gè)高star的項(xiàng)目和大量PR。我們正在積極探索深度學(xué)習(xí)和視覺技術(shù)在互動、交易、社區(qū)場景的創(chuàng)新應(yīng)用。閑魚技術(shù)與集團(tuán)中間件團(tuán)隊(duì)共同打造的FaaS平臺每天支持?jǐn)?shù)以千萬級用戶的高并發(fā)訪問場景。

 

 

分享到:
標(biāo)簽:閑魚
用戶無頭像

網(wǎng)友整理

注冊時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定