日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢(xún)客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

這是OpenAI官方的cookebook最新更新的一篇技術(shù)博客,里面說(shuō)明了為什么我們需要使用embeddings-based的搜索技術(shù)來(lái)完成問(wèn)答任務(wù)。

本文原文來(lái)自DataLearner官方博客:OpenAI官方教程:如何使用基于embeddings檢索來(lái)解決GPT無(wú)法處理長(zhǎng)文本和最新數(shù)據(jù)的問(wèn)題 | 數(shù)據(jù)學(xué)習(xí)者官方網(wǎng)站(Datalearner)


 

盡管GPT的能力很強(qiáng),但是OpenAI認(rèn)為,基于embeddings的搜索依然十分重要。甚至,這種方式比模型做fine-tuning更好。本篇博客將簡(jiǎn)單介紹一下為什么OpenAI認(rèn)為目前基于embeddings的搜索是GPT的最強(qiáng)補(bǔ)充能力!

一、GPT的缺點(diǎn)

盡管目前GPT-4或者ChatGPT的能力已經(jīng)很強(qiáng)大,但是目前它依然有很大的缺陷:

 

  • 訓(xùn)練數(shù)據(jù)是基于2021年9月之前的數(shù)據(jù),缺少最新的數(shù)據(jù)
  • 無(wú)法訪問(wèn)我們無(wú)法公開(kāi)的文檔
  • 基于歷史會(huì)話中獲取信息

 

因此,OpenAI發(fā)布了這樣一篇文檔,說(shuō)明如何使用兩步搜索回答來(lái)增強(qiáng)GPT的能力:

 

  • 搜索:搜索您的文本庫(kù)以查找相關(guān)的文本部分。
  • 請(qǐng)求:將檢索到的文本部分插入到發(fā)送給GPT的消息中,并向其提出問(wèn)題。
二、為什么搜索比f(wàn)ine-tuning更好?

 

GPT可以通過(guò)兩種方式學(xué)習(xí)知識(shí):

 

  • 通過(guò)模型權(quán)重(即在訓(xùn)練集上微調(diào)模型)
  • 通過(guò)模型輸入(即將知識(shí)插入到輸入消息中)

 

盡管微調(diào)可能感覺(jué)更自然——畢竟,通過(guò)數(shù)據(jù)訓(xùn)練是GPT學(xué)習(xí)所有其他知識(shí)的方式——但OpenAI通常不建議將其作為教授模型知識(shí)的方式。微調(diào)更適合于教授專(zhuān)業(yè)任務(wù)或風(fēng)格,對(duì)于事實(shí)回憶來(lái)說(shuō)則不太可靠。

注意,這里說(shuō)的是事實(shí)回憶,也就是說(shuō),如果你有自己的數(shù)據(jù),只想從數(shù)據(jù)中獲得知識(shí)或者獲得相關(guān)的內(nèi)容,那么搜索比微調(diào)可能更好。舉個(gè)例子來(lái)說(shuō),如果你有大批的歷史數(shù)據(jù),你只想找到數(shù)據(jù)中你需要的部分,包括某些概念在哪里出現(xiàn)過(guò),為什么使用了它等等。這些都算是事實(shí)回憶。

但是,如果你希望模型可以基于某種模式生成某些內(nèi)容。例如,你希望模型可以基于XX風(fēng)格生成某些工作日志甚至是宣傳內(nèi)容,那么微調(diào)可能效果更好。

類(lèi)比來(lái)說(shuō),模型權(quán)重就像長(zhǎng)期記憶。當(dāng)您對(duì)模型進(jìn)行微調(diào)時(shí),就像為一周后的考試而學(xué)習(xí)。當(dāng)考試到來(lái)時(shí),模型可能會(huì)忘記細(xì)節(jié),或者錯(cuò)誤地記住它從未讀過(guò)的事實(shí)。

相比之下,消息輸入就像短期記憶。當(dāng)您將知識(shí)插入消息時(shí),就像帶著開(kāi)放的筆記參加考試。有了筆記,模型更有可能得出正確的答案。

相對(duì)于微調(diào),文本搜索的一個(gè)缺點(diǎn)是每個(gè)模型一次只能讀取有限數(shù)量的文本,以O(shè)penAI為例,其一次輸入的內(nèi)容限制如下:

模型名稱(chēng)

文本最長(zhǎng)輸入

gpt-3.5-turbo

4096個(gè)tokens(大約5頁(yè))

gpt-4

8192個(gè)tokens(大約10頁(yè))

gpt-4-32k

32768個(gè)tokens(約40頁(yè))

延續(xù)這個(gè)比喻,您可以將模型想象成一位學(xué)生,盡管可能有許多參考書(shū)可供借鑒,但一次只能查看幾頁(yè)筆記。

因此,為了構(gòu)建一個(gè)能夠利用大量文本回答問(wèn)題的系統(tǒng),OpenAI建議使用“搜索-提問(wèn)”方法。

三、文本檢索

搜索文本的方法很多,包括:

 

  • 基于詞匯的搜索(Lexical-based)
  • 基于圖形的搜索(Graph-based)
  • 基于嵌入的搜索(Embedding-based)

 

OpenAI推薦的詞嵌入方法。嵌入很容易實(shí)現(xiàn),并且在問(wèn)題中表現(xiàn)尤為出色,因?yàn)閱?wèn)題通常在詞匯上不會(huì)與它們的答案重疊。

可以考慮將僅使用嵌入的搜索視為作為整個(gè)系統(tǒng)的起點(diǎn)。更好的搜索系統(tǒng)可能會(huì)結(jié)合多種搜索方法,以及特性,如受歡迎程度、最近性、用戶歷史記錄、與先前搜索結(jié)果的冗余、點(diǎn)擊率數(shù)據(jù)等。

通過(guò)將問(wèn)題首先轉(zhuǎn)換為假設(shè)的答案然后再進(jìn)行嵌入的技術(shù),如HyDE,也可以提高問(wèn)答檢索的性能。同樣,GPT還可以通過(guò)自動(dòng)將問(wèn)題轉(zhuǎn)換為一組關(guān)鍵詞或搜索術(shù)語(yǔ)來(lái)潛在地改善搜索結(jié)果。

四、如何建立基于embeddings的搜索系統(tǒng)來(lái)解決問(wèn)題

總的來(lái)說(shuō),這樣的系統(tǒng)包含3個(gè)步驟:準(zhǔn)備需要檢索的知識(shí)、檢索、提問(wèn)即可:

 

  • 準(zhǔn)備搜索數(shù)據(jù)(僅一次)收集:即獲取你要用的數(shù)據(jù),例如OpenAI的案例是下載幾百篇有關(guān)2022年奧運(yùn)會(huì)的維基百科文章切塊:將文檔分成短小的、大多是自包含的部分以進(jìn)行嵌入嵌入:使用OpenAI API對(duì)每個(gè)部分?jǐn)?shù)據(jù)獲得embeddings結(jié)果存儲(chǔ):存儲(chǔ)embedding是(對(duì)于大型數(shù)據(jù)集,可以使用向量數(shù)據(jù)庫(kù))
  • 搜索(每次查詢(xún)一次)給定用戶問(wèn)題,從OpenAI API生成查詢(xún)的embeddings使用embeddings,按照與查詢(xún)相關(guān)性對(duì)文本部分進(jìn)行排序
  • 提問(wèn)(每次查詢(xún)一次)將問(wèn)題和最相關(guān)的部分插入到發(fā)送給GPT的消息中返回GPT的答案

 

簡(jiǎn)單總結(jié)一下就是將原始數(shù)據(jù)用嵌入的方式存儲(chǔ),然后針對(duì)問(wèn)題獲取embeddings結(jié)果,再利用這個(gè)結(jié)果檢索最相似的內(nèi)容,把這個(gè)提問(wèn)和最相似的結(jié)果發(fā)給GPT,獲得GPT的回答即可。也就是說(shuō),這是另一種解決GPT無(wú)法回答最新數(shù)據(jù)和長(zhǎng)文本內(nèi)容的方法!

成本

這個(gè)方法比原始的方法來(lái)說(shuō)多了幾個(gè)步驟,但是成本并不一定更多,因?yàn)镚PT的接口比embedding的接口更貴。如果系統(tǒng)中查詢(xún)次數(shù)比較多,那么成本主要在步驟上面的步驟3(提問(wèn))。有個(gè)簡(jiǎn)單的計(jì)算方法:

 

  • 對(duì)于使用gpt-3.5-turbo來(lái)說(shuō),每次查詢(xún)假設(shè)1000個(gè)tokens,那么每次查詢(xún)成本0.002美元,約等于1美元查詢(xún)500次
  • 對(duì)于gpt-4接口來(lái)說(shuō),假設(shè)每次查詢(xún)依然1000個(gè)tokens,那么每次查詢(xún)成本0.03美元,一美元可以查詢(xún)30次!

 

但是這只是簡(jiǎn)單估算,具體的成本可能還要看系統(tǒng)什么樣子。

總結(jié)

這是一個(gè)非常棒的idea??梢越鉀Q目前GPT或者其它大模型沒(méi)有最新數(shù)據(jù)或者輸入限制的問(wèn)題。在AutoGPT中,作者也有一個(gè)思路,就是每次都把最近的問(wèn)題以及最相關(guān)的目標(biāo)一起發(fā)送給GPT,獲得答案,以此來(lái)獲得更長(zhǎng)記憶的能力。但是從實(shí)現(xiàn)效果來(lái)說(shuō),OpenAI這種利用Embeddings先獲取最相關(guān)文本再提問(wèn)的方式可能是比較優(yōu)雅的。而且也可以控制輸入和輸出的tokens。

官方有代碼實(shí)現(xiàn)案例參考原文末尾鏈接:OpenAI官方教程:如何使用基于embeddings檢索來(lái)解決GPT無(wú)法處理長(zhǎng)文本和最新數(shù)據(jù)的問(wèn)題 | 數(shù)據(jù)學(xué)習(xí)者官方網(wǎng)站(Datalearner)

分享到:
標(biāo)簽:GPT
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定