本來準備一篇文章搞定的,發現能講的還挺多的。所以,先寫這一篇,后面再續!都是很重要的概念!
請放心,這篇文章不是ChatGPT 生成的。是我一個字一個字敲進去的。
ChatGPT 一下子火起來。不過,對于還沒有認真研究這個領域的做數字營銷的朋友而言,很多術語撲面而來,理解起來太費勁。
畢竟,我們做數字營銷,是ChatGPT 等AIGC技術的應用者,但不是開發者。可是,如果不了解重要概念,在應用時候就會難以真正理解背后的原理,就會被具體的功能牽著鼻子走,而難以有創新。
所以,下面這些“黑話”,以及背后的邏輯,我們有必要知道。
GPT
GPT是“Generative Pre-trained Transformer”
(生成型預訓練變換模型)的縮寫,目的是為了使用深度學習生成人類可以理解的自然語言。
理解人類自然語言的模型有多種,GPT只是其中的一種。另一種很著名的模型是BERT 模型(后面會講)。
GPT也不只是用在跟你“聊天”上的ChatGPT ,它還有更底層作為基座的InstructGPT 。
目前我們討論的GPT一般指的是GPT-3以及它的升級版GPT-3.5,但GPT目前已經到了第四版,也就是GPT-4 。
GPT-3 是由人工智能公司OpenAl 訓練與開發,該模型設計基于谷歌開發的變換語言模型(Transformer 模型,后面會提到)。OpenAI 于 2020 年 5 月發表了GPT-3 的論文,微軟在 2020 年 9 月 22 日宣布取得了GPT-3 的獨家授權。
所以,現在大家都說,微軟贏麻了,谷歌慌得了,就是因為ChatGPT 微軟的“勢力范圍”。
畢竟,如果所有人都找ChatGPT 問問題,而不在搜索引擎上搜索,谷歌的廣告業務不就芭比Q了嗎?
但,遲早人們可以用自然語言跟機器對話得到問題的答案。搜索引擎作為信息入口的功能,肯定會被既能直接提供答案,又能作為信息入口的GPT等新方式所取代。
生成式AI 和判別式AI
生成式AI ,就是幫你做東西的AI。判別式AI ,就是機器能夠幫助辨別東西的AI,也叫決策式AI 。
比如,ChatGPT,在你提問之后說話給你巴拉巴拉一大堆,這就是生成式AI。你讓一個作圖AI,按照你提的要求做個畫,這也是生成式AI。
生成式AI 為啥火,因為它能夠直接響應人,直接跟人交流,這是人們最期待的AI 方式。就跟《星際穿越》里面的TARS 機器人一樣。
判別式AI ,也挺重要的,典型的就是讓機器具有像人一樣的認識能力。比如,人工視覺、聽音識曲、自動感知后自動判別然后再自動決策等。我們數字營銷行業的營銷自動化(MA ),就很可以利用上判別式AI 。比如,自主判別某個用戶是否屬于高機會型潛在客戶,然后自動為他提供相應的商業信息或營銷誘餌。
生成式AI 和判別式AI 沒有孰優孰劣之分,它們是機器智能的兩個必備能力。就如同人,既要有判斷力,也要有創造力。既能有決定做不做一件事情的能力,也要有能夠把事情做出來的能力。兩種AI 就是對應的人的這兩種能力。
語料
語言的材料。這個詞并不是在ChatGPT 等自然語言AI產生之后才產生的。例如,我們學習一門外語,也需要語料。畢竟,沒有人天生就懂一門自己從來沒有見過的語言。
我時常在想,當中國人第一次接觸英語的時候,是誰這么聰明,能第一個學會英語呢?肯定是一個“中外混血兒”,他的媽媽是老外,爸爸是中國人吧!
但事實上,并不需要這樣,據說最早學會外語的中國人是學者,或者應該說,最早學會中文的外國人是學者(南懷仁、湯若望這些),然后他們又教會中國人學會外語。他們怎么學會的?就是基于生活在中國(或者外國),而擁有了豐富的語料資源。
語料的英語是Corpus,字典上的解釋是:一套書面文本,特別是某一特定作者的全部作品或某一特定主題的寫作。
在ChatGPT 等模型中,語料被分解為Token 和各種向量關系,通過預訓練的方式,人們基于這些Token 和向量關系,建立起各種參數和模型,成為可被機器“消化、吸收”的原始學習素材。
所以,語料是ChatGPT的原材料,沒有語料,就沒有ChatGPT。
我這篇文章,未來就有很大可能成為某些自然語言人工智能模型的語料。
Token
Token 是語言模型用于處理和生成文本的文本單位。我們通常認為,一個單詞就是一個Token,但實際上并不如此,比如OpenAI 算兩個token,分別是open和ai,再比如ChatGPT是chat 、g、p 和t 這四個token。
Token對ChatGPT至關重要,是ChatGPT理解和生成語言的最基本元素。
在用戶輸入一段話后,它使用一個分詞算法將每個輸入的單詞拆分成token 。例如,“Hello world!”將被拆分為3個 token :[“Hello”,“world”,“!”]。“I’m hAppy