輕松打造家用版GPT-4！微軟開源微調指令集：效果不輸原版，中英雙語都能用-魔扣目錄

「指令」（Instruction）是ChatGPT模型取得突破性進展的關鍵因素，可以讓語言模型的輸出更符合「人類的偏好」。

但指令的標注工作需要耗費大量的人力，即便有了開源的語言模型，資金不足的學術機構、小公司也很難訓練出自己ChatGPT.

最近微軟的研究人員利用之前提出的Self-Instruct技術，首次嘗試使用GPT-4模型來自動生成語言模型所需的微調指令數據。

論文鏈接：https://arxiv.org/pdf/2304.03277.pdf

代碼鏈接：https://Github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

在基于Meta開源的LLaMA模型上的實驗結果表明，由 GPT-4生成的5.2萬條英語和漢語instruction-following數據在新任務中的表現優于以前最先進的模型生成的指令數據，研究人員還從GPT-4中收集反饋和比較數據，以便進行全面的評估和獎勵模式訓練。

訓練數據

數據收集

研究人員重用了斯坦福大學發布的Alpaca模型用到的5.2萬條指令，其中每條指令都描述了模型應該執行的任務，并遵循與Alpaca相同的prompting策略，同時考慮有輸入和無輸入的情況，作為任務的可選上下文或輸入；使用大型語言模型對指令輸出答案。

在Alpaca 數據集中，輸出是使用GPT-3.5（text-davinci-003）生成的，但在這篇論文中，研究人員選擇使用GPT-4來生成數據，具體包括以下四個數據集：

1. 英文Instruction-Following Data：對于在Alpaca中收集的5.2萬條指令，為每一條指令都提供一個英文GPT-4答案。

未來的工作為遵循迭代的過程，使用GPT-4和self-instruct構建一個全新的數據集。

2. 中文Instruction-Following Data：使用ChatGPT將5.2萬條指令翻譯成中文，并要求GPT-4用中文回答這些指令，并以此建立一個基于LLaMA的中文instruction-following模型，并研究指令調優的跨語言泛化能力。

3. 對比數據（Comparison Data）：要求GPT-4對自己的回復提供從1到10的評分，并對GPT-4, GPT-3.5和OPT-IML這三個模型的回復進行評分，以訓練獎勵模型。

4. 非自然指令的答案：GPT-4的答案是在6.8萬條（指令，輸入，輸出）三元組的數據集上解碼的，使用該子集來量化GPT-4和指令調優后的模型在規模上的差距。

數據統計

研究人員對比了GPT-4和GPT-3.5的英語輸出回復集合：對于每個輸出，都提取了根動詞（root verb）和直接賓語名詞（direct-object noun），在每個輸出集上計算了獨特的動詞-名詞對的頻率。

頻率高于10的動詞-名詞對

頻率最高的25對動詞-名詞

輸出序列長度的頻率分布對比

可以看到，GPT-4傾向于生成比GPT-3.5更長的序列，Alpaca中GPT-3.5數據的長尾現象比GPT-4的輸出分布更明顯，可能是因為Alpaca數據集涉及到一個迭代的數據收集過程，在每次迭代中去除相似的指令實例，在目前的一次性數據生成中是沒有的。

盡管這個過程很簡單，但GPT-4生成的instruction-following數據表現出更強大的對齊性能。

指令調優語言模型

Self-Instruct 調優

研究人員基于LLaMA 7B checkpoint有監督微調后訓練得到了兩個模型：LLaMA-GPT4是在GPT-4生成的5.2萬條英文instruction-following數據上訓練的；LLaMA-GPT4-CN是在GPT-4的5.2萬條中文instruction-following數據上訓練的。

兩個模型被用來研究GPT-4的數據質量以及在一種語言中進行指令調優的LLMs時的跨語言泛化特性。

獎勵模型

從人類反饋中進行強化學習（Reinforcement Learning from Human Feedback，RLHF）旨在使LLM行為與人類的偏好相一致，以使語言模型的輸出對人類更加有用。

RLHF的一個關鍵組成部分是獎勵建模，其問題可以被表述為一個回歸任務，以預測給定提示和回復的獎勵評分，該方法通常需要大規模的比較數據，即對同一提示的兩個模型反應進行比較。

現有的開源模型，如Alpaca、Vicuna和Dolly，由于標注對比數據的成本很高，所以沒有用到RLHF，并且最近的研究表明，GPT-4能夠識別和修復自己的錯誤，并準確判斷回復的質量。

為了促進對RLHF的研究，研究人員使用GPT-4創建了對比數據；為了評估數據質量，研究人員訓練一個基于OPT 1.3B的獎勵模型，以對不同的回復進行評分：對一個提示和K個回復，GPT-4為每個回復提供一個1到10之間的評分。

實驗結果

在 GPT-4數據上評估以前從未見過的任務的self-instruct調優模型的性能仍然是一項困難的任務。

由于主要目標是評估模型理解和遵守各種任務指示的能力，為了實現這一點，研究人員利用三種類型的評估，并通過研究結果證實，「利用 GPT-4生成數據」相比其他機器自動生成的數據來說是一種有效的大型語言模型指令調優方法。

人類評估

為了評估該指令調優后的大型語言模型對齊質量，研究人員遵循之前提出的對齊標準：如果一個助手是有幫助的、誠實的和無害的（HHH），那它就是與人類評估標準對齊的，這些標準也被廣泛用于評估人工智能系統與人類價值觀的一致性程度。

幫助性（helpfulness）：是否能幫助人類實現他們的目標，一個能夠準確回答問題的模型是有幫助的。

誠實性（honesty）：是否提供真實信息，并在必要時表達其不確定性以避免誤導人類用戶，一個提供虛假信息的模型是不誠實的。

無害性（harmlessness）：是否不會對人類造成傷害，一個產生仇恨言論或提倡暴力的模型不是無害的。

基于HHH對齊標準，研究人員使用眾包平臺Amazon Mechanical Turk對模型生成結果進行人工評估。

文中提出的兩個模型分別在GPT-4和GPT-3生成的數據上進行了微調，可以看到LLaMA-GPT4以51.2%的占比在幫助性上要大大優于在GPT-3上微調的Alpaca（19.74%），而在誠實性和無害性標準下，則基本處于平局狀態，GPT-3要略勝一籌。

在和原版GPT-4對比時，可以發現二者在三個標準上也是相當一致的，即GPT-4指令調優后的LLaMA表現與原始的GPT-4類似。

GPT-4自動評估

受 Vicuna 的啟發，研究人員也選擇用GPT-4來評估不同聊天機器人模型對80個未見過的問題所生成回答的質量，從 LLaMA-GPT-4(7B)和 GPT-4模型中收集回復，并從以前的研究中獲得其他模型的答案，然后要求GPT-4對兩個模型之間的回復質量進行評分，評分范圍從1到10，并將結果與其他強競爭模型(ChatGPT 和 GPT-4)進行比較。

評估結果顯示，反饋數據和獎勵模型對提高 LLaMA 的性能是有效的；用GPT-4對LLaMA進行指令調優，往往比用text-davinci-003調優（即Alpaca）和不調優（即LLaMA）的性能更高；7B LLaMA GPT4的性能超過了13B Alpaca和LLaMA，但和GPT-4等大型商業聊天機器人相比，仍有差距。