內部人擔憂“威脅人類生存”！OpenAI的神秘重大突破“Q*算法”究竟是什么？-魔扣目錄

　據報道，Q*可能具備GPT-4所不具備的基礎數學能力，或意味著與人類智能相媲美的推理能力，網友推測，這可能代表AI target=_blank class=infotextkey>OpenAI朝著其設定的AGI目標邁出了一大步。

　　隨著OpenAI CEO奧特曼回歸，宮斗大戲告一段落，但仍留下了許多未接的謎題。其中最為關鍵的，就是當初奧特曼為何會被董事會解雇。

　　昨日，有媒體透露，就在奧特曼被開除四天前，幾名研究人員向董事會發出了一封信，警告一項強大的AI發現（Q*）可能威脅全人類。此外，OpenAI CTO Mira Murati此前在致員工的內部信件中提到了一個代號為“Q*”的項目。據她稱，該項目為“董事會對奧特曼的一系列不滿中的因素之一”。

　　據多家媒體猜測，Q*讓OpenAI實現AGI的步伐大大提速，但奧特曼可能沒有和董事會詳細披露Q*的進展到底有多大，這也符合董事會在解雇奧特曼時所說的“在與董事會溝通時沒有始終保持坦誠”。

　　就在被解雇之前，奧特曼還在公開活動中表示：

“在OpenAI的歷史上，我們已經取得了4次突破，最近一次是在過去的幾周里。當我們把無知的面紗撕下，把發現的前沿向前推進時，我就在房間里。”

　　所謂的第四次突破，指的可能就是Q*項目。

　　什么是 Q*？

　　什么是Q*？

　　Q*讀作Q star，目前OpenAI內部沒有任何關于Q*的詳細信息流出。

　　據一些業內人士猜測，它可能是是機器學習算法Q-Learning（Q學習）的同義詞，也許是OpenAI借助Q學習算法打造的新模型的代號，也許是一個相關的項目名稱。

　　科技博客PC Guide指出，OpenAI使用的Q*指的大概是貝爾曼方程中的最優值函數，Q*可能代表OpenAI找到或接近了效率優化算法的最優解。

　　根據天風證券分析師孔蓉的說法：

Q學習是一種基于強化學習的算法，用來在馬爾科夫決策過程中求解最優控制問題。它的目標是通過學習最優策略，使智能體在未知環境中做出最佳選擇。

Q學習依據貝爾曼方程更新狀態-動作對應的Q值，逼近最優值函數。智能體通過與環境交互，觀察到新的狀態和獎勵，來更新執行各個動作的Q值。

　　所謂貝爾曼方程，也被稱為動態規劃方程，是指數學家理查德·貝爾曼提出的用于解決復雜多階段問題的公式，通過求解該方程可以找到最優值函數和最優策略。

　　運行算法的人（或計算機）可以輸入一個目標函數，例如“旅行時間最短、成本最低、利潤最大、效用最大”等。然后，算法將決定采取何種最佳行動來實現預期結果。

　　簡單來說，Q學習可以通過探索所有可能的路徑，學習到通往預期獎勵的最短路徑（最短路線），通過試錯找到更優化的路徑，并隨著時間的推移達到優化狀態，每次都做出更好的決策。

　　據媒體報道，在奧特曼被解雇之前，OpenAI在內部對Q*進行了演示，顯示Q*能夠解決小學程度的數學問題。

　　雖然完成小學數學題聽起來沒什么出色之處，但需要強調的是，包括GPT-4在內，世界上最先進的大語言模型通常都更擅長基于語言的任務，即使面對加減乘除這樣的基礎數學都會犯錯誤。

　　如果真如報道所說，Q*有能力處理數學問題并給出明確答案，即使只是小學數學，那也意味著巨大的飛躍。基礎數學能力或意味著與人類智能相媲美的推理能力，也意味著OpenAI朝著其設定的AGI目標邁出了一大步。

　　另外據一些網友猜測，Q*背后的模型模型可能已經具備自主學習和自我改進的能力，或者能夠通過評估其行為的長期后果，在廣泛的場景中做出復雜的決策，可能已具備輕微自我意識。

　　最樂觀、或者最可怕的假設就是，OpenAI已經完成了打造AGI的基礎工作。

　　聽起來很離譜，但確實有可能是真的。

　　就在一個月前，華爾街見聞曾轉載過MIT科技評論對OpenAI首席科學家Ilya Sutskever的專訪，他當時稱，ChatGPT可能已經有了意識。

　　Q*會產生哪些后續影響？毀滅人類？

　　目前，OpenAI所給出的官方回應是，奧特曼被解雇，與公司的研究進展無關。

　　但仍然擋不住網友天馬行空的猜想和陰謀論。

　　一位Reddit網友說，對于AI界而言，Q*的出現可能就像是，一個人想敲石頭生火，敲了幾年都沒什么成果，結果上禮拜石頭突然敲出火星了。

　　另一位Reddit網友已經開始想象AGI誕生之后的場景了：

AI開始發明東西，破解互聯網上的一切加密，寫出以人類的數學能力理解不了的程序．．．

　　不過，理性地想，AGI的誕生大概率不會這么快。Q*可能只是人類以后漫長探索征程的開始。

　　根據天風證券分析師孔蓉的觀察，OpenAI近期的招聘進程表明其在進一步增強強化學習系統的決策能力。

OpenAI近期持續引入強化學習和決策算法研究人員。23年7月份新引進的研究員Noam Brown，開展多步推理和多智能體互動方面的研究。

Noam Brown 此前參與發表的工作將語言模型與規劃和強化學習算法結合，大幅提升了AI在復雜策略游戲中的表現，開發出第一批在德撲無上限游戲中擊敗頂級玩家的AI。

　　OpenAI 近期于 5 月份發布的研究也表明，調整訓練方式和引入更大規模的監督數據，將會顯著提升強化學習系統的數學推理能力。OpenAI 引入針對過程的強化學習監督，進一步提升大模型在數據推理與計算的準確性。

　　據孔融推測，強化學習與決策算法進步或帶來Q*大模型能力突破，GPT4 + 強化學習和決策算法，或能實現更強的AI Agent能力。

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

內部人擔憂“威脅人類生存”！OpenAI的神秘重大突破“Q*算法”究竟是什么？

數獨大挑戰2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運動步數有氧達人2018-06-03

每日養生app2018-06-03

體育訓練成績評定2018-06-03