日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

點擊這里在線咨詢客服

網站：52003
待審：43
小程序：12
文章：1047590
會員：762

首頁 > 新聞資訊 > IT業界 >正文

首個AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮視頻文字詳解附上

發布時間：2024-05-18 16:45:32 作者：網友整理

白交衡宇發自凹非寺

量子位 | 公眾號 QbitAI

首個AI程序員，演示視頻大幅度造假？？？

不久之前震撼硅谷的Devin，再度震撼硅谷——但這次是被打假。

事情是這樣的：油管程序員博主Inte.NET of Bugs（以下簡稱光頭哥）對Devin的視頻進行了逐幀分析，逐一舉證說明了Devin并不如演示中那般神奇。

甚至有“自己現寫bug然后當場修復”的騷操作。

其它“罪證”，包括但不限于：

號稱能解決任何Upwork任務，但演示中解決的問題并不是prompt要解決的那一個，做無用功；
看起來在修復bug，實際上修復的bug人類程序員根本就不會犯；
沒有意識到簡單兩步就能解決問題，花里胡哨一頓操作，其實是自己把任務搞復雜了；
修改代碼的水平一言難盡。

此外，光頭哥花了半個多小時，把Devin演示視頻中的upwork任務完成了一遍——而Devin完成任務可能用時6個多小時。

啊這這這，真是好、大、一、口、瓜！

要知道，其背后公司Cognition AI手握10塊IOI金牌的活招牌，還在推出Devin當月宣布成功融資2100萬美金。

推特和YC上已經吵翻天了，讓這件事的討論度高居不下。

我請問呢？真的很討厭演示造假，讓demo看起來輕松達到意料之外的技術進步。

還有人表示自己很受傷，再也不會相信各種冒出來的創業公司的東西了。

emmmm……我還是把期待值全部留給OpenAI、Anthropic、DeepMind、FAIR這些公司和機構吧。

完整詳情，一起接著往下看。

35年從業者逐幀驗證

此次出來聲張正義的光頭哥，從事軟件行業已經35年。他首先聲明自己的立場：我并不反對高科技，但我確實反對過度炒作。

他自己也經常使用Github Copilot、ChatGPT、LIama2、Stable Diffusion。

事實上，在Devin剛推出時候，他就反對過“世界上第一個AI軟件工程師”這一說法。

此次則主要針對的是一些更為具體的說法。

比如之前Devin號稱能夠靠處理upwork任務來賺錢的。但在真正的演示中Devin并沒有做到這一點。

不信？沒關系，光頭哥帶著逐幀的證據來了。

總結如下：

Devin所處理的任務并非隨機，而是精心挑選；
與客戶實際需求有很大的出入；
實際操作過程，數次自己創造bug然后再修復；
很多毫無意義的操作，相當于幾十年前在C語言中才用的方法；

？？？

首先，來到了演示視頻的2.936秒處，在屏幕左上角有顯示他們搜索過這個內容。因此，這不是所謂“隨機”選擇的任務。

再來看客戶給到的具體需求。真正需求為“我想要利用這個庫來進行推理。你需要提供詳細的操作指南。我不想討論完成這項工作預計需要的時間。”

但給到Devin的需求卻是：我希望利用這個模型在這個庫中進行推理。請自己弄明白。

最后視頻末尾出現的Devin生成報告中，也沒有提及客戶實際需要的內容。

那么，這份工作的最終交付成果應該包括什么呢？

但Devin實際做了什么？

Devin第一次真正的嘗試，是它修改了一個名為requirements.txt文件,其中規定了代碼所依賴的庫版本。視頻中提到它正在更新代碼，但實際上更像是修改配置文件。

然后根據需求，需要Devin能建立自己的推理能力，并僅需使用樣例數據即可。但實際項目要比這個復雜得多。

結果很快，Devin就遇到了第一個命令行錯誤——打開圖像失敗、文件未找到、無此文件或目錄等。但在光頭哥實際復現時并沒有出現，結果研究發現，代碼倉庫壓根就不存在這個文件。

這相當于Devin自己創建了個bug，然后再修復bug。在接下來的操作中，Devin經歷了很多次這樣的“自建自修”。

不能說十分有用，只能說完全沒有必要。

接下來，再來看看代碼庫中這樣一個readme文件。正如視頻所展示的那樣，readme文件清晰地說明了該文件的功能和用法。在頁面右側,甚至還有一個小按鈕，點擊它就可以復制整條命令，然后粘貼到命令行窗口中，按下回車即可運行。

但Devin完全沒能理解，而又是自創了個項目。而寫的那段從緩沖區讀取數據的代碼十分糟糕。

于是光頭哥發出了靈魂拷問：

這不就是幾十年前在C語言等中才用的方法嗎？？？

這種做法顯然已經過時，正常人用Python/ target=_blank class=infotextkey>Python誰還會再寫這個代碼。這種代碼很難調試，它邏輯復雜，難以理解，很容易出現細微的錯誤。

此外，代碼庫中還存在一個真正的錯誤，但Devin既沒有發現也沒有修復。

然后光頭哥用谷歌搜索，按照GitHub 上一條相關評論修改了代碼，只花了1分07秒，問題就解決了。

最終光頭哥總共花了35分55秒復現了Devin的工作，而Devin實際花了多長時間呢？

如果細看視頻Demo，就會發現Devin處理工作前后有6個小時20分鐘的間隔。

視頻的前部分顯示的是3月9日下午3：25 的時間戳，但后半部分卻顯示的是當天晚上9：41。

而逐幀細看就有會發現一些奇怪且毫無意義的操作。

比如head -N 5 results.json | tail -N 5這個命令，它表示取這個JSON 文件的前五行，然后再取這些行的最后五行。

正確的做法應該是”head-5 results.json”。那個-N 是多余的。只要說 -5 就可以，不需要那些多余的東西。

最后光頭哥銳評，AI現在生成的內容有很多都十分愚蠢，反倒會讓事情變得更為復雜。

當看到它的任務列表時，會覺得：哇，Devin做了很多事情。但實際上可能并非如此。

網友：至少掌握了看起來很忙的技巧

對于此次Devin造假翻車，不少網友對現階段AI產品炒作嗤之以鼻。

我真的很討厭現在演示造假變得如此正?；?/p>

甚至還列出了三大炒作典范：Devin、rabbit、Humane。

也有網友調侃：Devin至少掌握了看起來很忙的技巧。

嗯？打工人有被內涵到。

不過也有一些支持的網友，比如這位沃頓商學院的教授Ethan Mollick。

他聲稱自己有早期訪問權，在體驗中發現真的很有趣。

他認為現在將Agent視作“炒作”為時尚早，未來幾個月Agent的能力將十分強大。

號稱“世界首個完全自主的AI軟件工程師”

有意思的是，演示造假事件爆出來的時間，距離Cognition AI推出Devin僅過去了一個月。

咱們一起來回顧一下。

一個月前的3月13日，Cognition AI在推特上介紹了自家推出的Devin，并稱其為“世界上首個AI軟件工程師”。

只需一句指令，它可端到端地處理整個開發項目。

主創介紹，Devin在長程推理和規劃上面下了很大功夫，可以規劃和執行需要數千個決策才能完成的復雜軟件工程任務。

具體來說有6大功能：

端到端構建和部署程序，可以解決的不只是代碼問題，還包括與之相關的整個工作流；

自主查找并修復bug；
訓練和微調自己的AI模型；
修復開源庫；
為成熟的生產庫做貢獻；
超強學習能力，實時補足知識和能力短板。

Devin完整技術報告中顯示，在SWE-bench基準測試中，無需人類輔助，Devin可解決13.86%的問題

——這個數據看起來不高，但其實已經超過了此前所有AI大模型的成績。

目前數一數二的GPT-4，在同個測試中的成績只有1.74%，且必須配備一個人類，提示它要處理哪些文件。

當時的Devin團隊一副沒在怕的樣子。

雖然沒開放公測，但陸陸續續給出了一些內測名額。

在互聯網上搜索一番，發現上手體驗過的人給的買家秀反饋是這樣的：

熱衷AI的沃頓商學院教授Ethan Molick試過后，認為其新穎的實時交互方式是最值得關注的。

他要求Devin開發一個解釋“創業公司融資中的股權稀釋”的網站，隨后透露，AI還無法在沒有任何幫助的情況下，自主且無差錯地完成這項工作。。

但也有人直接表示，體驗過后確實是有被震撼到。

巧的是，截圖中的這個首批內測體驗者Bubna哥，是AI基礎設施創業公司Modal Labs的CTO。

后來他和Devin還聯手搞了個新聞。Devin用自家老板的賬號，潛入Modal Labs的工作群，和Bubna哥一番交流過后，根據回復調整了代碼方案，解決了一個技術問題。

△圖中的發言人背后其實是Devin

當然，除了看上去哄哄的技術，Devin還鍍了一層光環，那就是背后公司Cognition，雖然是個小初創，但在招人信息中明晃晃寫著：

我們團隊手里握著10塊IOI金牌呢～

技術演示和團隊背景都吸睛Max，直接給Devin的傳播力度添磚加瓦。

也正是因為對Devin的關注，代碼生成領域在過去一段時間里進展是突飛猛進。

暫時無法在飛書文檔外展示此內容

比如，GitHub三萬Star項目MetaGPT就上新了“開源版Devin”，名為數據解釋器（Data Interpreter）：

阿里Qwen成員Binyan Hui等人開啟了OpenDevin項目，一個月過去已經在GitHub攬星21.5k；

普林斯頓那邊動作更快，用GPT-4打造了開源SWE-agent，開箱即用，可修復GitHub存儲庫中真實bug。

在25%的SWE-bench測試集上，它實現了與Devin演示視頻中相似的準確度—— 解決了12.29%的問題。

還有各個大廠也開始入駐自己的AI程序員……

One More Thing

結果現在發生這件事兒，怎么說呢……

往好了想，真是救大命了，所有的程序員們都要松口氣了，還好還好，AI暫時還無法端到端端走我的飯碗。

往壞了想，真是要了命了，這么一個備受關注的明星項目居然是個只能活在視頻里的demo。

難道世界真的是個巨大的草臺班子？？？

參考鏈接：

[1]https://Twitter.com/oran_ge/status/1778968102610546762?s=46&t=S65Q3TssMnzcxLETGqaDFQ

[2]https://twitter.com/0interestrates/status/1779268441226256500

[3]https://news.ycombinator.com/item?id=40008109

[4]https://www.YouTube.com/watch?v=tNmgmwEtoWE

分享到：

標簽：AI程序員

網友整理

注冊時間：

網站：5 個小程序：0 個文章：12 篇

52003
網站
12
小程序
1047590
文章
762
會員

趕快注冊賬號，推廣您的網站吧！

文章分類

熱門網站

各百科-專業百科問答知識名網站 m.geelcn.com
免費軟件,綠色軟件園,手機軟件下載,熱門游戲下載中心-中當網 m.deelcn.com
魔扣科技 www.ylptlb.cn
體育新聞_國際體育資訊_全球體育賽事-中名網 www.feelcn.com/tiyu/tiyuxinwen/
食品安全_健康飲食_舌尖上的安全-中名網 www.feelcn.com/shenghuo/shipinanquan/
中合網 www.heelcn.com
魔扣網站維護代運營 www.ylptlb.cn/tg
中當網 www.deelcn.com
中合網-健康養生知識科普名站 m.heelcn.com
各百科 www.geelcn.com

最新入駐小程序

數獨大挑戰

數獨大挑戰2018-06-03

數獨一種數學游戲，玩家需要根據9

答題星

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試

全階人生考試2018-06-03

各種考試題，題庫，初中，高中，大學四六

運動步數有氧達人

運動步數有氧達人2018-06-03

記錄運動步數，積累氧氣值。還可偷

每日養生app

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定

熱門文章