吳恩達(dá):
我很期待與大家分享我在 AI 智能體中看到的令人興奮的趨勢,我認(rèn)為每個(gè) AI 從業(yè)者都應(yīng)該關(guān)注這個(gè)趨勢。
我要分享的主題是 AI 智能體?,F(xiàn)在,我們大多數(shù)人使用大語言模型的方式是這樣的:我們在一個(gè)非智能體工作流中,把提示輸入到對話框中并生成答案。這有點(diǎn)像我們讓一個(gè)人寫一篇文章,讓他請坐到鍵盤前,從頭到尾打出一篇文章,中間不使用退格鍵。盡管這很難,AI 大模型還是做得非常好。
智能體工作流長這個(gè)樣子(下圖右側(cè))。有一個(gè) AI 大模型,我們讓它寫一份論文大綱。需要上網(wǎng)查資料嗎?如果需要,就聯(lián)網(wǎng)。然后寫初稿、讀初稿,并思考哪些部分需要修改。繼續(xù)修改初稿并推進(jìn)。
這樣的工作流程更容易迭代。你可以讓 AI 大模型進(jìn)行一些思考,然后修改這篇文章,然后繼續(xù)思考,再按照這個(gè)步驟迭代多次。
很多人都沒有意識(shí)到的是,這么做的效果會(huì)更好。對于這樣的工作決策流程和優(yōu)秀表現(xiàn),我自己也很驚訝。除了這些個(gè)案研究,我的團(tuán)隊(duì)也分析了一些數(shù)據(jù),基于 OpenAI 幾年前發(fā)布的名為 HumanEval 的編程評估基準(zhǔn)。這上面有一些編程問題,比如給定一個(gè)非空整數(shù)列表,返回位于偶數(shù)位置的所有奇數(shù)元素的和。AI 生成的答案是像這樣的代碼片段:
事實(shí)證明,如果你使用 GPT-3.5,在零樣本提示的條件下,GPT-3.5 的準(zhǔn)確率是 48%。GPT-4 要好得多,達(dá)到了 67%。但如果你采用的是智能體工作流,并將其打包,GPT-3.5 實(shí)際上能表現(xiàn)更好,甚至比 GPT-4 還好。
如果你圍繞 GPT-4 構(gòu)建這樣的工作流,GPT-4 也能表現(xiàn)得很好。注意,處于智能體工作流中的 GPT-3.5 實(shí)際上優(yōu)于 GPT-4。這是一個(gè)信號(hào)。
所有人都在圍繞智能體這個(gè)術(shù)語和任務(wù)開始大量討論。有很多咨詢報(bào)告,關(guān)于智能體、AI 的未來,等等。接下來,我想具體分享我在智能體中看到的四種模式:
反思(Reflection):LLM 檢查自己的工作,以提出改進(jìn)方法。
使用工具(Tool use):LLM 擁有網(wǎng)絡(luò)搜索、代碼執(zhí)行或任何其他功能來幫助其收集信息、采取行動(dòng)或處理數(shù)據(jù)。
規(guī)劃(Planning):LLM 提出并執(zhí)行一個(gè)多步驟計(jì)劃來實(shí)現(xiàn)目標(biāo)。
多智能體協(xié)作(Multi-agent collaboration):多個(gè) AI 智能體一起工作,分配任務(wù)并討論和辯論想法,提出比單個(gè)智能體更好的解決方案。
接下來我將詳細(xì)解釋這四種模式。
首先是 Reflection。舉個(gè)例子:假設(shè)我讓一個(gè)代碼智能體為某個(gè)任務(wù)寫代碼,它會(huì)根據(jù) prompt 寫出一個(gè)如圖所示的函數(shù)。
如果你寫一段 prompt,把你剛剛生成的代碼給它,告訴它這是用于執(zhí)行某個(gè)任務(wù)的代碼,讓它檢查這段代碼的正確性、效率等問題。結(jié)果根據(jù)你的 prompt 寫出代碼的那個(gè)大模型,可能會(huì)發(fā)現(xiàn)代碼里的問題,比如第五行的 bug。它還會(huì)告訴你怎么修改。
如果你現(xiàn)在采納了它的反饋,并再次給它提示,它可能會(huì)給出一個(gè)比第一個(gè)版本更好的第二版代碼。不能保證一定如此,但這是有效的。
第二種模式是 Tool use(使用工具)。許多人可能已經(jīng)見過基于大模型的系統(tǒng)使用工具。左邊是一個(gè)截圖,來自 Copilot。右邊的截圖來自 GPT-4。左邊的問題是,網(wǎng)上最好的咖啡機(jī)是哪個(gè)?Copilot 會(huì)通過上網(wǎng)檢索來解決一些問題。GPT-4 將會(huì)生成代碼并運(yùn)行代碼。有很多不同的工具,可以用于分析、收集信息以采取行動(dòng)、提高個(gè)人生產(chǎn)力。
很多關(guān)于 Tool use 的工作都是在計(jì)算機(jī)視覺社區(qū)。因?yàn)橹?,大型語言模型對圖像無能為力,所以唯一的選擇就是大模型生成一個(gè)函數(shù)調(diào)用,可以用來操作圖像,比如生成圖像或目標(biāo)檢測。Tool use 擴(kuò)展了大型語言模型的能力。
接下來是 Planning(規(guī)劃)。對于沒有大量接觸過規(guī)劃算法的人來說,他們會(huì)覺得,「哇,從未見過這樣的東西」。同樣,很多人看到 AI 智能體會(huì)很驚訝,「哇,我沒想到 AI 智能體能做這些」。
在我進(jìn)行的一些現(xiàn)場演示中,有些演示會(huì)失敗,AI 智能體會(huì)重新規(guī)劃路徑。我經(jīng)歷過很多這樣的時(shí)刻。其中一個(gè)例子是從 HuggingGPT 論文中改編的,輸入的是:請生成一張圖片,一個(gè)女孩在看書,她的姿態(tài)和圖像中的男孩一樣,再使用你的聲音描述這張新圖片。
今天有了 AI 智能體,你可以確定第一件要做的事是確定男孩的姿態(tài),提取姿態(tài)。接下來需要找到一個(gè)姿態(tài)圖像模型,遵循指令生成一張女孩的圖像。然后使用圖像 - 文本模型得到描述。最后使用文本轉(zhuǎn)語音模型讀出描述。
我們今天已經(jīng)有了 AI 智能體和智能體循環(huán)。當(dāng)我并不想花很多時(shí)間在谷歌搜索上,我就會(huì)把需求發(fā)給 AI 智能體,幾分鐘后回來看看它做了什么。它有時(shí)有效,有時(shí)不行。但這已經(jīng)是我個(gè)人工作流的一部分。
最后要講的模式是多智能體協(xié)作。這部分很有趣,效果比你想象的要好得多。
下面這張圖來自一篇名為 ChatDev 的論文。ChatDev 是多智能體系統(tǒng)的一個(gè)實(shí)例。你可以給它一個(gè) prompt,它有時(shí)扮演軟件引擎公司的 CEO,有時(shí)扮演設(shè)計(jì)師,有時(shí)又是產(chǎn)品經(jīng)理、或測試人員。
這群智能體是通過大模型的 prompt 來構(gòu)建的,告訴它們「你現(xiàn)在是 CEO / 你現(xiàn)在是軟件工程師」。他們會(huì)協(xié)作、進(jìn)一步對話。如果你告訴它們,「請開發(fā)一款游戲」,它們會(huì)花幾分鐘寫代碼,然后進(jìn)行測試、迭代,生成一個(gè)令人驚訝的復(fù)雜程序,雖然并不是總能運(yùn)行。
事實(shí)證明,多智能體辯論(比如說,你可以讓 ChatGPT 和谷歌的 Gemini 辯論),實(shí)際上會(huì)帶來更好的性能。因此,讓多個(gè)相似的 AI 智能體一起工作,也是一個(gè)強(qiáng)大的模式。
總結(jié)一下,我認(rèn)為如果我們在我們的工作中使用這些模式,很多人可以快速獲得實(shí)踐上的提升。我預(yù)計(jì),今年 AI 能做的事情將大幅擴(kuò)展,這得益于智能體工作流。
人們在輸入提示之后,總想立即得到結(jié)果。在進(jìn)行網(wǎng)絡(luò)搜索時(shí),你想在半秒鐘內(nèi)得到回復(fù)。這是人性使然 —— 我們喜歡即時(shí)獲取、即時(shí)反饋。
但是對于很多 AI 智能體工作流來說,我們需要學(xué)會(huì)分配任務(wù)給 AI 智能體,并耐心地等待幾分鐘,甚至幾小時(shí),直到給出回應(yīng)。
我見過很多新晉管理者,喜歡將某事委托給某人,五分鐘后檢查結(jié)果。這不是一種有效的工作方式。我們也需要對我們的 AI 智能體多點(diǎn)耐心。
另一件重要的事情是,快速的 token 生成非常重要。如果 AI 生成 token 的速度比任何人的閱讀速度都快,那太棒了。我認(rèn)為,快速生成更多 token,即使大模型質(zhì)量稍低,也能帶來很好的結(jié)果。因?yàn)樗赡茏屇阍谶@個(gè)循環(huán)中反復(fù)更多次。
坦率地說,我非常期待 Claude 4、GPT-5 和 Gemini 2.0,以及其他正在研發(fā)的大模型。如果你期待以零樣本的方式在 GPT-5 上運(yùn)行你的任務(wù),你可能能通過一些 AI 智能體應(yīng)用,實(shí)現(xiàn)接近那一水平的性能。
智能體推理加上之前發(fā)布的大模型,我認(rèn)為這是一個(gè)重要的趨勢。通往 AGI 的道路感覺更像是一段旅程,而不是目的地。我認(rèn)為這套智能體工作流,可以幫助我們在這漫長的旅程中向前邁出一小步。
參考鏈接
https://www.deeplearning.ai/the-batch/issue-242/
https://zhuanlan.zhihu.com/p/689492556?utm_medium=social&utm_psn=1756970518132240384&utm_source=wechat_session
https://www.youtube.com/watch?v=sal78ACtGTc&t=108s
免責(zé)聲明:本文轉(zhuǎn)載自真格基金,文章版權(quán)歸原作者所有,內(nèi)容僅供參考并不構(gòu)成任何投資及應(yīng)用建議。