1. Agentic Workflow:AI重塑了我的工作流

        共 6685字,需瀏覽 14分鐘

         ·

        2024-05-25 22:44

        "Reshape your workflow with AI."
        在Agentic Workflow的這件事情上,我先完成了自己的工作流重塑。

        近期在「特工宇宙」分享了一場關(guān)于Agentic Workflow主題的內(nèi)容,現(xiàn)在同步分享給大家一些關(guān)于個人在使用AI Agent Workflow上的思考、AI-Native應(yīng)用「Pailido|AI拍立得」創(chuàng)建的初衷和實現(xiàn)流程,在個人工作流重塑上分享了一些體悟。

        本次分享大綱整體圍繞著AI Agent和Agentic Workflow從“認(rèn)識、定義、應(yīng)用、偏見、實踐以及延伸”進(jìn)行展開,正式拉開「仰望星空,腳踏實地」的序幕。

        在今年的 4 月初,吳恩達(dá)老師在美國紅杉做了一場演講,介紹了 4 種主要的 Agentic Workflow 設(shè)計模式。

        Reflection(反思):讓 Agent 審視和修正自己生成的輸出。

        Tool Use(工具):LLM 生成代碼、調(diào)用 API 等工具進(jìn)行操作。

        Planning(規(guī)劃):讓 Agent 分解復(fù)雜任務(wù)并按計劃執(zhí)行。

        Multiagent Collaboration(多智能體協(xié)同):多個 Agent 扮演不同角色合作完成任務(wù)。

        Reflection

        反思在根本上其實是一個博弈的過程:如果你讓大模型寫一段代碼,它會立刻給你反饋。這時你可以將它輸出的代碼片段再輸入回去,讓大模型仔細(xì)檢查代碼的準(zhǔn)確性和結(jié)構(gòu)規(guī)范性,并給出評論。然后,你可以將這些反饋結(jié)果再次輸入給大模型,它可能會輸出一個比第一版更好的代碼,如果有兩個 Agent:一個負(fù)責(zé) Coding,另一個負(fù)責(zé) Code Review,效果會更佳。

        Tool Use

        如果大家使用 Kimi Chat 來查詢某個問題,你會發(fā)現(xiàn)它會在互聯(lián)網(wǎng)上檢索相關(guān)內(nèi)容,并基于檢索結(jié)果進(jìn)行總結(jié)分析,最后給出結(jié)論。這其實是大模型利用「網(wǎng)頁搜索」工具的一個典型例子,同時你也會看到PPT中介紹了非常多的不同領(lǐng)域類型的工具,它其實是為大模型在獲取、處理、呈現(xiàn)信息上做額外的補充。

        Planning

        Agent 通過自行規(guī)劃任務(wù)執(zhí)行的工作流路徑,面向于簡單的或者一些線性流程的運行。比如下圖中:Agent 會先識別男孩的姿勢,并可能找到一個姿勢提取模型來識別姿勢,在接下來要找到一個姿勢圖像模型來合成一個新的女孩圖像,然后再使用圖像理解文本的模型,并在最后使用語音合成輸出,完成這個流程任務(wù)。

        Multiagent Collaboration

        吳恩達(dá)通過開源項目 ChatDev 進(jìn)行舉例,你可以讓一個大語言模型扮演不同的角色,比如讓一個 Agent 扮演公司 CEO、產(chǎn)品經(jīng)理、設(shè)計師、代碼工程師或測試人員,這些 Agent 會相互協(xié)作,根據(jù)需求共同開發(fā)一個應(yīng)用或者復(fù)雜程序。

        AI Agent 基本框架

        OpenAI 的研究主管 Lilian Weng 曾經(jīng)寫過一篇博客叫做《 LLM Powered Autonomous Agents 》,其中就很好的介紹了 Agent 的設(shè)計框架,她提出了“Agent = LLM + 規(guī)劃 + 記憶 +工具使用”的基礎(chǔ)架構(gòu),其中大模型 LLM 扮演了 Agent 的“大腦”。

        • Planning(規(guī)劃)

        主要包括子目標(biāo)分解、反思與改進(jìn)。將大型任務(wù)分解為較小可管理的子目標(biāo)處理復(fù)雜的任務(wù)。而反思和改進(jìn)指可以對過去的行動進(jìn)行自我批評和自我反思,從錯誤中學(xué)習(xí)并改進(jìn)未來的步驟,從而提高最終結(jié)果的質(zhì)量。

        • Memory(記憶)

        分為短期記憶和長期記憶。其中短期記憶是指的將所有的上下文學(xué)習(xí)看成是利用模型的短期記憶來學(xué)習(xí);而長期記憶是提供了長期存儲和召回信息的能力,它們通常通過利用外部的向量存儲和快速檢索來存儲和召回信息。

        • Tools(工具)

        通過學(xué)會調(diào)用外部不同類型API來獲取模型(通常在預(yù)訓(xùn)練后很難修改)中缺少的額外信息,代碼執(zhí)行能力,訪問專有信息源等(例如獲取此時此刻的天氣、聯(lián)網(wǎng)網(wǎng)搜索等)

        • Action(動作)

        根據(jù)上述大模型結(jié)合問句(Query)、上下文的規(guī)劃(Context)、各類工具,最終大模型才能決策出最終需要執(zhí)行的動作是什么。

        Agentic Workflow 解決什么問題?我認(rèn)為是可以從從提升效率、提高質(zhì)量、節(jié)省時間的角度上進(jìn)行思考。好比一臺“印鈔機”,按照指定好的流程重復(fù)著機械性的活動,但是它在源源不斷的產(chǎn)生價值。

        Productivity (效率) =  產(chǎn)生價值的速率

        Agentic Workflow 通過將一個復(fù)雜的任務(wù)分解成較小的步驟,在整個過程中中融入了更多人類參與到流程中的規(guī)劃與定義。它減少了對 Prompt Engineering 和模型推理能力的依賴,提高了 LLM 應(yīng)用面向復(fù)雜任務(wù)的性能,更豐富、更精確。

        下面是Coze(扣子)平臺上的工作流編排器的示例,這個話其實是一個抽卡游戲的流程,你可以看到在整個工作流中間會有很多節(jié)點前后之間有節(jié)點以及連線,然后每個節(jié)點之間它是通過不同的定義,比如說圖片處理工具,或者說是通過多模態(tài)模型進(jìn)行圖片理解工具等等其他各種各樣的工具組合而成。

        單Agent模式下,在這里可以看到一些例如“技能”、“知識”、“記憶”、“對話體驗”等等點,其實在我們上面這個多個Agent和workflow編輯器里面里面也有這類工具。它是將一整套工作流組合起來,每個工具在每一個節(jié)點里面,它執(zhí)行了一個任務(wù)。大家感興趣的話可以去體驗一下,可以在自己工作流中整個使用。

        Agentic Workflow 的“套娃”設(shè)計

        體驗過不同 Agent 流程編排開發(fā)平臺的同學(xué)會發(fā)現(xiàn),workflow 會成為一個組件被調(diào)用,同時 workflow 中又能夠嵌套新的workflow,實際上不管是基礎(chǔ)節(jié)點、插件工具、LLM、邏輯條件處理等,都實際上是一個以輸入、輸出的組裝的模塊,不同的組件之間通過連接構(gòu)成一個更大的模塊。

        即便看上去Agentic workflow解決了很多問題,但是實際上來說:大模型根源的“不太聰明”,是加上workflow也解決不了的。因為工作流它解決的并不是意圖理解準(zhǔn)確率的問題,而是在流程上的被干預(yù)后的可控性,吳恩達(dá)老師也在紅杉的演講上提到提升大模型本身質(zhì)量依舊十分重要。

        下面也會帶著大家重新看一下工作流其實一直都有出現(xiàn),目前的工作流編輯器是將Agent的處理流程可視化和可控化了。

        LangGPT 提示詞框架工作流設(shè)計

        與傳統(tǒng)的 Prompt 從輸入直接到輸出的映射方式相比,LangGPT 提示詞框架應(yīng)用了CoT(Chain of Thought)完成了從輸入到思維鏈再到輸出的映射,即<input——>reasoning chain——>output>。

        最后你會發(fā)現(xiàn)濃縮成一句話可以解決模型在規(guī)劃過程中的路徑拆解,CoT的思維:“Let's think step by step.”(讓我們一步一步思考)

        RPA 的工作流設(shè)計

        RPA其實很早就已經(jīng)出現(xiàn),就是做工作流編排領(lǐng)域。流程機器人(RPA)軟件的目標(biāo)是使符合某些適用性標(biāo)準(zhǔn)的基于桌面的業(yè)務(wù)流程和工作流程實現(xiàn)自動化,一般來說這些操作在很大程度上是重復(fù)的,數(shù)量比較多的,并且可以通過嚴(yán)格的規(guī)則和結(jié)果來定義,現(xiàn)在越來越多的RPA軟件帶上了LLM。

        ComfyUI 的工作流設(shè)計

        近期出現(xiàn)的ComfyUI 是將開源繪畫模型 Stable Diffusion 進(jìn)行工作流化操作模式,用戶需要在流程編輯器中配置出每一個的pipeline,并通過不同節(jié)點和連線來完成模型的操作和圖片內(nèi)容生成,提高了流程的可復(fù)用性,降低了時間成本,同時它的 DSL 配置文件還支持導(dǎo)出導(dǎo)入。

        Dify.AI 可被復(fù)制的工作流設(shè)計

        在 Dify.AI 中,我很興奮的看到它的工作流設(shè)計語言跟 ComfyUI 會有一些相似之處,都是定義了一套標(biāo)注化的DSL語言,并且非常方便的可以使用導(dǎo)入導(dǎo)出的功能進(jìn)行工作流的復(fù)用。

        模仿式工作流是最快的學(xué)習(xí)方法

        Large Action Model 采用稱為“通過演示進(jìn)行模仿”的技術(shù)。檢查人們在單擊按鈕或輸入數(shù)據(jù)時如何與界面互動,然后準(zhǔn)確地模仿這些操作,他們收集知識并從用戶提供的示例中學(xué)習(xí),使他們更能適應(yīng)進(jìn)一步的變化并能夠處理不同的任務(wù)。

        但是,有沒有想過一個問題:Agentic Workflow看起來十分美好,但是使用的用戶究竟有多少呢?我看了很多Agent商店,通過工作流創(chuàng)建的應(yīng)用目前來看還是比較少的(可能是出現(xiàn)周期、工作流使用的上手難度等等一系列因素導(dǎo)致),此外Agentic Workflow似乎在復(fù)雜流程上的開發(fā)又并不是那么穩(wěn)定可靠。

        Idea Time:通過自然語言創(chuàng)建工作流 

        復(fù)雜的工作流搭建怎么會如此麻煩...這似乎跟我我理想中的Agentic Workflow并不太一樣!有沒有一種更加方便高效的方式,讓我能夠在短時間內(nèi)創(chuàng)作一個符合我預(yù)期的Agentic Workflow原型?有了,通過自然語言來構(gòu)建DSL并還原工作流。

        我在之前就比較喜歡使用自然語言描述,然后使用Mermaid語法進(jìn)行創(chuàng)建流程圖表,其實DSL也是可以遵循一套約定俗成的規(guī)范進(jìn)行創(chuàng)作。

        我認(rèn)為可以通過口噴需求的方式,在0-1的時候輔助我快速生成一個看上去還不錯的工作流程,然后我再修修改改,這會降低用戶上手的門檻。


        一個小思考題,Agentic Workflow該給誰用?

        之前在討論Agentic Workflow的可用性觀點,有人給我說了這么一句話:“研發(fā)看不上,產(chǎn)品看不懂,小白不知所云。”

        目前我覺得Agentic Workflow拿來做MVP的產(chǎn)品測試是非常好的一個途徑,能夠在短時間內(nèi)通過低代碼或者零代碼的方式進(jìn)行創(chuàng)作一個小而美的應(yīng)用。

        我的AI-Native應(yīng)用就是這么玩的。

        Pailido|AI 拍立得

        這是一款文案快速生成的 AI-Naitive 產(chǎn)品,各個場景由 AI Agent 驅(qū)動,僅需選中場景后點擊拍攝即可快速生成對應(yīng)文案。它的服務(wù)端可以是使用類似Dify.AI、Coze這種在線編輯好一個Agent應(yīng)用,然后再通過API的方式進(jìn)行集成,你僅僅需要關(guān)心你的前端、用戶輸入、你的輸出反饋就可以了,打磨好一款小而美的產(chǎn)品。

        使用多模態(tài)模型,理解圖片特征和輸出場景期待,搞定小紅書文案、外賣點評寫作、閑魚商品發(fā)布文案...真的太快了!

        所以有個問題要問問諸位了:

        Reshape your workflow with AI ?

        or

        Reshape your AI workflow ?


        AI 與人的協(xié)同關(guān)系

        生成式 AI 的人機協(xié)同分為 3 種產(chǎn)品設(shè)計模式:Embedding(嵌入式)、Copilot(副駕駛)、Agent(智能代理),在這 3 種模式下,人與 AI 的協(xié)作流程也是有所差異。

        • Embedding 模式:人類完成大多數(shù)工作。

        • Copilot 模式:人類和AI協(xié)同工作。

        • Agents 模式:AI完成大多數(shù)工作。

        Agentic Workflow驅(qū)動角色工作流變革

        使用Multiagent Collaboration的方法,讓不同角色的 Agent 按照根據(jù)任務(wù)要求自主規(guī)劃選擇工具、流程進(jìn)行協(xié)作完成一件任務(wù)。

        我作為一個產(chǎn)品經(jīng)理角色,我的訴求很簡單,需要完成某一個產(chǎn)品功能設(shè)計,這個時候通過Agents拆解成多個獨立的任務(wù),然后遵循不同的工作流,最后給我生成一份在大體上符合我期望的輸出結(jié)果,我再修修改改就能夠達(dá)到可用的階段了。

        所以,我從原子能力層重新思考,面對這個快速變化的時代,我該如何去重塑我自己的工作流,以不變應(yīng)萬變呢?

        我抽象化拆解了大模型的一些底層能力,例如:翻譯、識別、提取、格式化等等,其實所有的一些都會圍繞幾個詞“輸入”、“處理”、“輸出”、“反饋”。

        “輸入”、“處理”、“輸出”、“反饋”構(gòu)建了我最底層的信息處理邏輯,我把它比作四個齒輪,齒輪之間通過不同的銜接工具逐步推動運轉(zhuǎn),從需求作為輸入、結(jié)果作為輸出,圍繞著信息加速,不斷驅(qū)動我向前。

        重塑獲取信息的方式

        搜索引擎作為互聯(lián)網(wǎng)基礎(chǔ)設(shè)施,同時也是互聯(lián)網(wǎng)的入口,對于用戶而言,從解決問題出發(fā),搜索引擎和基于大模型的聊天機器人的目標(biāo)從根本上是一致的。自 2022 年底 ChatGPT 發(fā)布,其通過問答形式被認(rèn)為將對傳統(tǒng)搜索引擎帶來顛覆。

        近期出現(xiàn)的各類AI搜索引擎,類似perplexity.ai、metaso、360搜索、ThinkAny等等,都是在不斷顛覆傳統(tǒng)的搜索引擎。

        輔助高效的處理信息

        閱讀完一份 10 萬字的 PDF 研究報告需要多久?這份報告主要講了什么內(nèi)容?有沒有我要關(guān)注的點?

        智能摘要是目前我用的超順手的一個功能,能夠輔助我快速的篩選信息,什么值得看,什么不容錯過,真正的實現(xiàn)信息的降噪。

        信息表達(dá)更簡便

        放在以往很難想象,如果要實現(xiàn)下面這倆張圖,可能會設(shè)計一系列的思考、草稿、理清邏輯等等流程。

        現(xiàn)在用自然語言描述一句話就給你生成了這樣美觀可用的圖片,極大的降低了不同角色的創(chuàng)作門檻和周期,是真的簡便。

        那么新型的產(chǎn)品設(shè)計方式也就出現(xiàn)了,在我原來的工作流中,我作為一名產(chǎn)品經(jīng)理,我會開始使用AI去重新構(gòu)建我的工作流:使用 AI 進(jìn)行搞定用戶畫像、使用 AI 進(jìn)行競品調(diào)研、使用 AI 設(shè)計產(chǎn)品測試用例、使用 AI 繪制產(chǎn)品功能流程圖...真的太多了。

        雖然我也推薦了一些我自己的工作流上使用的產(chǎn)品,但是我比較建議的是:每個人都是獨特的個體,應(yīng)該先摸清楚自己的日常工作流是怎么樣的,然后通過每一個工作節(jié)點線索,去找到適合你自己使用的工具。

        就好比,我現(xiàn)在初出茅廬,手上握著+1攻擊力的武器,+1的防御裝備,這不影響我去打怪升級這個事情,假如你找到了一件合適自己的武器,它可能是+1000攻擊力,你換上就好了,是能夠快速的在你原來的這套工作流里進(jìn)行戰(zhàn)力升級。

        關(guān)于Agent的未來,我只想說:曾被認(rèn)為的異想天開的想法,都可能會是 AI Agent 的未來。AI Agent我們其實可以理解為一個技術(shù)浪潮中不斷前進(jìn)的新名詞,而技術(shù)迭代會不斷向前。

        我很驚訝的發(fā)現(xiàn):曾經(jīng)五年前躺在我手機備忘錄里的一些在當(dāng)時不可能實現(xiàn)的想法,在如今時代也逐一被驗證。

        所以,還有什么不能想的呢?

        腳踏實地,仰望星空。

        Agent的未來是一個浩渺的宇宙,行業(yè)的Know-how是每一個人在短期內(nèi)不可被替代的固有知識資產(chǎn),你可能會說我可以通過一系列的方法論去獲取到很多行業(yè)信息,但是非常多的行業(yè)潛規(guī)則,就像冰山一樣,你可能只看到了表面的一些內(nèi)容,冰山下的不可被觀測的,也是這個時代個人的競爭力。

        毫無疑問,LLM會有更低的成本、推理處理速度更快、支持多模態(tài)全面接入、會有更多AI-Native應(yīng)用開始誕生...

        我肯定是,AGI的時代會離我們越來越近了。

        感謝你看到這兒,如果你覺得不錯,歡迎點贊分享關(guān)注我哈哈,我們下期再見。

        獲取完整內(nèi)容文件和視頻回放
        請在公眾號后臺回復(fù)工作流”

        ? THE END

        ?? 只想整活做點有趣的事兒

         歡迎點擊下方公眾號關(guān)注我 

        覺得我的內(nèi)容還不錯,手點個贊、分享、在看

        都是對我最好的認(rèn)可,謝謝您!

        瀏覽 174
        1點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        1點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
          
          

            1. 中国高清操逼视频 | 成人福利视频网站 | 成人一区二区三区在线A片 | 一级A片处破女 | 黄片视频免费看的 |