AIxiv專欄是機器之心發(fā)布學術、技術內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:[email protected];[email protected]
1. 導言 你是否想過,手機能像電影鋼鐵俠中的智能管家賈維斯那般,一句話就能順暢自如地完成各種復雜任務。 最近國內(nèi)外的手機廠商和 AI 公司紛紛發(fā)布了手機 AI 智能體相關產(chǎn)品,讓曾經(jīng)的幻想逐漸有了可行性。 vivo 作為行業(yè)領跑者,在十月的開發(fā)者大會上推出了其手機智能體產(chǎn)品 “PhoneGPT",能幫用戶實現(xiàn)一句話點咖啡、訂外賣、甚至能夠一句話找到最近的私房菜館并通過 AI 實現(xiàn)電話預定包廂,被網(wǎng)友們稱作 “i 人救星”。
圖 1 vivo PhoneGPT訂座(藍心小V對話或小V主界面下滑探索-智能體廣場體驗) 與此同時,各大廠家似乎提前約好一樣,都瞄準了一句話訂咖啡的場景,頗有當年喬布斯使用初代 iPhone 訂星巴克的即視感。更有坊間戲稱,今年秋天第一杯咖啡是手機智能體幫你點的。
圖 2 vivo PhoneGPT訂咖啡(藍心小V對話或小V主界面下滑探索-智能體廣場體驗) 盡管行業(yè)發(fā)展迅速,最近關于手機 AI 智能體的論文井噴,相關技術路線迭代發(fā)展迅速,但這一領域仍缺少系統(tǒng)性的綜述。此次 vivo AI Lab 聯(lián)合香港中文大學 MMLab 等團隊發(fā)布了 “大模型驅(qū)動的手機 AI 智能體” 綜述論文,該論文長達 48 頁,覆蓋 200 余篇文獻,對基于大模型的手機自動操作智能體相關技術展開了全面且深入的研究,希望給學界和產(chǎn)業(yè)界作為參考,共同推進行業(yè)發(fā)展。
- 論文標題:LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects
- 論文地址:https://www.preprints.org/manuscript/202501.0413/v1
1.1 研究背景 - 手機 GUI 自動化旨在通過編程模擬人類與手機界面的交互,以完成復雜任務,傳統(tǒng)方法包括自動化測試、快捷指令和機器人流程自動化(RPA),但存在通用性、靈活性、維護成本、意圖理解和屏幕感知等方面的挑戰(zhàn)。
- 大語言模型(LLM)的出現(xiàn)為手機自動化帶來了新的范式,基于 LLM 的手機 GUI 智能體能夠理解自然語言指令,感知界面并執(zhí)行任務,有望實現(xiàn)更智能、自適應的自動化操作。
1.2 研究目的 - 系統(tǒng)總結 LLM 驅(qū)動的手機 GUI 智能體的研究成果,包括框架、模型、數(shù)據(jù)集和評估方法。
- 分析 LLM 在手機自動化中的應用現(xiàn)狀,探討其優(yōu)勢和面臨的挑戰(zhàn)。
- 指出未來研究的方向,為相關領域的研究人員和從業(yè)者提供參考。
1.3 主要貢獻
圖 3 大模型驅(qū)動的手機 GUI 智能體文獻分類 - 對 LLM 驅(qū)動的手機 GUI 智能體進行全面系統(tǒng)的綜述,涵蓋發(fā)展軌跡、核心技術和應用場景。
- 提出多視角的方法論框架,包括框架設計、模型選擇與訓練、數(shù)據(jù)集與評估指標。
- 深入分析 LLM 賦能手機自動化的原因,探討其在自然語言理解、推理和決策等方面的優(yōu)勢。
- 介紹和評估最新進展、數(shù)據(jù)集和基準,為研究提供資源支持。
- 識別關鍵挑戰(zhàn)并提出未來研究的新視角,如數(shù)據(jù)集多樣性、設備端部署效率和安全問題。
2. 手機自動化的發(fā)展歷程 2.1 LLM 時代之前的手機自動化 - 自動化測試:為解決手機應用復雜度增加帶來的測試難題,經(jīng)歷了從隨機測試到基于模型的測試、基于學習的測試,再到強化學習測試的發(fā)展,但仍面臨測試覆蓋范圍、效率、成本和模型泛化能力等挑戰(zhàn)。
- 快捷指令:如 Tasker 和 iOS Shortcuts,通過預定義規(guī)則或觸發(fā)條件實現(xiàn)任務自動化,但范圍和靈活性有限。
- 機器人流程自動化(RPA):在手機上模擬人類執(zhí)行重復性任務,但在處理動態(tài)界面和腳本更新方面存在困難。
2.2 傳統(tǒng)方法的挑戰(zhàn) - 通用性有限:傳統(tǒng)方法針對特定應用和界面,難以適應不同應用和動態(tài)環(huán)境,缺乏靈活性和上下文適應能力。
- 維護成本高:編寫和維護自動化腳本需要專業(yè)知識,且隨著應用更新,腳本需頻繁修改,耗時費力,入門門檻高限制了用戶使用。
- 意圖理解能力差:基于規(guī)則和腳本的系統(tǒng)只能執(zhí)行預定義任務,難以理解復雜自然語言指令,無法滿足用戶多樣化需求。
- 屏幕 GUI 感知能力弱:傳統(tǒng)方法難以準確識別和交互不同應用中的各種 GUI 元素,對動態(tài)內(nèi)容和復雜界面的處理能力有限。
2.3 LLM 推動手機自動化
圖 4 大模型驅(qū)動的手機 GUI 智能體發(fā)展里程碑 - 發(fā)展歷程與里程碑:LLM 在手機自動化中的應用不斷演進,通過自然語言理解、多模態(tài)感知和推理決策能力的提升,逐步實現(xiàn)更復雜任務的自動化。
- LLM 解決傳統(tǒng)挑戰(zhàn)的方式
- 上下文語義理解:從大量文本語料庫學習,理解復雜語言結構和領域知識,準確解析多步驟命令。
- 屏幕 GUI 多模態(tài)感知:利用多模態(tài)感知能力,統(tǒng)一文本和視覺感知信息,實現(xiàn)對屏幕元素的準確定位和交互。
- 推理和決策制定:基于語言、視覺上下文和歷史交互進行復雜推理、多步驟規(guī)劃和上下文感知適應,提高任務執(zhí)行成功率。
2.4 新興商業(yè)應用 - Apple Intelligence:2024 年 6 月推出,集成 AI 能力到 iOS、iPadOS 和 macOS,通過智能總結、優(yōu)先級通知和上下文感知回復增強通信、生產(chǎn)力和專注功能,保障用戶隱私和安全。
- vivo PhoneGPT:2024 年 10 月推出,OriginOS 5 操作系統(tǒng)中的個人 AI 助手,具備自主拆解需求、主動規(guī)劃路徑、實時環(huán)境識別和動態(tài)反饋決策的能力,能幫用戶實現(xiàn)一句話點咖啡、訂外賣、甚至能夠一句話找到最近的私房菜館并通過 AI 實現(xiàn)電話預定包廂等任務。
- Honor YOYO Agent:2024 年 10 月發(fā)布,適應用戶習慣和復雜指令,通過語音或文本命令自動化多步驟任務,如購物比價、自動填表、定制飲品和會議靜音,提升用戶體驗。
- Anthropic Claude Computer Use:2024 年 10 月推出 Claude 3.5 Sonnet 模型的 Computer Use 功能,使 AI 智能體能像人類一樣操作計算機,觀察屏幕、移動光標、點擊按鈕和輸入文本,改變?nèi)藱C交互范式。
- Zhipu.AI AutoGLM:2024 年 10 月推出,通過簡單命令模擬人類操作智能手機,如點贊評論、購物、訂票和點餐,能導航界面、解讀視覺線索并執(zhí)行任務,展示 LLM 驅(qū)動的手機自動化在商業(yè)應用中的潛力。
3. 手機 GUI 智能體框架 3.1 基本框架
圖 5 大模型驅(qū)動的手機 GUI 智能體基礎框架 - 感知模塊
- UI 信息:包括 UI 樹(如 DroidBot - GPT 將其轉(zhuǎn)換為自然語言句子)、截圖(如 AutoUI 依賴截圖進行 GUI 控制)、Set - of - Marks(用于標注截圖,如 MM - Navigator)和 Icon & OCR 增強(如 Mobile - Agent - v2 集成 OCR 和圖標數(shù)據(jù))。
- 手機狀態(tài):如鍵盤狀態(tài)和位置數(shù)據(jù),用于上下文感知操作。
- 大腦模塊
- 存儲:包括記憶(如記錄歷史屏幕任務相關內(nèi)容)和知識(來自預訓練知識、領域特定訓練和知識注入)。
- 決策制定:包括規(guī)劃(如 Mobile - Agent - v2 的規(guī)劃智能體生成任務進度)、推理(可以利用 Chain - of - thought 增強推理能力)和反思(如 Mobile - Agent - v2 的反思智能體評估決策并調(diào)整)。
- 行動模塊:通過執(zhí)行觸摸交互、手勢操作、輸入文本、系統(tǒng)操作和媒體控制等類型的動作,實現(xiàn)與手機 UI 和系統(tǒng)功能的交互,確保決策轉(zhuǎn)化為設備上的實際操作。
3.2 多智能體框架
圖 6 多智能體框架分類 - 角色協(xié)調(diào)多智能體框架(Role-Coordinated Multi-Agent Framework):如 MMAC - Copilot 中多個具有不同功能的智能體協(xié)作,包括規(guī)劃、決策、記憶管理、反思和工具調(diào)用等,通過預定義工作流程共同完成任務。
- 基于場景的任務執(zhí)行框架(Scenario-Based Task Execution Framework):如 MobileExperts 根據(jù)特定任務場景動態(tài)分配任務給專家智能體,每個智能體可以具有針對特定場景(如購物、編碼、導航)的能力,提高任務成功率和效率。
3.3 計劃 - 然后 - 行動框架(Plan-Then-Act Framework) - 如 SeeAct、UGround、LiMAC 和 ClickAgent 等工作展示了該框架的有效性,通過先生成動作描述,再根據(jù)動作描述定位到要操作的控件位置,提高了任務執(zhí)行的清晰度、可靠性和適應性,允許獨立改進規(guī)劃和 UI 定位模塊。
4. 用于手機自動化的大語言模型
圖 7 模型分類 4.1 提示工程(Prompt Engineering)
圖 8 提示詞設計 - 純文本提示詞(Text-Based Prompt):主要架構為單文本模態(tài) LLM,通過解釋 UI 樹信息進行決策,如 DroidBot - GPT、Enabling Conversational 等,在不同應用中有一定進展,但存在對屏幕的全局信息理解利用不足等問題。
- 多模態(tài)提示詞(Multimodal Prompt):多模態(tài)大語言模型(MLLM)集成視覺和文本信息,通過截圖和補充 UI 信息進行決策,包括基于 SoM 輸出索引方法(如 MM - Navigator、AppAgent)和直接坐標輸出方法(如 VisionTasker、Mobile - Agent 系列),提高了準確性和魯棒性,但在 UI 定位準確性方面仍面臨挑戰(zhàn)。
4.2 基于訓練的方法(Training-Based Methods) - GUI 任務專用模型架構(Task Specific Model Architectures)
- 通用目的:如 Auto - GUI、CogAgent、ScreenAI、CoCo - Agent 和 MobileFlow 等,旨在增強直接 GUI 交互、高分辨率視覺識別、全面環(huán)境感知和條件行動預測能力,以應對不同應用和界面的任務。
圖 9 不同的 UI 理解任務 - 特定領域:專注于屏幕理解任務,包括 UI 定位(如 LVG、UI - Hawk)、UI 引用(如 Ferret - UI、UI - Hawk)和屏幕問答(如 ScreenAI、WebVLN、UI - Hawk),通過特定技術提升智能體在復雜用戶界面中的交互能力。
- 監(jiān)督微調(diào)(Supervised Fine-Tuning)
- 通用目的:通過在特定任務數(shù)據(jù)集上微調(diào),增強模型在 GUI 定位、OCR、跨應用導航和效率等方面的能力,如 SeeClick、GUICourse、GUI Odyssey 和 TinyClick 等工作。
- 特定領域:應用于特定任務,如 ReALM 解決參考分辨率問題,IconDesc 用于生成 UI 圖標替代文本,提高了模型在特定領域的性能。
- 強化學習(Reinforcement Learning)
- 手機智能體:如 DigiRL、DistRL 和 AutoGLM,通過強化學習訓練智能體適應動態(tài)手機環(huán)境,提高決策能力和成功率,AutoGLM 還實現(xiàn)了跨平臺應用。
- 網(wǎng)頁智能體:ETO、Agent Q 和 AutoWebGLM 利用強化學習使智能體適應復雜網(wǎng)頁環(huán)境,通過學習交互和改進決策,提高在網(wǎng)頁導航和操作任務中的性能。
- Windows 智能體:ScreenAgent 通過強化學習使智能體在 Windows 環(huán)境中與真實計算機屏幕交互,完成多步驟任務,展示了在桌面 GUI 自動化中的潛力。
5. 數(shù)據(jù)集和基準 5.1 相關數(shù)據(jù)集
表1 數(shù)據(jù)集 - 早期數(shù)據(jù)集:如 PixelHelp 將自然語言指令映射到 UI 動作,UIBert 通過預訓練提升 UI 理解,Meta - GUI 收集對話與 GUI 操作痕跡,UGIF 解決多語言 UI 指令跟隨問題,MoTIF 引入任務可行性和不確定性。
- 大規(guī)模數(shù)據(jù)集:Android In The Wild(AITW)和 Android In The Zoo(AITZ)提供大量設備交互數(shù)據(jù),GUI Odyssey 用于跨應用導航訓練和評估,AndroidControl 研究數(shù)據(jù)規(guī)模對智能體性能的影響,AMEX 提供詳細注釋增強智能體對 UI 元素的理解。
5.2 基準
表 2 Benchmarks - 評估方法(Evaluation Pipelines):MobileEnv 提供通用訓練和評估平臺,AndroidArena 評估 LLM 智能體在復雜 Android 環(huán)境中的性能,LlamaTouch 實現(xiàn)移動 UI 任務的設備端執(zhí)行和評估,B - MoCA 評估不同配置下的移動設備控制智能體,AndroidWorld 提供動態(tài)可參數(shù)化任務環(huán)境,MobileAgentBench 為移動 LLM 智能體提供高效基準,AUITestAgent 實現(xiàn)自動 GUI 測試,AndroidLab 提供系統(tǒng)框架和基準。
- 評估指標(Evaluation Metrics)
- 任務完成指標:如任務完成率、子目標成功率和端到端任務完成率,評估智能體完成任務的有效性。
- 行動執(zhí)行質(zhì)量指標:包括行動準確性、正確步驟、正確軌跡、操作邏輯和推理準確性,衡量智能體行動的精確性和邏輯性。
- 資源利用和效率指標:如資源消耗、步驟效率和反向冗余比,評估智能體資源利用效率。
- 任務理解和推理指標:如 Oracle 準確性、點準確性、推理準確性和關鍵信息挖掘能力,考察智能體的理解和推理能力。
- 格式和合規(guī)性指標:驗證智能體輸出是否符合格式約束。
- 完成意識和反思指標:評估智能體對任務邊界的識別和學習能力。
- 評估準確性和可靠性指標:確保評估過程的一致性和可靠性。
- 獎勵和整體性能指標:如任務獎勵和平均獎勵,綜合評估智能體性能。
6. 挑戰(zhàn)與未來方向 6.1 數(shù)據(jù)集開發(fā)與微調(diào)可擴展性 - 現(xiàn)有數(shù)據(jù)集缺乏多樣性,未來需開發(fā)大規(guī)模、多模態(tài)且涵蓋廣泛應用、用戶行為、語言和設備類型的數(shù)據(jù)集。
- 解決微調(diào)在域外性能方面的挑戰(zhàn),探索混合訓練方法、無監(jiān)督學習、遷移學習和輔助任務,以減少對大規(guī)模數(shù)據(jù)的依賴。
6.2 輕量級和高效的設備端部署 - 克服移動設備在計算和內(nèi)存方面的限制,采用模型剪枝、量化和高效 transformer 架構等方法,如 Octopus v2 和 Lightweight Neural App Control 的創(chuàng)新。
- 利用專門硬件加速器和邊緣計算解決方案,減少對云的依賴,增強隱私保護并提高響應速度。
6.3 用戶中心適應:交互與個性化 - 提高智能體對用戶意圖的理解能力,減少手動干預,支持語音命令、手勢和持續(xù)學習用戶反饋。
- 實現(xiàn)智能體的個性化適應,通過集成多種學習技術,使其快速適應新任務和用戶特定上下文,無需大量重新訓練。
6.4 模型定位、推理等能力提升 - 改進語言指令到 UI 元素的精確映射,集成先進視覺模型、大規(guī)模注釋和有效融合技術,提升多模態(tài)定位能力。
- 增強智能體在復雜場景中的推理、長程規(guī)劃和適應性,開發(fā)新架構、內(nèi)存機制和推理算法,超越當前 LLM 能力。
6.5 標準化評估基準 - 建立統(tǒng)一的基準,覆蓋多種任務、應用類型和交互模態(tài),提供標準化指標、場景和評估協(xié)議,促進公平比較和全面評估。
6.6 確??煽啃院桶踩?/span> - 開發(fā)強大的安全協(xié)議、錯誤處理技術和隱私保護方法,防范對抗攻擊、數(shù)據(jù)泄露和意外行為,保護用戶信息和信任。
- 實施持續(xù)監(jiān)測和驗證過程,實時檢測和緩解風險,確保智能體行為可預測、尊重隱私并在各種條件下保持穩(wěn)定性能。
7. 總結 - 綜述了 LLM 驅(qū)動的手機自動化技術發(fā)展,包括多種框架(單智能體、多智能體、計劃 - 然后 - 行動)、模型方法(提示工程、基于訓練)和數(shù)據(jù)集 / 基準。
- 分析了 LLM 在提升手機自動化效率、智能性和適應性方面的作用,以及面臨的挑戰(zhàn)和未來發(fā)展方向。
- 強調(diào)了標準化基準和評估指標對推動領域發(fā)展的重要性,有助于公平比較不同模型和方法。
展望未來,隨著模型架構改進、設備端推理優(yōu)化和多模態(tài)數(shù)據(jù)集成,基于大模型的手機 GUI 智能體有望在復雜任務中實現(xiàn)更高自主性,融合更多 AI 范式,為用戶提供無縫、個性化和安全的體驗。 |
19款電子扎帶
電路板識別電子標簽