电话: 邮箱:

AG真人游戏网 GUI Agent「记与学」双修, 长程任务有了专属驰念增强型自进化框架

发布日期:2026-06-08 16:09 作者:admin 来源:未知 点击:135

AG真人游戏网 GUI Agent「记与学」双修, 长程任务有了专属驰念增强型自进化框架

本文团队经久从事负包袱的东谈主工智能与东谈主工智能赋能社会科学关联计议,围绕视觉生成大模子安全管理、智能体安全等标的开展系统性职责,关联后果发表于AAAI、ICML、TMM等外洋期刊与会议。现初始招收2027级博士计议生与硕士计议生,细目请参见王岚君敦朴主页:https://wanglanjun-academic.github.io/

跟着大模子手艺的赶快发展,GUI(GraphicalUserInterface)智能体正在从「看得懂屏幕」迈向「能自主操作」的新阶段。然而,当咱们果然将这些智能体放入果然场景时,一个要津问题便突显出来:它们在多要领、长周期的复杂任务中,频频「翻车」。

现存的GUI智能体主要依赖现时屏幕截图和有限的高下文窗口作念有筹划,无法爱戴完好意思的交互历史。在多要领任务中,早期的要津信息可能跟着高下文滑动而丢失,导致「缺点累积」,一个早期的小差错就可能激励连锁失败。与此同期,现时的GUI智能体频繁使用在固定数据集上考验的静态计谋,无法从过往见效警戒中学习和挪动,难以合乎动态变化的环境。

「记不住」和「学不会」恰是现时GUI智能体发展的中枢矛盾。而天津大学团队鸠合上海交通大学团队在ICML2026上提倡SE-GA框架,通过引入分层驰念结构和迭代自我改换机制,让GUI智能体从「静态履行器」进化为「动态学习者」,并在多个不同类型的基准上赢得了精采的阐明。

论文标题:SE-GA:Memory-AugmentedSelf-EvolutionforGUIAgents

论文地址:https://arxiv.org/abs/2605.16883

代码畅达:https://github.com/jinshilong-dev/SE-GA

「记不住」又「学不会」,GUI智能体的两约莫命短板

团队将GUI导航任务表情化为部分可不雅察马尔可夫有筹划经过,这意味着智能体无法透彻不雅察环境情状,只可通过局部不雅察作念出有筹划。在这种部分可不雅察性下,两个结构性问题尤为杰出。

1.高下文窗口受限,要津信息「记不住」

GUI导航任务本色上是历史依赖的。然而,大多数现存纪律主要依赖现时屏幕截图和有限的高下文窗口,跟着交互要领的激动,早期的要津信息很容易被「滑出」高下文窗口,导致智能体「健忘」发轫的操作和不雅察,从而作念出差错有筹划。

2.计谋静态固化,过往警戒「学不会」

本质天下中的GUI任务很少是并立孤身一人的,它们频频是先前已完成任务的变体或组合,需要复用过往见效的计谋。但现时的GUI智能体频繁在固定数据集上考验,使用静态计谋,无法从交互经过中提真金不怕火和学习见效警戒。

简而言之,现时GUI智能体败落一个长入的机制来将显式的历史警戒编码为隐式的计谋参数,导致它们只可进行静态履行,而无法达成捏续的自我进化。

图1.SE-GA的举座框架图

TTME:给智能体装上「分层驰念」,让它「铭刻住」曩昔

为了惩办「记不住」的问题,SE-GA提倡了测试时驰念彭胀(Test-TimeMemoryExtension,TTME)模块。该模块模仿了东谈主类通晓架构的念念想,构建了一个分层驰念库,包含三种互补的驰念类型,从不同粒度为智能体的有筹划提供支撑。

图2.TTME的架构示例图

情景驰念(EpisodicMemory):短期职责驰念,追踪「刚才作念了什么」

在职务履行的每个时期步中,情景驰念会记载前一步的不雅察、弃取的作为以及作为履行后的新不雅察。这种瞎想既幸免了保留所有历史带来的筹划支出,又能过滤掉可能误导有筹划的落伍信息,让智能体恒久对「近期作念了什么」保捏了了的通晓。

语义驰念(SemanticMemory):通用规章库,存储「怎样作念才对」

语义驰念存储的是综合的、跨任务通用的交互规章,举例「需要先登录才能拜谒受限页面」「搜索功能频繁在页面顶部」等,这些信息或者匡助智能体更好地领悟现时情状背后的行径逻辑,从而作念出更合理的有筹划。

警戒驰念(ExperientialMemory):过往经验库,复用「见效的警戒」

警戒驰念存储智能体过往见效完成的任务轨迹,包括原始轨迹和智能体我方生成的反念念记忆。与纯文本检索不同,TTME弃取了一种搀杂检索机制,同期探讨语义一致性和视觉同样性,AG真人中国官网入口这种文本-图像搀杂检索或者更精确地找到与现时任务同样的历史警戒,从而让智能体或者「站在曩昔的肩膀上」作念有筹划。

MASE:两阶段考验,让智能体「学得会」进化

皇冠app(中国)官网入口

要是说TTME惩办的是「记不住」的问题,那么MASE(Memory-AugmentedSelf-Evolution)惩办的便是「学不会」的问题。MASE是一个两阶段考验框架,旨在将TTME蚁集的警戒数据升沉为智能体的内在能力,达成果然的自我进化。

图3.MASE的架构示例图

第一阶段:基础能力考验(GroundingTraining)

第一阶段通过监督微调对众人轨迹进行行径克隆,强化智能体的视觉定位和作为推理能力。这一阶段的中枢主义是让智能体学会「看懂屏幕、找对位置、作念对作为」。

第二阶段:自我进化考验(Self-EvolutionTraining)

第二阶段基于GRPO(GroupRelativePolicyOptimization)算法,引入了多个针对GUI任务的要津改换,让智能体或者从我方与环境交互产生的数据中捏续学习。

「失败也能变废为宝」:HindsightGoal-Shifting的好意思妙瞎想

在GUI智能体的考验中,失败轨迹是不成幸免的,尤其是在长序列任务中,一个中间要领的无理就可能导致后续所有失败。传统作念法是径直丢弃这些失败样本,但这意味着多数的交互数据被销耗。

图4.失败样本的案例

图5.HindsightGoal-Shifting的诊治案例

SE-GA提倡了一种好意思妙的数据宽敞纪律—HindsightGoal-Shifting。其中枢念念想是:要是一条失败轨迹的前缀子序列也曾见效完成了某个有用的子主义(举例见效掀开了应用,但后续搜索操作失败),那么就将这条轨迹再行标注为对该子主义的见效实例。这么,本来的「失败样本」就升沉为了「有价值的监督信号」,极地面擢升了考验数据的诈欺率。这种「变废为宝」的瞎想,是SE-GA或者在有限交互数据下达成存效自我进化的要津。

实验截止

SE-GA以Qwen2.5-VL-7B为基座模子,使用4K条交互轨迹进行考验,在多个圭臬基准测试上赢得了令东谈主在意的成绩。这些截止不仅突出了同参数目的所有基线模子,更在多个筹划上突出了72B参数目的大模子。

1.ScreenSpot:GUI定位精度全面逾越

图6.ScreenSpot上的性能对比

在评估GUI元素定位能力的ScreenSpot基准上,SE-GA以89.0%的平均得分突出了包括UI-TARS-72B(88.4%)和Qwen2.5-VL-72B在内的所有基线模子。这收成于MASE框架等分层奖励瞎想对视觉定位精度的权贵擢升,稀奇是点定位奖励和包围框奖励将视觉感知与精确的空间反馈绑定,有用克服了密集GUI布局中的像素级偏差问题。

2.AndroidControl&GUIOdyssey:长周期筹划能力的糟蹋

图7.AndroidControl和GUIOdyssey上的性能对比

在评估高层筹划能力的AndroidControl-High和GUIOdyssey上,SE-GA不仅突出了所有同参数目的基线纪律,还与UI-TARS-72B的举座阐明稀奇。更伏击的是,在跨应用导航任务GUIOdyssey上,SE-GA达到了83.9%的要领见服从和96.5%的作为类型准确率,后者以致突出了UI-TARS-72B。这证实SE-GA不仅能更准确地履行单个作为,还能在复杂的多应用职责流中保捏更可靠的长周期有筹划能力。

3.AndroidWorld:动态环境中的强泛化能力

图8.AndroidWorld上的性能对比

在果然动态环境的AndroidWorld基准上,SE-GA以39.0%的见服从权贵逾越于其他7B模子,包括UI-TARS-7B(33.0%)和GPT-4o(23.7%)。这一截止充分证实注解了SE-GA的自我进化机制或者匡助智能体捏续探索和合乎动态环境变化,而不是像传统纪律那样依赖静态预考验的零样本泛化。

消融实验

为了考证TTME和MASE各自的孝顺,论文进行了详备的消融实验,截止揭示了两个组件的不成替代性。

图9.消融实验

记忆与计议

SE-GA提供了一个长入的框架,将「驰念」和「进化」两个意见精细招引。TTME惩办了「记不住」的问题,让智能体或者爱戴和检索丰富的交互历史;MASE惩办了「学不会」的问题,将非参数化的警戒编码为参数化的计谋,达成郑重的自我进化。两者的招引,让GUI智能体从依赖固定数据集的「静态号令履行器」,转换为或者通过交互捏续学习和改换的「动态学习者」。

虽然,SE-GA也存在一些局限性。跟着TTME模块不断蕴蓄交互数据,警戒驰念库的范围捏续增长,基于镶嵌同样度和视觉特征的检索操作可能带来权贵的筹划支出,影响及时推理的反映速率。尽管如斯,论文也指出了将来的三个伏击标的:一是扩大考验数据集以掩饰更多任务类型,二是探索分层任务判辨以粗豪超长职责流,三是计议跨平台挪动学习,让进化后的计谋和驰念结构能合乎不同平台的各别。

在GUI智能体快速发展确当下,SE-GA提供了一个了了的信号:将来的GUI智能体不应该仅仅更大的模子AG真人游戏网,而应该是或者记取曩昔、学习警戒、捏续进化的智能系统。唯一从语义底层斥地起机制化的驰念与学习体系,将来的GUI智能体才能果然达成稳当委果。