百家乐app

百家乐APP

百家乐Android/通用版APP最新版 GUI Agent「记与学」双修, 长程任务有了专属挂牵增强型自进化框架

发布日期:2026-06-07 19:08 来源:未知 作者:admin 浏览次数:

百家乐Android/通用版APP最新版 GUI Agent「记与学」双修, 长程任务有了专属挂牵增强型自进化框架

本文团队持久从事负包袱的东谈主工智能与东谈主工智能赋能社会科学相干考虑,围绕视觉生成大模子安全管理、智能体安全等主伸开展系统性使命,相干恶果发表于AAAI、ICML、TMM等国外期刊与会议。现运转招收2027级博士考虑生与硕士考虑生,礼服请参见王岚君教悔主页:https://wanglanjun-academic.github.io/

跟着大模子技巧的速即发展,GUI(GraphicalUserInterface)智能体正在从「看得懂屏幕」迈向「能自主操作」的新阶段。然则,当咱们确实将这些智能体放入确实场景时,一个要津问题便突显出来:它们在多要领、长周期的复杂任务中,经常「翻车」。

现存的GUI智能体主要依赖现时屏幕截图和有限的高下文窗口作念有谋略,无法崇尚完满的交互历史。在多要领任务中,早期的要津信息可能跟着高下文滑动而丢失,导致「错误累积」,一个早期的小极度就可能激发连锁失败。与此同期,现时的GUI智能体常常使用在固定数据集上检修的静态政策,无法从过往收效告诫中学习和移动,难以符合动态变化的环境。

「记不住」和「学不会」恰是现时GUI智能体发展的中枢矛盾。而天津大学团队结伙上海交通大学团队在ICML2026上建议SE-GA框架,通过引入分层挂牵结构和迭代自我更正机制,让GUI智能体从「静态实行器」进化为「动态学习者」,并在多个不同类型的基准上获得了细密的阐述。

论文标题:SE-GA:Memory-AugmentedSelf-EvolutionforGUIAgents

论文地址:https://arxiv.org/abs/2605.16883

亚搏体育app中国最新版本

代码聚积:https://github.com/jinshilong-dev/SE-GA

「记不住」又「学不会」,GUI智能体的两梗概命短板

团队将GUI导航任务体式化为部分可不雅察马尔可夫有谋略经由,这意味着智能体无法十足不雅察环境气象,只可通过局部不雅察作念出有谋略。在这种部分可不雅察性下,两个结构性问题尤为杰出。

1.高下文窗口受限,要津信息「记不住」

GUI导航任务本色上是历史依赖的。然则,大多数现存形状主要依赖现时屏幕截图和有限的高下文窗口,跟着交互要领的激动,早期的要津信息很容易被「滑出」高下文窗口,导致智能体「健忘」动身点的操作和不雅察,从而作念出极度有谋略。

2.政策静态固化,过往告诫「学不会」

践诺寰宇中的GUI任务很少是孤立的,它们经常是先前已完成任务的变体或组合,需要复用过往收效的政策。但现时的GUI智能体常常在固定数据集上检修,使用静态政策,无法从交互经由中索乞降学习收效告诫。

简而言之,现时GUI智能体枯竭一个团结的机制来将显式的历史告诫编码为隐式的政策参数,导致它们只可进行静态实行,而无法竣事握续的自我进化。

图1.SE-GA的全体框架图

TTME:给智能体装上「分层挂牵」,让它「铭记住」夙昔

为了措置「记不住」的问题,SE-GA建议了测试时挂牵膨大(Test-TimeMemoryExtension,TTME)模块。该模块鉴戒了东谈主类阐述架构的念念想,构建了一个分层挂牵库,包含三种互补的挂牵类型,从不同粒度为智能体的有谋略提供撑握。

图2.TTME的架构示例图

情景挂牵(EpisodicMemory):短期使命挂牵,追踪「刚才作念了什么」

在职求实行的每个时辰步中,情景挂牵会记载前一步的不雅察、选拔的作为以及作为实行后的新不雅察。这种联想既幸免了保留一起历史带来的谋略支出,又能过滤掉可能误导有谋略的逾期信息,让智能体恒久对「近期作念了什么」保握显著的阐述。

语义挂牵(SemanticMemory):通用规章库,存储「怎样作念才对」

语义挂牵存储的是轮廓的、跨任务通用的交互规章,举例「需要先登录才略走访受限页面」「搜索功能常常在页面顶部」等,这些信息大要匡助智能体更好地和洽现时气象背后的步履逻辑,从而作念出更合理的有谋略。

告诫挂牵(ExperientialMemory):过往资格库,复用「收效的告诫」

告诫挂牵存储智能体过往收效完成的任务轨迹,包括原始轨迹和智能体我方生成的反念念回归。与纯文本检索不同,TTME收受了一种搀杂检索机制,同期计议语义一致性和视觉相通性,百家乐2026世界杯中国官方下载这种文本-图像搀杂检索大要更精确地找到与现时任务相通的历史告诫,从而让智能体大要「站在夙昔的肩膀上」作念有谋略。

MASE:两阶段检修,让智能体「学得会」进化

要是说TTME措置的是「记不住」的问题,那么MASE(Memory-AugmentedSelf-Evolution)措置的即是「学不会」的问题。MASE是一个两阶段检修框架,旨在将TTME辘集的告诫数据转机为智能体的内在智商,竣事确实的自我进化。

图3.MASE的架构示例图

第一阶段:基础智商检修(GroundingTraining)

第一阶段通过监督微调对众人轨迹进行步履克隆,强化智能体的视觉定位和作为推聪敏商。这一阶段的中枢主张是让智能体学会「看懂屏幕、找对位置、作念对作为」。

第二阶段:自我进化检修(Self-EvolutionTraining)

第二阶段基于GRPO(GroupRelativePolicyOptimization)算法,引入了多个针对GUI任务的要津更正,让智能体大要从我方与环境交互产生的数据中握续学习。

「失败也能变废为宝」:HindsightGoal-Shifting的奥密联想

在GUI智能体的检修中,失败轨迹是弗成幸免的,尤其是在长序列任务中,一个中间要领的荒诞就可能导致后续一起失败。传统作念法是平直丢弃这些失败样本,但这意味着大皆的交互数据被奢华。

图4.失败样本的案例

图5.HindsightGoal-Shifting的调养案例

SE-GA建议了一种奥密的数据高超形状—HindsightGoal-Shifting。其中枢念念想是:要是一条失败轨迹的前缀子序列如故收效完成了某个灵验的子主张(举例收效怒放了应用,但后续搜索操作失败),那么就将这条轨迹再行标注为对该子主张的收效实例。这么,原来的「失败样本」就转机为了「有价值的监督信号」,极地面普及了检修数据的欺骗率。这种「变废为宝」的联想,是SE-GA大要在有限交互数据下竣事存效自我进化的要津。

实验截止

SE-GA以Qwen2.5-VL-7B为基座模子,使用4K条交互轨迹进行检修,在多个步调基准测试上获得了令东谈主细心的成绩。这些截止不仅卓绝了同参数目的统统基线模子,更在多个谋略上卓绝了72B参数目的大模子。

1.ScreenSpot:GUI定位精度全面逾越

图6.ScreenSpot上的性能对比

在评估GUI元素定位智商的ScreenSpot基准上,SE-GA以89.0%的平均得分卓绝了包括UI-TARS-72B(88.4%)和Qwen2.5-VL-72B在内的统统基线模子。这收获于MASE框架均分层奖励联想对视觉定位精度的权贵普及,止境是点定位奖励和包围框奖励将视觉感知与精确的空间反馈绑定,灵验克服了密集GUI布局中的像素级偏差问题。

2.AndroidControl&GUIOdyssey:长周期谋略智商的冲突

图7.AndroidControl和GUIOdyssey上的性能对比

在评估高层谋略智商的AndroidControl-High和GUIOdyssey上,SE-GA不仅卓绝了统统同参数目的基线形状,还与UI-TARS-72B的全体阐述十分。更伏击的是,在跨应用导航任务GUIOdyssey上,SE-GA达到了83.9%的要领收效用和96.5%的作为类型准确率,后者以致卓绝了UI-TARS-72B。这诠释SE-GA不仅能更准确地实行单个作为,还能在复杂的多应用使命流中保握更可靠的长周期有谋略智商。

3.AndroidWorld:动态环境中的强泛化智商

图8.AndroidWorld上的性能对比

在确实动态环境的AndroidWorld基准上,SE-GA以39.0%的收效用权贵逾越于其他7B模子,包括UI-TARS-7B(33.0%)和GPT-4o(23.7%)。这一截止充分诠释注解了SE-GA的自我进化机制大要匡助智能体握续探索和符合动态环境变化,而不是像传统形状那样依赖静态预检修的零样本泛化。

消融实验

为了考据TTME和MASE各自的孝顺,论文进行了详备的消融实验,截止揭示了两个组件的弗成替代性。

图9.消融实验

回归与臆度

SE-GA提供了一个团结的框架,将「挂牵」和「进化」两个想法致密邻接。TTME措置了「记不住」的问题,让智能体大要崇尚和检索丰富的交互历史;MASE措置了「学不会」的问题,将非参数化的告诫编码为参数化的政策,竣事褂讪的自我进化。两者的邻接,让GUI智能体从依赖固定数据集的「静态高歌实行器」,篡改为大要通过交互握续学习和更正的「动态学习者」。

诚然,SE-GA也存在一些局限性。跟着TTME模块不断累积交互数据,告诫挂牵库的领域握续增长,基于镶嵌相通度和视觉特征的检索操作可能带来权贵的谋略支出,影响及时推理的反馈速率。尽管如斯,论文也指出了畴昔的三个伏击主张:一是扩大检修数据集以隐蔽更多任务类型,二是探索分层任务解析以搪塞超长使命流,三是考虑跨平台移动学习,让进化后的政策和挂牵结构能符合不同平台的各异。

在GUI智能体快速发展确当下百家乐Android/通用版APP最新版,SE-GA提供了一个显著的信号:畴昔的GUI智能体不应该仅仅更大的模子,而应该是大要记取夙昔、学习告诫、握续进化的智能系统。独一从语义底层建树起机制化的挂牵与学习体系,畴昔的GUI智能体才略确实竣事肃肃确实。