八月未央 自慰 华为与哈工深等最新酌量效果:SPA-Bench,手机操控智能体评估新圭臬

该酌量惩处了现有手机智能体基准测试的局限性八月未央 自慰,为手机操控智能体的酌量与评估提供圭臬。

跟着智高手机成为东说念主们日常生存中不能或缺的器用,手机操控智能体(smartphone control agent)的酌量慢慢成为大模子规模的紧要场地。通过天然话语教导,这些智能体大约高效地完成复杂任务,检朴单的欺诈大开到多设施的跨欺诈操作,以致包括多话语接济。可是,怎样全面、精确地评估这些智能体的才能却历久是一个莫得惩处的重要问题。

近日,诺亚方舟实验室与哈尔滨工业大学(深圳)集聚建议了一个全新的评估框架——SPA-Bench(SmartPhone Agent Benchmark)。这一框架旨在惩处现有手机智能体基准测试的局限性,通过遮蔽 340 个任务、接济中英双语和第三方欺诈操作,以及提供自动化评估经由和多维度宗旨,重新界说了手机操控智能体的酌量与评估圭臬。

论文地址:arXiv:2410.15164

1

为什么需要SPA-Bench?

现有基准测试的局限性

任务边界的不及

现时的手机智能体评估框架往往聚焦于系统欺诈的任务,举例文献不断或日期中的浅易操作。这些任务对智能体的相宜才能测试相称有限,尤其是在多话语场景或动态 UI 环境中,其评估才能昭彰不及。何况,由于用户需求的种种化,许多跨欺诈的复杂操作(如从应答平台导出数据至条记欺诈)尚未得到利弊遮蔽。与此同期,天然英语任务在现有基准中占据主导地位,但大家用户的需求显著不啻于此。尤其在华文等话语场景中,UI 瞎想、文本结构和任务逻辑的独到性对智能体建议了更高条目。可是,现有框架所涵盖的任务费事对此类任务的全面接济。

手机智能体种类的扬弃

当今大遍及基准测试中波及的智能体种类较为单一,平素不跨越五种,有些酌量以致仅包含并吞智能体的不同变种。这种扬弃使得酌量者难以全面了解现时先进智能体手艺的举座阐扬,也难以对不同模子架构的优劣进行长远对比。这不仅裁减了基准测试的适用边界,也可能导致酌量论断费事全面性,难觉得智能体手艺的发展提供更利弊的参考依据。

考据机制的局限性

大遍及现有框架依赖东说念主工设定的固定例则考据任务完成情况。举例,通过检测 UI 元素的景况来判断操作是否顺利。这种要领费事生动性,当 UI 瞎想或欺诈功能发生更新时,这些法例往往需要重新瞎想,导致实质评估效用裁减。

SPA-Bench与其他手机Agent Benchmark的对比

2

SPA-Bench的中枢瞎想

SPA-Bench举座框架图

SPA-Bench 旨在提供一个全面、生动且靠拢实质使用场景的评估框架,通过以下三个方面惩处现时基准测试的痛点:

任务瞎想:遮蔽的确场景

SPA-Bench 提供了一个种种化任务集,涵盖了 340 个任务,分为单欺诈任务和跨欺诈任务两大类。

单欺诈任务凭据复杂性被分为三个品级:

一级任务:基础且浅易的活动,平素波及少于五个操作设施。

二级任务:引入了更复杂的需求,举例处理复杂的 UI 元素或动画,平素需要少于十个操作设施。

三级任务:最复杂的任务,可能波及多达十五个操作设施,条目智能体处理更多设施和逻辑依赖。

单欺诈任务成组出线,每个任务组内含有一、二、三级任务,任务瞎想同样,但通过使用不同的实体(如创建具有不同称号的文献夹)幸免智能体受到早期任务的影响,确保评估的孤苦性和全面性。

跨欺诈任务基于波及的欺诈数目进行难度永别:

一级任务:在两个欺诈之间切换完成操作。

二级任务:需要在三个欺诈之间进行复杂的交互,波及更多设施以及跨欺诈间的依赖与调和。

这些任务涵盖了多种类型,包括通用器用、信息不断、收罗购物、媒体文娱、应答共享和多欺诈配合等。跨欺诈任务的瞎想鉴戒了 GUI Odyssey 的分类要领,并通过任务数目和操作复杂性进一步细化。

这些任务不仅涵盖了 58 个常用第三方欺诈,还接济中英双语,使得任务瞎想愈加靠拢的确宇宙的用户需求。

智能体框架:高度生动的集成

SPA-Bench 的框架瞎想允许酌量者快速集成现有的智能体模子,并接济对不同模子进行横向对比。

模块化瞎想框架接受模块化架构,包括任务模拟器、考据经由和资源监控模块。任务模拟器不错快速还原任务的运行环境,举例欺诈的登录景况、用户开导等,从而确保实验环境的一致性。

多智能体接济酌量团队在 SPA-Bench 中依然集成了 11 种现有手机智能体。七种基于闭源专有模子的智能体:AppAgent、AutoDroid、MobileAgent、MobileAgentV2、M3A、T3A、SeeAct;和四种基于开源模子的智能体:Auto-UI、CogAgent、DigiRL、OdysseyAgent。

快速膨胀酌量者不错通过 SPA-Bench 快速测试新智能体,只需要作念一些浅易的修改即可集成。

自动化经由:高效的任务考据

SPA-Bench 提供了一套全面自动化的任务考据经由,通过针对单欺诈任务和跨欺诈任务的不同瞎想,已毕高效且精确的评估。此外,框架引入了七个重要宗旨,用于全面揣度智能体的阐扬,从完成任务的准确性到履行效用和资源糜费,为智能体的性能评价提供了多维度接济。

在评估任务完成情况时,顺利信号是中枢宗旨,用于判断智能体是否顺利完成任务。联结操作和景况信息,这一宗旨大约相宜多种灵验旅途,幸免固定逻辑的局限性。设施比揣度智能体的履行效用,通过对比智能体履行设施与东说念主工预界说的“黄金设施”,揭示冗余操作的存在情况。断绝原因进一步记载任务的收尾状貌,包括智能体主动断绝、达到设施扬弃或发生装假,同期还通过过早断绝信号与超时断绝信号捕捉智能体在判断任务是否完成中的逻辑偏差,反应其准确性与效用问题。此外,SPA-Bench 还从资源糜费的角度,通过履行时分和API 老本两个宗旨评估智能体的时分与经济支出,超过针对依赖大模子 API 的智能体进行直不雅的老天职析。

顺利信号的瞎想在单欺诈任务和跨欺诈任务中接受了两种不同的经由,以相宜任务场景的复杂性。在单欺诈任务中,考据经由以粗到细的检测状貌为主。最初,通过重要 UI 元素的景况匹配已毕初步筛选;随后引入大模子评估器(MLLM Evaluator),对重要设施进行语义层面的深度检测,从而判断任务是否完成。这种要领兼顾了评估的精确性与老本效用,在英文和华文任务上的 F1 分数分别达到 0.926 和 0.884,展现了出色的可靠性。

关于跨欺诈任务,考据经由因波及多个欺诈间的交互而更为复杂。SPA-Bench 接受了一种基于子任务理会的考据要领,最初通过大模子将任务轨迹凭据欺诈来分割为多个子任务,并一一进行考据。每个子任务的赶走相互依赖,若任一子任务失败,后续考据即告断绝。实验赶走标明,该经由在复杂任务场景下的阐扬与东说念主工评估高度一致,F1 分数达到 0.845,为跨欺诈任务的评估提供了强有劲的接济。

3

实验赶走与分析

任务顺利率概览

实验赶走涌现,不同智能体在职务顺利率上的阐扬各别显耀。M3A 是举座阐扬最优的智能体,在所有任务组中均获得了最高的顺利率。总体来看,智能体在单欺诈任务中的顺利率高于跨欺诈任务,而在话语方面,英文任务的顺利率也显耀优于华文任务。此外,接受基于专有模子(GPT-4o)的智能体,其阐扬昭彰优于基于开源模子的智能体。

单欺诈任务

在单欺诈英文任务中,M3A、T3A 和 MobileAgentV2 阐扬最好,顺利率从 0.640 到 0.433 不等。这些智能体配备了反想模块,灵验减少了任务履行中的停滞时局。比拟之下,AppAgent 和 AutoDroid 的阐扬较差,但要是它们大约走访外部学问库,其阐扬可能会有所普及。

在单欺诈华文任务中,MobileAgentV2 的阐扬优于 T3A,且与 M3A 极端。这可能与 T3A 使用的可走访性(a11y)树结构过于复杂策动。华文任务的复杂性进一步突显,尤其是更复杂的 UI 布局、时常的动画以及插手性元素(如告白和弹窗),这显耀增多了任务履行难度。此外,由于多模态大模子在华文处理才能上的局限性,智能体在华文任务中的顺利率举座低于英文任务。

跨欺诈任务

跨欺诈任务的挑战更为显耀。除 M3A 外,大遍及智能体在 40 项跨欺诈任务中的总完成数不跨越 4 项。M3A 的阐扬相对较好,完成了 6 项任务,但举座顺利率仍然偏低。这类任务不仅条目智能体完成更多设施,还需要具备在多欺诈间切换时保捏迤逦文顾忌的才能。可是,即使是专为跨欺诈任务瞎想的 OdysseyAgent 也未能顺利完成这些任务。天然其在单个欺诈中的子任务阐扬细致,但在欺诈间切换通常常失去迤逦文或逻辑推理才能。实验标明,跨欺诈任务的低顺利率反应了智能体在多设施任务中的顾忌保留与跨环境推理才能的不及。

完生效用与资源糜费

任务完生效用和资源糜费是揣度智能体性能的紧要方面。在单欺诈任务中,M3A 的平均设施比为 0.92,涌现出其在完成任务时的高效性。比拟之下,靠近较高难度任务的智能体往往会因装假操作而导致更多的无效设施,尽管它们可能最终完成任务。举例,M3A 大约通过组合看成(如在搜索框中输入并按下“回车”)以及战略性捷径(如顺利点击推选项)减少任务设施,从而普及效用。

任务断绝的原因也与顺利率密切联系。较高的任务顺利率平素伴跟着更高的自申报完成率(Self-Reported Completion,SRC)和较低的最大设施断绝率(Maximum Steps Reached,MSR)。可是,智能体并非总能准确判断任务是否完成,导致顺利率与 SRC 之间存在各别。举例,过早断绝率(Premature Termination Rate,PTR)与超时断绝率(Overdue Termination Rate,OTR)之间往往呈现量度关系。PTR 较低的智能体平素阐扬出较高的 OTR,举例 SeeAct 的 PTR 为 0.100,但 OTR 达到 0.276。这种量度反应了智能体里面顺利检测机制的机灵度问题,均衡任务提前断绝和蔓延收尾的才能是优化场地之一。

装假处理机制与老本效用

智能体在职务履行中的装假处理才能对其顺利率有显耀影响。费事装假处理机制的智能体更容易因解析装假或输入缺失而半途断绝任务。举例,部分智能体在解析模子输出为灵验看成时遭受不毛,或因无法走访必要的 XML 文献而导致失败。这些问题标明,更强大的装假检测与还原机制关于提高智能体的任务可靠性至关紧要。

在资源糜费方面,不同智能体的阐扬有在显耀各别。AutoDroid 是老本最低的智能体,每步糜费仅为 0.008 好意思元,但其顺利率较低(0.327)且履行时分较长(平均每步 34 秒)。M3A 和 T3A 的每步老本接近 0.10 好意思元,但它们具有更高的顺利率和更快的履行时分(不到 20 秒)。MobileAgentV2 的每步老本为 0.067 好意思元,但由于视觉感知经由的复杂性,其每步平均履行时分长达 56.1 秒。赶走涌现,智能体在效用与老本之间存在昭彰的量度,高顺利率的智能体往往需要更高的贪图资源和时分老本,而这小数扬弃了其在实质欺诈中的可用性。

4

未来酌量场地

增强视觉感知:开发更强大的视觉模子,普及对复杂 UI 布局和动态环境的领路与看成定位才能,超过是在华文任务中的阐扬。

Hongkongdoll only fans

丰富数据集种种性:构建包含多种话语、任务类型(单欺诈与跨欺诈)的数据集,以提高智能体在多话语和多场景下的泛化才能。

矫正顾忌保留机制:引入顾忌增强收罗或情节顾忌架构,接济长设施跨欺诈任务中的迤逦文保捏与逻辑延续。

强化反想与装假处理:接受反想模块和装假还原机制,匡助智能体动态治疗战略,惩处无效操作息争析装假问题。

优化任务断绝判断:瞎想更准确的里面顺利检测器,均衡过早和过晚断绝,普及任务完成的效用与准确性。

普及履行效用与老本优化:通过搀和模子战略,在速率与鲁棒性间找到均衡,裁减任务完成时分与 token 老本,增强实质部署的可行性。

5

回来

SPA-Bench 的建议为手机操控智能体酌量提供了一个强大的器用。通过其全面的任务瞎想、生动的智能体框架和高效多元的考据经由,SPA-Bench 不仅填补了现有基准测试的空缺,还为未来手机智能体手艺的优化与发展提供了全新视角。跟着社区的利弊参与和任务边界的络续膨胀,SPA-Bench 有望进一步推入手机智能体手艺的普及与实质欺诈。

更多内容,点击下方温文:

未经「AI科技褒贬」授权,严禁以任何状貌在网页、论坛、社区进行转载!

公众号转载请先在「AI科技褒贬」后台留言获得授权,转载时需标注开首并插入本公众号柬帖。




热点资讯

相关资讯



Powered by 人妖夫妻 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024