type
status
date
slug
summary
tags
category
icon
password
comment
Introduction
先简单的介绍一下Agent的任务自动化工作流程,顺便引入一下问题。
Agent会接受当前的屏幕截图和视图层次结构作为输入,有的还会以此为基础进一步提炼UI语义信息,或者将其转化为简单的HTML表述。结合任务描述和历史信息,Agent会给出下一步进行的操作,形式可以是某个坐标位置的点击,对某个图标进行操作,或者对HTML的某个元素进行选中操作,以此推进任务。
于是大多数模型会在静态的数据集上进行训练和评估,评测的方式大概两种,人工评估,可靠程度高但显然扩展性弱且费力,而另一种流行的方法则是采用动作匹配,将Agent运行时的action与数据集所给的action进行匹配,如果完全匹配则说明Agent运行良好,但是显然要做到完全匹配是很难的。
两个相同作用的操作可能会因为一点点不同而不匹配,在动态运行的环境上,两次相同的运行可能因为UI的变化而不匹配(如下图所示),当然完成任务的途径也不止一种,不能单一评判。于是作者提出了一种基于UI状态进行匹配的方法进行任务评估。
Method Design
判断任务是否完成,只需要我们对必要的一些UI状态进行匹配,为了实现这一目标,我们会将屏幕截图进行注释,带有标注框的UI组件截图将用于更细致的判断,我们定义了一系列注释基元对UI状态进行区分。
如图所示,屏幕信息和文本框都会用于模糊匹配两个UI是否相同,而活动任务和UI组件则会用于精准匹配两个任务是否相同,除此,一些任务可以用系统状态进行匹配,例如程序的安装和卸载,当然,Agent采取的action在必要时也是判断条件之一,即使我们之前讨论过他的一些缺点。
如图,是一个标注的案例,不难发现我们将序号为13,27的组件定义为必要,也就是说我们在评估时,首先利用UI表示(屏幕信息)和活动任务进行大致模糊的匹配,而后只有当必要组件完全匹配时才定义为两者完全相同。
模糊匹配中,如果两个UI一样,那么他们在后台的活动任务名应该一致,其次,我们将屏幕信息转化为HTML文本,通过其与数据集的余弦相似度来模糊匹配。
然后我们进行混合UI状态的匹配,对必要UI组件进行精确比较,对文本框利用余弦相似度模糊比较,对action我们采用XPath选择器进行比较,针对某些特定任务继续对系统信息进行比较。
通过以上多层次的状态匹配算法,LLamatouch能够完成更高精准度的评估任务。
此篇文章还介绍了数据集的构造方法,各种评估方式的比较等等….
- Author:E1ainay
- URL:https://e1ainay.top/article/llamatouch
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts
Attacking Vision-Language Computer Agents via Pop-ups
Enabling Conversational Interaction with Mobile UI using Large Language Models
DroidBot: A Lightweight UI-Guided Test Input Generator for Android
PERSONAL LLM AGENTS: INSIGHTS AND SURVEY ABOUT THE CAPABILITY, EFFICIENCY AND SECURITY
AutoDroid: LLM-powered Task Automation in Android