将自然语言指令映射到移动UI操作序列

谷歌正在研究如何使用AI,将自然语言指令植根于智能手机操作系统。在2020年计算语言学协会(ACL)会议接受的一项研究中,该公司的研究人员提出了语料库来训练模型,以减轻应用操纵的需求,以希望帮助视力障碍者使用智能手机。当需要协调工作并完成涉及一系列动作的任务时(例如,按照食谱制作生日蛋糕),人们会相互提供指示。考虑到这一点,研究人员着手进行可以帮助类似交互的AI代理建立基准。给定一组指令,这些代理将预测一系列应用程序动作以及在应用程序从一个屏幕过渡到另一个屏幕时生成的屏幕和交互元素。

研究人员在论文中描述了一种两步解决方案,包括一个动作短语提取步骤和一个接地步骤。动作短语提取使用Transformer模型从多步骤指令中识别操作,对象和参数描述。(模型中的“区域关注”模块允许它整体上处理指令中的一组相邻单词,以对描述进行解码。)接地将提取的操作和对象描述与屏幕上的UI对象进行匹配,再次使用一种Transformer模型,但可以在上下文中表示UI对象,并为其基础对象描述。

上图:动作短语提取模型采用自然语言指令的单词序列,并输出一系列跨度(用红色框表示),这些跨度指示描述任务,操作和每个动作的自变量的短语。

研究人员创建了三个新的数据集来训练和评估他们的动作短语提取和基础模型:

第一个包含187条多步骤英文说明,用于操作Pixel手机及其相应的操作屏幕序列。

第二个包含来自网络的英文“操作方法”说明以及描述每个动作的带注释短语。

第三个包含295,000个单步命令,这些命令用于UI动作,这些动作来自公共Android UI语料库的25,000个移动UI屏幕上的178,000个UI对象。

关注区域的再预测与真实情况完全匹配的跨度序列时可达到85.56%的准确度。同时,在将语言指令端到端映射到更具挑战性的任务时,短语提取器和基础模型一起获得89.21%的局部准确度和70.59%的完全准确度,以匹配地面真实动作序列。研究人员断言,数据集,模型和结果(所有这些数据集,模型和结果都可以从GitHub上的开放源代码获得)为解决将自然语言指令扎根于移动UI动作迈出了重要的第一步。

这项研究以及总体上的语言基础,是将多阶段指令转换为图形用户界面上的动作的重要一步。成功地将任务自动化应用于UI域有潜力显着改善可访问性,其中语言界面可以帮助视力障碍的人使用看得到的界面执行任务。

GITHUB项目地址:https://github.com/google-research/google-research/tree/master/seq2act

相关文章

Leave a Comment