【资料图】
近几个月,ChatGPT、GPT-4 等大语言模型(LLM)展现出突破性的理解、推理、 生成、泛化和对齐能力,对各行各业的研究方式和生产效率均带来广泛而深远的变革及影响。 此外,LLM 还展现出在真实世界的开放场景中解决复杂问题的能力,使 科幻电影中无所不能的 A I 智能助手照进了现实 。 在实现自然场景中的任务自动化时,一个复杂的任务往往由多个子任务构成,这需要多个模型或 APIs 的协作。如何确保 LLM 和执行器之间高效、安全、稳定地协同工作,是构建 Responsible AI ,以及让 LLM 可靠地为人类提供服务的关键问题。 为了解决这个问题,来自微软亚洲研究院的研究团队提出 Responsible Task Automation (ResponsibleTA) 框架,提升 LLM 和执行器之间协同工作的安全性和有效性。 项目主页:/responsible_task_automation/ 本文通过提出一个新的任务自动化框架,通过可行性检测,完成度检验,用户隐私保护等三个模块,提高了大语言模型作为任务助手的可靠性,为未来的人机交互提供了一种可行的方式。 该系统框架包含基于 LLM 的中央处理单元、指令执行器、指令可行性预测器、指令完成度检验器和安全性保护器。 Responsible Task Automation (ResponsibleTA) 框架示意图当 ResponsibleTA 接收到复杂任务对应的高层级指令时,安全性检测自动将包含用户隐私的命令实体替换成对应的占位符,然后将去隐私化的指令发送给部署在云端的 LLM,LLM 据此规划实现该负责任务目标的单步指令,然后发送给的部署在本地的执行器实际执行相关操作。从 Responsible AI 的角度出发,该框架赋予 LLM 三个新的能力: 1)可行性预测:ResponsibleTA 框架针对 LLM 和执行器的协同,开发设计了可行性预测模块。该模块用于对 LLM 的输出进行可行性判断,及时拦截不可行的执行指令,从而规避在执行这些指令的过程中产生的不可控风险。当 LLM 输出的指令判断为「不可行」时,可行性预测期会将其分析结果返回给 LLM,并要求其重新进行任务规划,力求将合理可行性的指令交付给执行器,提升任务自动化的成功率。 2)完成度检验:ResponsibleTA 框架设计了一个完成度检验器,用于在执行器每次执行结束后自动检查其执行结果是否符合预期。该模块根据执行器执行后的即时状态,判断 LLM 当前规划是否完成,并提供及时补救的可能。当执行状态判定为「未完成」时,完成度检验器会要求 LLM 启动 replanning,使其能够及时调整任务规划。 完成度检 验器和上述可行性预测器,分别在 LLM 输出指令的执行前后,对指 令的合理性和执行的完成性进行校验,为任务自动化的可靠性提供了双重保险。 3)用户隐私保护:ResponsibleTA 框架还设置了用户隐私保护机制,该机制通过一个本地记忆单元实现。当用户将高层级命令发送给部署在云端的大语言模型时,ResponsibleTA 中的隐私保护模块自动将命令中的隐私信息(如:用户名、密码、地址等)替换成对应的占位符,而当大语言模型将规划的低层级指令发送给部署在本地的执行器是,占位符会被自动替换成对应的真实信息。于此方式,用户的隐私信息仅在本地被存储和被使用,无需发送至云端,从而避免在传输和使用中的不可控风险。 针对 ResponsibleTA 中的可行性预测和完成度检查功能,其研究团队在 UI 任务自动化场景下提出并对比了两种不同的技术路线,并在实验部分详细分析了这两种技术路线的特点。以可行性预测为例,第一种技术方案通过 Prompting 的方式利用大语言模型内部知识进行判断。具体地,研究者训练了一个屏幕解析模型将 UI 页面解析成所含 UI 元素的语言描述,并将和指令一起输入给 GPT-4 模型,让 GPT-4 判断当前指令的可行性。具体方案如下图所示。 基于 prompt engineering 的(指令)可行性预测器实现方案另一种技术方案在于训练一个专用的多模态模型,该模型接收 UI 页面的视觉信号和对应的语言指令为输入,输出该指令的可行性判定结果,具体结构如下图。 完成度检验器的实现方案于可行性预测器类似,在此不详细赘述。 该工作的作者首先对 ResponsibleTA 中的关键模块进行定性实验,验证其有效性,并对比不同实现方式的特点。据下表所示实验结果,作者认为专用模型能够提供更优的实验结果但需要收集特定任务对应的数据和标注用于模型训练,而基于 LLM 的技术方案也能达到不错的效果,并在实际部署的成本和灵活性方面具有优势。 作者还在真实世界的实际使用场景中进行 online testing, 并汇报了基线模型,具有可行性预测器的 ResponsibleTA 框架和完整版的 ResponsibleTA 框架在 12 个实际 UI 任务执行过程中的具体表现。作者观察到所提出的可行性预测器和完成度检验器能够避免执行不可理 / 不可行的指令,并能通过让 LLM 进行 replanning 的方式进行及时补救,从而提升任务自动化的成功率。 真实世界中实例研究定量结果。表格中的数字表示 「有效执行步数 / 总共执行步数 (人类专家执行步数)」。此外,作者还通过具体的案例分析直观地展现了 ResponsibleTA 框架中的关键模型如何对一个失败案例进行补救,使其成为一个成功案例。 案例分析:进入亚马逊网站并将最便宜的充电器添加至购物车。©THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@
推荐内容
-
天天最新:ResponsibleTA提升LLM可靠性,任务完成更安全、更高效
-
炎亚纶到底是不是同性恋,高中时记得他有女朋友啊 环球今日讯
-
实时焦点:iPhone 15 Ultra 要来了,有这些新升级
-
2023年6月上海新三板企业市值TOP100:39家企业去年净利润超3000万元|每日视点
-
超 10 万个被黑的 ChatGPT 帐户在暗网出售
-
萝卜的几种家常做法,荤素搭配有营养,美味又下饭_焦点日报
-
今日视点:赛力斯SERES5完成欧洲首批交付
-
全球最新:三年亏损614亿,东航“玩不起”积分?
-
全球视点!40岁左右的女人,夏天都爱穿半身裙,3种搭配方式,舒适提气质
-
韩国200多艘渔船海上集结 抗议日本决定将福岛核污染水排海
-
当前简讯:火炎焱!全国183个国家气象站日最高气温突破月极值
-
世界新资讯:行业轮动,散户亏损累累!节后,A股历史或会重演
-
每日关注!脑袋被人类盯上的鸟(盔犀鸟),头骨比象牙贵3倍,活着被取骨后
-
世界快消息!女子不满意双眼皮手术 要求枪毙医生 有些被愤怒冲昏了头脑!
-
2023年6月23日十二星座运势 环球热头条
-
今日报丨英国初级医生将于7月连续举行5天罢工
-
天天热头条丨工艺笤帚“守艺人”:巧手编制的端午祝福
-
杭州一面馆涨价5元起_今日精选
-
环球看点!35人落水,2人不幸身亡,安全提示!
-
【世界报资讯】94岁老战士获终身成就奖!他的作品太震撼
-
2023年首轮秀薪资出炉:状元4年5435万创纪录 30顺位仅4年1221万
-
3-6,4-6!张帅连丢两盘不敌世界第150,惨遭巡回赛10连败-每日热门
-
天天观焦点:两本精彩斗罗同人文,主角一力破万法,镇压所有不服
-
【Pixiv鉴赏】#353 她们丰不丰满你的屏幕也是平的|最新资讯
-
火炎焱!全国183个国家气象站日最高气温突破月极值_世界速读
-
当前时讯:韩国200多艘渔船海上集结 抗议日本决定将福岛核污染水排海
-
特斯拉超级充电网价值几何?大摩:1000亿美元! 当前要闻
-
桐梓•兴茂康养旅游度假区——端午FUN肆“嗨”|这份端午出行攻略记得收藏
-
足协杯5支中超队晋级,浙江4-1大胜,亚泰4-3,梅州点球过关-世界通讯
-
当前观点:清平乐·销魂名字
-
环球关注:*ST东洋最新公告:国元基金有意向独立作为财务投资人之一直接参与公司重整投资
-
环球动态:FAST新发现!轨道周期最短脉冲星现身
-
“雪龙2”号总师寄语华科大学子:学会忍受孤独
-
药物流产的副作用都有什么 药物流产的副作用_全球快资讯
-
世界即时:国际油价跌逾4%
-
世界滚动:“海威2号”顺利下水!
-
天天视点!黄河启动2023年主汛期前调水调沙
-
快报:大和:上调中国电力评级至“买入” 目标价降至3.9港元_短讯
-
5名乘员被“内爆”致死!泰坦号前乘客自曝下潜是自杀之旅:受困如地狱 天天热资讯
-
(经济)土耳其央行2年来首次加息
-
ST国华6月8日盘中跌停
-
美高梅中国(02282.HK)6月23日注销125.32万股
-
澳门端午赛龙舟_每日资讯
-
李强会见欧洲理事会主席米歇尔|天天播报
-
python学多久可以做项目_python学多久
-
坡度i是什么意思_坡度i
-
世界新动态:电脑丢失vcomp100.dll的解决方法
-
保罗合同情况:下赛季3080万美元全额保障 2024-25赛季无保障 热门看点
-
当前热文:2023江西高考分数线出炉:文科一本533分,理科一本518分
-
@考生和家长:查分啦!各地高考成绩今起陆续公布
-
东海云廊-千年古城山地半程马拉松挑战赛举行|最新
-
上海市开展燃气安全隐患排查工作 全球通讯
-
天天报道:《赛博朋克2077》“官方正版”手游惊现苹果商店:3DM游民联名推荐?
-
广西暴雨助“龙舟水” 每日头条
-
大连自贸片区携手辽港集团开辟欧亚航运新通道|消息
-
7月10日起国家组织第八批药品集采中选结果落地山东
-
从事销售工作,学会说这七句话,没有拿不下的客户
-
天天微动态丨上线不到5天,就飙升至全网实时播放第一,《长风渡》赢在这三点
-
【世界时快讯】午FUN丨深海“腾龙”!我国最长深水油气管道完工
-
环球速讯:两所“双一流” 一所特色本科院校!6月23日大象直播间 与名校“面对面”
-
端午节“锦囊”来了:事关出行、游玩和安全
-
看热讯:一别77年!她终于与烈士哥哥“重逢”……
-
一部《闪电侠》,让超英电影倒退十五年-天天动态
-
郑州市首届掼蛋(掼牌)公开赛启幕_快讯
-
环球头条:非遗有新人|孙歌尧:香草为佩 针线绣传承
-
全球通讯!0比3不敌沙特队,U17国足无缘晋级
-
端午节太原至京津等地旅客激增 太原铁路增客座能力4万个
-
欧洲央行发布,欧元第二!全球外汇储备最新占比出炉
-
天天新消息丨20点官宣!许昕去日本打球悬念揭晓,做最好的选择,球迷振奋
-
疝气不治疗有什么影响(疝气不及时治疗会有什么后果)
-
焦点快看:来看国产车如何卷“养生”
-
以后偶尔发发想法
-
今日热议:宁德时代宣布无息借款支持员工购房
-
无良天仙txt全集下载_无良天仙 今日关注
-
灌南属于哪个市管辖 灌南属于哪个市
-
世界速读:replay mp3 replay播放器下载
-
全球焦点!文旅部:各地要指导A级旅游景区对洪灾风险区、地质灾害易发区等关键部位开展全面细致摸排
-
世界即时看!美股进入鱼尾行情?
-
美国海岸警卫队确认发现失联潜水器外部结构残骸 搜索将继续进行_微资讯
-
春夜喜雨原文及翻译注音 春夜喜雨原文及翻译
-
年底开通!武汉这条地铁全线隧道贯通
-
全球资讯:新款路虎揽胜极光官图发布 外观/内饰均有升级
-
华中农业大学水产学院学生:不要来钓我们的鱼,可能会毕不了业
-
网传惠州发生鳄鱼伤人事件 官方回应:已捕获,未伤人_热点在线
-
每日报道:【百千万工程】江海区实用型人才住房供需对接活动正式启动
-
北汽蓝谷:
关于极狐考拉的上市安排,公司计划于三季度末上市并接受预定 环球微动态
-
消费者维权途径有哪些 维权途径有哪些 环球新动态
-
win10桌面时钟怎么设置(win10桌面时钟)
-
河南启动重大气象灾害(高温)Ⅳ级应急响应_全球快报
-
前5月铁路客运量达14亿人增长133% 货运需求出现回落|天天速讯
-
世界热议:离岸人民币对美元跌破7.2关口 日内跌超200个基点|快讯
-
2023就业系列短片《让自己发光》:致敬心中有光的每个人 焦点信息
-
环球百事通!向太夫妻带孙女去游乐场!向华强和保姆聊孙女趣事,向芷蹦蹦跳跳超活泼
-
苏亚雷斯首秀中规中矩 国安小胜淄博足协杯晋级
-
张扬对话丨武大靖:我的下一站,期待米兰再见!|热讯
-
全球关注:洋葱炒肉的家常做法?
-
大葱炒肉的做法?_环球聚看点
-
资讯推荐:业内称中药材涨幅之大40年未遇,浙江金华一药农卖元胡10分钟赚52万元
-
为什么散户买的股票没有分红 股票分红后什么时候卖出划算|消息
-
最新:智翔金泰上市首日破发 今年上半年预亏至少3.51亿元 跌10.19%