(资料图片)
Human Feedback 可以有,但这项研究却表明了「RL」的可替代性。
近来,在大型数据集上训练的无监督语言模型已经获得了令人惊讶的能力。然而,这些模型是在具有各种目标、优先事项和技能集的人类生成的数据上训练的,其中一些目标和技能设定未必希望被模仿。 从模型非常广泛的知识和能力中选择其期望的响应和行为,对于构建安全、高性能和可控的人工智能系统至关重要。很多现有的方法通过使用精心策划的人类偏好集将所需的行为灌输到语言模型中,这些偏好集代表了人类认为安全和有益的行为类型,这个偏好学习阶段发生在对大型文本数据集进行大规模无监督预训练的初始阶段之后。 虽然最直接的偏好学习方法是对人类展示的高质量响应进行监督性微调,但最近相对热门的一类方法是从人类(或人工智能)反馈中进行强化学习(RLHF/RLAIF)。RLHF 方法将奖励模型与人类偏好的数据集相匹配,然后使用 RL 来优化语言模型策略,以产生分配高奖励的响应,而不过度偏离原始模型。 虽然 RLHF 产生的模型具有令人印象深刻的对话和编码能力,但 RLHF pipeline 比监督学习复杂得多,涉及训练多个语言模型,并在训练的循环中从语言模型策略中采样,产生大量的计算成本。 而最近的一项研究表明:现有方法使用的基于 RL 的目标可以用一个简单的二进制交叉熵目标来精确优化,从而大大简化偏好学习 pipeline。也就是说,完全可以直接优化语言模型以坚持人类的偏好,而不需要明确的奖励模型或强化学习。 来自斯坦福大学等机构研究者提出了直接偏好优化(Direct Preference Optimization,DPO),这种算法隐含地优化了与现有 RLHF 算法相同的目标(带有 KL - 发散约束的奖励最大化),但实施起来很简单,而且可直接训练。 实验表明,至少当用于 60 亿参数语言模型的偏好学习任务,如情感调节、摘要和对话时,DPO 至少与现有的方法一样有效,包括基于 PPO 的 RLHF。 与现有的算法一样,DPO 也依赖于理论上的偏好模型(如 Bradley-Terry 模型),以此衡量给定的奖励函数与经验偏好数据的吻合程度。然而,现有的方法使用偏好模型定义偏好损失来训练奖励模型,然后训练优化所学奖励模型的策略,而 DPO 使用变量的变化来直接定义偏好损失作为策略的一个函数。鉴于人类对模型响应的偏好数据集,DPO 因此可以使用一个简单的二进制交叉熵目标来优化策略,而不需要明确地学习奖励函数或在训练期间从策略中采样。 DPO 的更新增加了首选 response 与非首选 response 的相对对数概率,但它包含了一个动态的、每个样本的重要性权重,以防止模型退化,研究者发现这种退化会发生在一个朴素概率比目标上。 为了从机制上理解 DPO,分析损失函数 的梯度是很有用的。 关于参数 θ 的梯度可以写成: 其中 是由语言模型 和参考模型 隐含定义的奖励。 直观地说,损失函数 的梯度增加了首选补全 y_w 的可能性,减少了非首选补全 y_l 的可能性。 重要的是,这些样本的权重是由隐性奖励模型 对不喜欢的完成度的评价高低来决定的,以 β 为尺度,即隐性奖励模型对完成度的排序有多不正确,这也是 KL 约束强度的体现。 实验表明了这种加权的重要性,因为没有加权系数的这种方法的 naive 版本会导致语言模型的退化(附录表 2)。 在论文的第五章,研究者对 DPO 方法做了进一步的解释,提供了理论支持,并将 DPO 的优势与用于 RLHF 的 Actor-Critic 算法(如 PPO)的问题联系起来。具体细节可参考原论文。 在实验中,研究者评估了 DPO 直接根据偏好训练策略的能力。 首先,在一个控制良好的文本生成环境中,他们思考了这样一个问题:与 PPO 等常见偏好学习算法相比,DPO 在参考策略中权衡奖励最大化和 KL-divergence 最小化的效率如何?接着,研究者还评估了 DPO 在更大模型和更困难的 RLHF 任务 (包括摘要和对话) 上的性能。 最终发现,在几乎没有超参数调整的情况下,DPO 的表现往往与带有 PPO 的 RLHF 等强大的基线一样好,甚至更好,同时在学习奖励函数下返回最佳的 N 个采样轨迹结果。 从任务上说,研究者探索了三个不同的开放式文本生成任务。在所有实验中,算法从偏好数据集 中学习策略。 在可控情感生成中,x 是来自 IMDb 数据集的电影评论的前缀,策略必须生成具有积极情感的 y。为了进行对照评估,实验使用了预先训练好的情感分类器去生成偏好对,其中 。 对于 SFT,研究者微调了 GPT-2-large,直到收敛于 IMDB 数据集的训练分割的评论。总之,x 是来自 Reddit 的论坛帖子,该策略必须生成帖子中要点的总结。基于此前工作,实验使用了 Reddit TL;DR 摘要数据集以及 Stiennon et al. 收集的人类偏好。实验还使用了一个 SFT 模型,该模型是根据人类撰写的论坛文章摘要 2 和 RLHF 的 TRLX 框架进行微调的。人类偏好数据集是由 Stiennon et al. 从一个不同的但经过类似训练的 SFT 模型中收集的样本。 最后,在单轮对话中,x 是一个人类问题,可以是从天体物理到建立关系建议的任何问题。一个策略必须对用户的查询做出有吸引力和有帮助的响应;策略必须对用户的查询做出有意思且有帮助的响应;实验使用 Anthropic Helpful and Harmless 对话集,其中包含人类和自动化助手之间的 170k 对话。每个文本以一对由大型语言模型 (尽管未知) 生成的响应以及表示人类首选响应的偏好标签结束。在这种情况下,没有预训练的 SFT 模型可用。因此,实验只在首选完成项上微调现成的语言模型,以形成 SFT 模型。 研究者使用了两种评估方法。为了分析每种算法在优化约束奖励最大化目标方面的效率,在可控情感生成环境中,实验通过其实现奖励的边界和与参考策略的 KL-divergence 来评估每种算法。实验可以使用 ground-truth 奖励函数 (情感分类器),因此这一边界是可以计算得出的。但事实上,ground truth 奖励函数是未知的。因此研究者通过基线策略的胜率评估算法的胜率,并用 GPT-4 作为在摘要和单轮对话设置中人类评估摘要质量和响应有用性的代理。针对摘要,实验使用测试机中的参考摘要作为极限;针对对话,选用测试数据集中的首选响应作为基线。虽然现有研究表明语言模型可以成为比现有度量更好的自动评估器,但研究者进行了一项人类研究,证明了使用 GPT-4 进行评估的可行性 GPT-4 判断与人类有很强的相关性,人类与 GPT-4 的一致性通常类似或高于人类标注者之间的一致性。 除了 DPO 之外,研究者还评估了几种现有的训练语言模型来与人类偏好保持一致。最简单的是,实验在摘要任务中探索了 GPT-J 的零样本 prompt,在对话任务中探索了 的 2-shot prompt。此外,实验还评估了 SFT 模型和 Preferred-FT。Preferred-FT 是一个通过监督学习从 SFT 模型 (可控情感和摘要) 或通用语言模型 (单回合对话) 中选择的完成 y_w 进行微调的模型。另一种伪监督方法是 Unlikelihood,它简单地优化策略,使分配给 y_w 的概率最大化,分配给 y_l 的概率最小化。实验在「Unlikehood」上使用了一个可选系数 α∈[0,1]。他们还考虑了 PPO,使用从偏好数据中学习的奖励函数,以及 PPO-GT。PPO-GT 是从可控情感设置中可用的 ground truth 奖励函数学习的 oracle。在情感实验中,团队使用了 PPO-GT 的两个实现,一个是现成的版本,以及一个修改版本。后者将奖励归一化,并进一步调整超参数以提高性能 (在运行具有学习奖励的「Normal」PPO 时,实验也使用了这些修改)。最后,研究者考虑了 N 个基线中的最优值,从 SFT 模型 (或对话中的 Preferred-FT) 中采样 N 个回答,并根据从偏好数据集中学习的奖励函数返回得分最高的回答。这种高性能方法将奖励模型的质量与 PPO 优化解耦,但即使对中度 N 来说,在计算上也是不切实际的,因为它在测试时需要对每个查询进行 N 次采样完成。 图 2 展示了情绪设置中各种算法的奖励 KL 边界。 图 3 展示了 DPO 收敛到其最佳性能的速度相对较快。 ©THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@
推荐内容
-
RLHF中的「RL」是必需的吗?有人用二进制交叉熵直接微调LLM,效果更好
-
iPhone专享沉浸式无线蓝牙耳机,粉丝价:仅68元~
-
环球微动态丨韵达股份5月快递业务收入同比增长1.43%
-
弘扬端午文化 传统非遗结绳技艺走进社区
-
环球滚动:白鹿原影视城2023端午民俗文化展演暨首届关中忙罢民俗文化节启幕
-
今日热文:潼关县课后服务引入“非遗文化”
-
环球新消息丨家人们谁懂啊,买包装送粽子……
-
最长续航610km 荣威中高级纯电轿车D7官图发布
-
全球即时:矿工门将特鲁宾经纪人:目标去五大联赛,国米乌迪内斯是潜在下家
-
重庆轨道18号线全线接触网送电成功 每日消息
-
宝能造车梦归何处 汽车拍卖、产品跳票
-
每日播报!中国海警局新闻发言人就美“斯特拉顿”号炮舰过航台湾海峡发表谈话
-
高考成绩25日公布8种方式可查分
-
海内外艺术家以当代艺术“对话”古都大同
-
世界快消息!端午假期去哪里?来从化游江埔摘“佳荔”
-
【天天新视野】河南两地发布人事任免
-
海报时评丨“幼师给幼儿喂避孕药”系谣言,造谣者必须严处重罚-环球热文
-
环球今头条!邯郸市气象台继续发布高温橙色预警信号
-
世界热点评!新房、二手房“五连涨”三亚楼市又热了?
-
又一一线城市拟出台措施!“电驴”不能随意骑?
-
援外医疗题材剧海南拍摄中 核心场景"麦乐村"曝光 焦点热议
-
最资讯丨布兰登-米勒:我是詹姆斯还在迈阿密时的热火球迷
-
焦点关注:特斯拉在推特创建“Tesla AI”账户,马斯克已关注
-
遭小学生激烈拷问身高!文班亚马“无奈”回答:2米19
-
警方已介入调查银川烧烤店爆炸事故|世界时讯
-
手机号定位对方位置_手机号查询对方位置
-
动态:胡歌老婆黄曦宁近照流出,我现在知道胡歌为什么要娶她了
-
韩政府:将对境内海水浴场进行紧急核辐射检测
-
巴以冲突持续,约旦河西岸犹太定居者攻击多个巴勒斯坦城镇_天天看热讯
-
凉拌秋葵的家常做法,老爸最爱的下酒菜,做法简单,又香又脆
-
生香_关于生香介绍-天天要闻
-
奥地利与罗马尼亚合作开发黑海“海王星”天然气田
-
播报:东北三省供热行业经营发展问题研讨会召开
-
新消息丨生隙_关于生隙介绍
-
第十七届中国·青海国际抢渡黄河极限挑战赛(贵德站)圆满完赛
-
治多县牧民变身手艺人 精美文创传播家乡文化-最新
-
捷克北部一火车与卡车相撞 致21人受伤|全球热门
-
快手极速版赚钱是真的吗安全吗_快手极速版赚钱 要闻
-
成交失速 | 2023二季度深圳房地产市场报告_天天短讯
-
每日看点!性能提升 200% !SpringBoot 虚拟线程来了
-
端午微动画丨粽山论剑
-
单位吊唁函_单位吊唁通知短信_全球观速讯
-
去年卖1999的苹果旗舰,突然发布王炸级更新
-
杭州上城集中签约37个项目224亿元 将打造智慧城数字能源港_世界焦点
-
片仔癀和同仁堂 随时会起来,耐心等待
-
可以给宝宝吃鸡精和味精吗?-每日热点
-
国际酒店预订哪里便宜_焦点短讯
-
环球时讯:羊杂汤馆羊汤做法教程?
-
这个夏至不一般:众星排成直线,意味着什么? 世界关注
-
2市8校下放,陕高考生变化。
-
国铁西安局开行西安至漠河旅游专列
-
曝索尼向FTC申请:不向微软公开涉及商业机密的证据-独家焦点
-
“连线”农村中学开展心理“云筛查” 助力青少年身心健康成长
-
后备厢空间有大幅提升 全新奔驰E级旅行版官图发布
-
每日速读!(台青话融合)“00后”台青拥抱创业青春:“大陆生活是最精彩的部分”
-
每日动态![快讯]航天发展公布2022年年度分红实施方案
-
邓一杰:端午佳节快乐! 环球最新
-
【环球新要闻】端午沉浸式“福”文化雅集福州举办 台胞冀有更多青年来大陆寻找机遇
-
福建进入“龙舟水”季 海事部门守牢端午水上“安全线”|天天热消息
-
皮尔斯:若我是联盟高管 我会增加对欧洲市场球探团队的投入
-
当前热议!思科 94 亿、HPE-Aruba 32 亿、Ubiquiti 12 亿、华为 9 亿、CommScope 9 亿
-
每日速讯:“关前荟2023”盘活澳门特色街区
-
公告精选︱华友钴业:拟12.78亿欧元在匈牙利投建高镍型动力电池用三元正极项目;可川科技:拟设立的子公司不涉及800G高速光模块业务 全球聚焦
-
焦点观察:飞天茅台在新西兰“售价照”意外流出,国人愤怒不已:薄彼厚此?
-
中国光伏巨头拟发行全球存托凭证 募资不超过199.96亿元
-
6月楼市“翘尾”收官 南京7盘集体领销许涉800套新房_天天视点
-
突发!700亿A股赛道巨头出手:要在欧洲这一国豪掷100亿!_热消息
-
每日看点!双城经济圈观察㉓ | 成渝地区双城经济圈发展基金首支子基金落地
-
普京撂下7句话,乌克兰没有赢的可能性,但他却忽略了一件事
-
美国各界:中美合作至关重要 惠及全球
-
京信通信(02342)6月21日斥资约107.56万港元回购73.8万股
-
快资讯:石药集团(01093)6月21日根据股份奖励计划购买1000万股
-
即时焦点:德媒爆料:为避免与俄军作战,乌坦克兵谎称“豹”有故障
-
中国科学家创造城际量子密钥率新纪录-今日关注
-
法国次日交付的基载电力价格下跌8.6%,至111欧元/兆瓦时。
-
热点评!这些中国造,“热”销全球!
-
趋势反转信号闪烁! 狂泻不止的油价将迎来“大逆转”?
-
视焦点讯!央视开除的3位主持人,第一位聚众斗殴,第三位和董卿同居6年
-
五河县中小学弘扬端午文化 传我浓情粽香 环球观天下
-
屯昌首届排球联赛开赛 将持续至7月底 世界信息
-
陵水:补短板找差距 积极推进整改进度
-
石家庄藁城区:滹沱花海 扮靓夏天|环球滚动
-
蔚来手机卖7000多 下月发布
-
医养结合送上门 沧州市新华区日间照料暖民心
-
张家口桥西区第十一届篮球比赛落幕|快播报
-
济南适合自驾游的5个景点,周末可以带着家人一起去看看
-
万兴科技跌11.9% 财通证券昨日维持增持评级-天天要闻
-
世界热点评!山海
-
我国将在各地建设农民工工资争议速裁庭
-
每日热文:交通部门增运力 保障端午假日出行
-
世界微头条丨碳汇共富,乡村振兴!珈伟新能旗下建城镇150MW 农光互补光伏发电项目开工
-
新华锦: 新华锦关于为子公司增加担保额度的公告 全球热闻
-
开通两个月 超1.2万标箱“点对点”往返厦门台北
-
观点:欢瑞世纪: 关于对外投资设立控股孙公司暨关联交易的公告
-
力合科创: 关于拟公开发行公司债券、中期票据和超短期融资券的公告 世界热文
-
高温黄色预警发布!京津冀豫等7省区市局地可达40℃|天天热议
-
巴斯夫与华南理工大学签署战略合作协议
-
蚂蚁CTO倪行军谈大模型研发:会采取前瞻探索审慎应用的原则
-
湖北19家兽药生产企业亮相中国兽医大会|环球今热点
-
赣州市赣县区大田乡:科技发展为农业生产“插上翅膀”|每日消息