(资料图片)
全参数微调的显存使用量和推理一样多,大模型不再只是大型科技公司的玩具了。
在大模型方向上,科技巨头在训更大的模型,学界则在想办法搞优化。最近,优化算力的方法又上升到了新的高度。 大型语言模型(LLM)彻底改变了自然语言处理(NLP)领域,展示了涌现、顿悟等非凡能力。然而,若想构建出具备一定通用能力的模型,就需要数十亿参数,这大幅提高了 NLP 研究的门槛。在 LLM 模型调优过程中通常又需要昂贵的 GPU 资源,例如 8×80GB 的 GPU 设备,这使得小型实验室和公司很难参与这一领域的研究。 最近,人们正在研究参数高效的微调技术(PEFT),例如 LoRA 和 Prefix-tuning,为利用有限资源对 LLM 进行调优提供了解决方案。然而,这些方法并没有为全参数微调提供实用的解决方案,而全参数微调已被公认为是比参数高效微调更强大的方法。 在上周复旦大学邱锡鹏团队提交的论文《Full Parameter Fine-tuning for Large Language Models with Limited Resources》中,研究人员提出了一种新的优化器 LOw-Memory Optimization(LOMO)。 通过将 LOMO 与现有的内存节省技术集成,与标准方法(DeepSpeed 解决方案)相比,新方法将内存使用量减少到了之前的 %。因此,新方法能够在一台具有 8×RTX 3090 的机器上对 65B 模型进行全参数微调,每个 RTX 3090 具有 24GB 内存。 在该工作中,作者分析了 LLM 中内存使用的四个方面:激活、优化器状态、梯度张量和参数,并对训练过程进行了三方面的优化: 从算法的角度重新思考了优化器的功能,发现 SGD 在微调 LLM 完整参数方面是一种很好的替代品。这使得作者可以删除优化器状态的整个部分,因为 SGD 不存储任何中间状态。 新提出的优化器 LOMO 将梯度张量的内存使用量减少到 O (1),相当于最大梯度张量的内存使用量。 为了使用 LOMO 稳定混合精度训练,作者集成了梯度归一化、损失缩放,并在训练期间将某些计算转换为全精度。 新技术让内存的使用等于参数使用加上激活和最大梯度张量。全参数微调的内存使用被推向了极致,其仅等同于推理的使用。这是因为 forward+backward 过程的内存占用应该不会比单独的 forward 过程少。值得注意的是,在使用 LOMO 节省内存时,新方法确保了微调过程不受影响,因为参数更新过程仍然等同于 SGD。 该研究评估了 LOMO 的内存和吞吐量性能,表明借助 LOMO,研究者在 8 个 RTX 3090 GPU 上就可以训练 65B 参数的模型。此外,为了验证 LOMO 在下游任务上的性能,他们应用 LOMO 来调优 SuperGLUE 数据集集合上 LLM 的全部参数。结果表明了 LOMO 对具有数十亿参数的 LLM 进行优化的有效性。 在方法部分,本文详细介绍了 LOMO(LOW-MEMORY OPTIMIZATION)。一般而言,梯度张量表示一个参数张量的梯度,其大小与参数相同,这样一来内存开销较大。而现有的深度学习框架如 PyTorch 会为所有参数存储梯度张量。现阶段,存储梯度张量有两方面原因:计算优化器状态以及归一化梯度。 由于该研究采用 SGD 作为优化器,因此没有依赖于梯度的优化器状态,并且他们有一些梯度归一化的替代方案。 他们提出了 LOMO,如算法 1 所示,LOMO 将梯度计算与参数更新融合在一个步骤中,从而避免了梯度张量的存储。 下图为 SGD 和 LOMO 在反向传播和参数更新阶段的比较。Pi 为模型参数,Gi 为 Pi 对应的梯度。LOMO 将梯度计算和参数更新融合到一个步骤中,使梯度张量最小。 具体而言,该研究将 vanilla 梯度下降表示为 ,这是一个两步过程,首先是计算梯度,然后更新参数。 融合版本为 。 该研究的关键思想是在计算梯度时立即更新参数,这样就不会在内存中存储梯度张量。这一步可以通过在向反向传播中注入 hook 函数来实现。PyTorch 提供了注入 hook 函数的相关 API,但却无法用当前的 API 实现精确的即时更新。相反,该研究在内存中最多存储一个参数的梯度,并随着反向传播逐一更新每个参数。本文方法减少了梯度的内存使用,从存储所有参数的梯度到只存储一个参数的梯度。 大部分 LOMO 内存使用与参数高效微调方法的内存使用一致,这表明 LOMO 与这些方法相结合只会导致梯度占用内存的轻微增加。这样就可以为 PEFT 方法调优更多的参数。 在实验部分,研究者从三个方面评估了他们提出的方法,即内存使用情况、吞吐量和下游性能。如果不作进一步解释,所有的实验都是用 7B 到 65B 的 LLaMA 模型进行的。 研究者首先剖析了,在不同设置下,训练期间的模型状态和激活的内存使用情况。如表 1 所示,与 AdamW 优化器相比,LOMO 优化器的使用导致内存占用大幅减少,从 减少到 ;与 SGD 相比,在训练 LLaMA-7B 模型时,内存占用从 减少到 。内存用量的大幅减少主要归因于梯度和优化器状态的内存需求减少。因此,在训练过程中,内存大部分被参数占据,与推理过程中的内存用量相当。 如图 2 所示,如果采用 AdamW 优化器进行 LLaMA-7B 训练,相当大比例的内存(%)被分配给优化器状态。用 SGD 优化器替换 AdamW 优化器可以有效减少优化器状态占用内存的百分比,从而减轻 GPU 内存使用(从 减少到 )。如果使用 LOMO,参数更新和 backward 会被融合到一个步骤中,进一步消除优化器状态对内存的需求。 研究者比较了 LOMO、AdamW 和 SGD 的吞吐性能。实验是在一台配备了 8 个 RTX 3090 GPU 的服务器上进行的。 对于 7B 的模型,LOMO 的吞吐量呈现显著优势,超过 AdamW 和 SGD 约 11 倍。这一重大改进可归功于 LOMO 在单个 GPU 上训练 7B 模型的能力,这减少了 GPU 间的通信开销。与 AdamW 相比,SGD 的吞吐量略高,这可归因于 SGD 排除了动量和方差的计算。 至于 13B 模型,由于内存的限制,它无法在现有的 8 个 RTX 3090 GPU 上用 AdamW 训练。在这种情况下,模型的并行性对 LOMO 来说是必要的,LOMO 在吞吐量方面仍然优于 SGD。这一优势归功于 LOMO 的内存高效特性,以及只需要两个 GPU 以相同的设置来训练模型,从而降低了通信成本,提高了吞吐量。此外,在训练 30B 模型时,SGD 在 8 个 RTX 3090 GPU 上遇到了内存不足(OOM)的问题,而 LOMO 在只有 4 个 GPU 的情况下表现良好。 最后,研究者使用 8 个 RTX 3090 GPU 成功训练了 65B 模型,实现了 TGS 的吞吐量。利用这样的服务器配置和 LOMO,模型在 1000 个样本上的训练过程(每个样本包含 512 个 token)大约需要 小时。 为了评估 LOMO 在微调大型语言模型方面的有效性,研究者进行了一系列广泛的实验。他们将 LOMO 与其他两种方法进行比较,一种是不需要微调的 Zero-shot,另一种是目前很流行的参数高效微调技术 LoRA。 LOMO 和 LoRA 在本质上是相互独立的。为了验证这一说法,研究者使用 LLaMA-13B 在 BoolQ 和 MultiRC 数据集上进行了实验。结果如图 3 所示。 他们发现,LOMO 在持续增强 LoRA 的性能,不管 LoRA 取得的结果有多高。这表明,LOMO 和 LoRA 采用的不同微调方法是互补的。具体来说,LOMO 专注于微调预训练模型的权重,而 LoRA 则调整其他模块。因此,LOMO 不会影响到 LoRA 的性能;相反,它有助于对下游任务进行更好的模型调优。 ©THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@
推荐内容
-
650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了-热点聚焦
-
东西问|郑承志:中国龙舟运动何以风靡全球?
-
「船」戴尔定制的铠侠 CD5 3.84T测试_全球即时
-
科目二成绩网上查询方法_科目二成绩网上查询-世界即时看
-
全球快报:专访诺维信亚太区副总裁叶笑风:以生物技术赋能农业生产 推动农业生产提质增效
-
不服检察院批捕的申诉材料需要哪些_世界独家
-
再添千人起诉!美军这个丑闻越闹越大 资讯
-
粽山论剑
-
经典搞笑语句精选
-
让消费者放心购买茅台老酒,茅台品鉴馆授牌,首批十家
-
博乐市青得里镇定吉格村:幸福像花儿一样在家门口绽放
-
世界快资讯:汉车主故事 | 夏至篇「驭风驰行」格调大片
-
秘鲁寒流成因(秘鲁寒流)
-
性转换用日语怎么说(日本性转换漫画)
-
速看:天天微头条丨扬帆新材:益进凡投资减持计划实施完毕 期间减持公司股份378万股
-
【环球热闻】爵士鼓入门基础知识 爵士鼓的一些常用节奏表现手法
-
环球热讯:重色轻友,恋爱后会冷落好朋友的三个星座
-
环球热推荐:734家机构“踏破门槛”!这家公司火了
-
上海交大2023年毕业典礼举行,四年前被“助飞”的女孩成了毕业生代表
-
马斯克约战,「肉搏」小扎 当前观察
-
签约国际篮联2023年国际团结杯合作伙伴美博体育营销渐入佳境-环球速讯
-
小马激活工具_visualstudio2017激活
-
环球讯息:钟丽缇终于穿对了,白色挂脖裙配编发时髦显瘦,哪像年过半百
-
焦点热门:【环球热闻】标准晚报:阿森纳迫切想签廷伯,因他能扮演津琴科内收的角色
-
四十不惑的意思是说_四十不惑现在的意思-最新快讯
-
游客摔倒受伤害 云端调解获赔偿
-
新消息丨三国步练师是谁_步练师是谁
-
坚如磐石电影_坚若磐石
-
天天百事通!话说端午 | 端午节怎么过?
-
抑郁症的表现-天天即时看
-
野小蒜可以润肠通便-天天报资讯
-
少组词_少组词
-
癌细胞特征-世界新要闻
-
联影医疗(688271)深度报告:政策扶持 技术领先 国产影像设备龙头逐步突围
-
天津推出四项措施助力航运金融:对融资租赁公司相关业务给予融资总量2%奖励
-
中信股份(00267.HK)将于8月22日派末期股息每股0.451港元
-
千年工艺(871323):拟10派2.4元,共派送现金240.00万元
-
赵丽颖穿大红“囍服”旗袍包粽子,有望复婚冲击视后?状态太绝
-
环球新动态:酷狗铃声来电铃声怎么删除 酷狗铃声删除下载的铃声教程
-
【独家】好校长!毕业典礼遇大雨_校长“扔掉”3500字致辞讲稿只念标题
-
新词构词法有哪些_构词法有哪些
-
游戏存档损坏怎么修复_刺客信条3修复1.01存档损坏的方法 世界快报
-
如何把手机视频导入迅雷_如何把手机视频导入电脑
-
【世界新要闻】陈伟霆新剧《太阳星辰》已官宣! 陈伟霆刘雅瑟演绎悬疑烧脑港警探案剧
-
炎亚纶承认与未成年发生关系 耀乐明确拒绝炎亚纶拍摄私密影片
-
如何重新安装nl7models0804.dll文件
-
中国光大银行北京分行联合天桥街道 开展青少年专场金融知识宣传活动
-
炖盅煲汤100款大全(炖盅)|世界实时
-
泡椒花生米的正确做法_糖醋花生米的正确做法
-
天天微资讯!客户经理的英文是什么(客户经理 英文是什么)
-
武汉:专家“智库”助力企业守护商业秘密-滚动
-
qq超级会员移动在线是什么意思_超级qq移动在线是什么意思
-
photoshop怎么矫正文件_photoshop怎么加粗字体-观点
-
环球信息:万家人工智能混合年内涨75%
-
教育部部署做好2023年普通高校招生录取工作 全球百事通
-
2023年7月十二星座的运势 天天热门
-
水库“减肥健体”河床“舒筋通络” 今年黄河调水调沙正式启动
-
粽叶飘香迎端午 暖心志愿送安康 世界通讯
-
当前头条:梦幻联动!浦东消防与上海海昌海洋公园联合举办这个活动
-
环球看点!智通港股52周新高、新低统计|6月21日
-
驴宝图片(驴宝) 环球精选
-
凤凰鸣回忆remix(凤凰鸣)
-
全球快看点丨宁夏银川烧烤店爆炸事故9名责任人已被控制
-
热资讯!9省收获冬小麦3.01亿亩 主产区大规模机收基本结束
-
守望安康!
-
体积分数的符号(体积分数)
-
新消息丨醉新娘(关于醉新娘的基本详情介绍)
-
带48斤毒品入境首都机场 男子获死刑 并多次向他人贩毒_每日资讯
-
荷开盛夏来
-
夏至到,节令美食都有啥?
-
华保盛集团|高标准引领高质量发展,助推物业服务竞争力提升
-
记者:3年后马林可能出售马竞,他不想在最后几年换帅
-
最新:北青:青岛海牛确实在与阿兰接触,将其签下须付出相当的经济代价
-
世界热推荐:鸿远电子:公司SLCC、陶瓷管壳产品有给光模块厂家供样并有小批量的供货
-
天山电子(301379)6月20日股东户数1.48万户,较上期增加0.24% 全球短讯
-
国家外汇管理局:5月我国外汇市场总计成交21.58万亿元|天天报道
-
传统制造业如何转型升级加“数”跑?福建这些企业打了样_热点聚焦
-
今天端午,咱们在太空有人!这是第三次了
-
全球短讯!《秀我中国 | 新时代中国乡村志(第四集):千年梯田 十年新生》
-
新华述评|造就新的文化生命体——深刻理解“两个结合”的重大意义系列述评之三
-
【新时代文明实践活动进社区】莱阳市举行端午游园会活动
-
【环球聚看点】除了《兰亭序》成博“汉字中国”大展里还有这些宝藏
-
世界微动态丨命运方舟国服7月20日全面起航 重铸MMORPG荣光
-
63岁牌佬家中失窃:3万张游戏王卡被偷 价值192万
-
网传东方通上半年业绩同比下降较多?公司证券部回应
-
天天关注:北京:加装车篷、改装座位的电动车拟禁售
-
全球热讯:华是科技公司产品和业务涉及计算机软件、物联网、大数据及人工智能等方面
-
英国央行以7-2票数决定加息50个基点至5% 连续第13次加息 每日播报
-
快报:芒果传媒旗下小贷,“暴力催收遭投诉”,湖南银保监局:停催半年,息费用户承担!
-
百胜中国(09987)6月21日斥100万美元回购1.73万股_快播报
-
144hz显示器只有120hz(144hz显示器)
-
国服绝地求生什么时候可以玩(国服绝地求生什么时候能上线)
-
微头条丨蓝颜app怎么看自己送出去的礼物 蓝颜查看礼物皮肤方法
-
天天观速讯丨亨德森:想拿最佳新秀并成为防守型球员 我看保罗的比赛最多
-
精彩继续|昆仑决城市英雄-延安站第二日称重仪式-新视野
-
【独家焦点】qq超级会员移动在线是什么意思(超级qq移动在线是什么意思)
-
特斯拉(TSLA.US)超级充电网价值几何?大摩:1000亿美元! 世界聚看点
-
NBA选秀大会前瞻:58人预测名单出炉 文班锁定状元前4无悬念?
-
湖北人均GDP哪最高? #湖北 #人均GDP #武汉 #襄阳 #鄂州 #宜昌 #生活水平
-
二手车交易市场_7万左右买什么二手车好