
【资料图】
预训练大语言模型(LLM)在特定任务上的性能不断提高,随之而来的是,假如 prompt 指令得当,其可以更好的泛化到更多任务,很多人将这一现象归功于训练数据和参数的增多,然而最近的趋势表明,研究者更多的集中在更小的模型上,不过这些模型是在更多数据上训练而成,因而在推理时更容易使用。 举例来说,参数量为 7B 的 LLaMA 在 1T token 上训练完成,尽管平均性能略低于 GPT-3,但参数量是后者的 1/25。不仅如此,当前的压缩技术还能将这些模型进一步压缩,在保持性能的同时还能大幅减少内存需求。通过这样的改进,性能良好的模型可以在终端用户设备(如笔记本)上进行部署。 然而,这又面临另一个挑战,即想要将这些模型压缩到足够小的尺寸以适应这些设备,怎样才能兼顾生成质量。研究表明,尽管压缩后的模型生成的答案准确率还可以,但现有的 3-4 位量化技术仍然会让准确性降低。由于 LLM 生成是顺序进行的,依赖于先前生成的 token,小的相对误差不断累积并导致严重的输出损坏。为了确保可靠的质量,关键是设计出低位宽的量化方法,与 16 位模型相比不会降低预测性能。 然而,将每个参数量化到 3-4 位通常会导致中等程度、甚至是高等程度的准确率损失,特别是那些非常适合边缘部署的 1-10B 参数范围内的较小模型。 为了解决准确性问题,来自华盛顿大学、苏黎世联邦理工学院等机构的研究者提出了一种新的压缩格式和量化技术 SpQR(Sparse-Quantized Representation,稀疏 - 量化表征),首次实现了 LLM 跨模型尺度的近无损压缩,同时达到了与以前方法相似的压缩水平。 SpQR 通过识别和隔离异常权重来工作,这些异常权重会导致特别大的量化误差,研究者将它们以更高的精度存储,同时将所有其他权重压缩到 3-4 位,在 LLaMA 和 Falcon LLMs 中实现了不到 1% 的困惑度相对准确率损失。从而可以在单个 24GB 的消费级 GPU 上运行 33B 参数的 LLM,而不会有任何性能下降,同时还能提高 15% 的速度。 SpQR 算法高效,既可以将权重编码为其他格式,也可以在运行时进行有效地解码。具体来说,该研究为 SpQR 提供了一种高效的 GPU 推理算法,可以比 16 位基线模型更快地进行推理,同时实现了超过 4 倍的内存压缩收益。 该研究提出一种混合稀疏量化的新格式 —— 稀疏量化表征(SpQR),可以将精确预训练的 LLM 压缩到每个参数 3-4 位,同时保持近乎无损。 具体来说,该研究将整个过程分为两步。第一步是异常值检测:该研究首先孤立了异常值权重,并证明其量化会导致高误差:异常值权重保持高精度,而其他权重以低精度(例如 3 位的格式)存储。然后,该研究以非常小的组大小实现分组量化(grouped quantization)的变体,并表明量化尺度本身可以被量化为 3 位表征。 SpQR 极大地减少了 LLM 的内存占用,而不会降低准确性,同时与 16 位推理相比,LLM 的生成速度快了 20%-30%。 此外,该研究发现,权重矩阵中敏感权重的位置不是随机的,而是具有特定的结构。为了在量化过程中突出显示其结构,该研究计算了每个权重的敏感度,并为 LLaMA-65B 模型可视化这些权重敏感度。下图 2 描绘了 LLaMA-65B 最后一个自注意力层的输出投影。 该研究对量化过程进行了两个改变:一个用于捕捉小的敏感权重组,另一个用于捕捉单个的异常值。下图 3 为 SpQR 的总体架构: 下表为 SpQR 量化算法,左边的代码片段描述了整个过程,右边的代码片段包含了二级量化和查找异常值的子程序: 该研究将 SpQR 与其他两种量化方案进行了比较:GPTQ、RTN(rounding-to-nearest),并用两个指标来评估量化模型的性能。首先是困惑度的测量,所用数据集包括 WikiText2、 Penn Treebank 以及 C4;其次是在五个任务上的零样本准确率:WinoGrande、PiQA、HellaSwag、ARC-easy、ARC-challenge。 主要结果。图 1 结果显示,在相似的模型大小下,SpQR 的性能明显优于 GPTQ(以及相应的 RTN),特别是在较小的模型上。这种改进得益于 SpQR 实现了更多的压缩,同时也减少了损失退化。 表 1、表 2 结果显示,对于 4 位量化,与 GPTQ 相比,SpQR 相对于 16 位基线的误差减半。 表 3 报告了 LLaMA-65B 模型在不同数据集上的困惑度结果。 最后,该研究评估了 SpQR 推理速度。该研究将专门设计的稀疏矩阵乘法算法与 PyTorch(cuSPARSE)中实现的算法进行了比较,结果如表 4 所示。可以看到,尽管 PyTorch 中的标准稀疏矩阵乘法并没有比 16 位推理更快,但本文专门设计的稀疏矩阵乘法算法可以提高约 20-30% 的速度。 ©THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@
推荐内容
-
将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减
-
蔚来将推出售价高达7000元的手机_简讯
-
大连理工大学盘锦校区宿舍_大连理工大学盘锦校区|观热点
-
味精要少吃吗?为什么?
-
视频:电影《大改水》转场新疆疏附县拍摄 世界新资讯
-
【全球时快讯】微微一笑很倾城小说番外_跪求gslb小说 番外txt
-
鲁智深倒拔垂杨柳概括250字_鲁智深倒拔垂杨柳概括
-
有朝一日刀在手(对于有朝一日刀在手简单介绍)|每日焦点
-
精致手工制作,送给姐妹的最佳生日礼物——制作皇家权杖全攻略
-
济南适合自驾游的5个景点,周末可以带着家人一起去看看-微动态
-
有木有_对于有木有简单介绍-世界观察
-
有期公债_对于有期公债简单介绍
-
有朋远方来_对于有朋远方来简单介绍 每日播报
-
屯溪区:多措并举 筑牢校园防溺水安全“防护网”
-
把金融航母开进智能峡湾,总共分几步? 环球讯息
-
中建二局安徽分公司华润阜阳中心项目新闻大厦顺利通过竣工验收
-
从“屠龙者”到“守擂者”,20岁京东迎来“中年危机”
-
【全球热闻】北京公安推出24小时制证发证措施便捷中考生
-
百家云发布AIGC新品市场易_环球报资讯
-
中国科学家再获国际殊荣 分子之心创始人许锦波当选ISCB Fellow
-
《最终幻想16》等级上限解答:新游戏+解锁100级 全球聚看点
-
【视频】跨越山河,遇见永德,相约2023年云南永德芒果节暨首届灯光艺术展
-
海峡影视季晚会福建厦门上演 台湾艺人用音乐话交流 每日观察
-
云县探索建立“未巡先改”工作机制
-
中央气象台:我国东部和南部海域将有5~7级风-环球观热点
-
天天快资讯丨视焦点讯!央视开除的3位主持人,第一位聚众斗殴,第三位和董卿同居6年
-
潞城小菜:家常小菜,一学就就会_独家
-
广东以科技力量多措并举力争延长荔枝保鲜期_世界快资讯
-
芳源股份:与盟固利签订战略合作协议,就技术研发及供应链进行合作
-
粤传媒大厦落成 打造“琶洲数字文化创新坐标”
-
广东发布新型储能路线图助大湾区新型能源体系建设_天天观速讯
-
宁夏烧烤店爆炸致31死 7人正在全力救治中
-
中国海警局新闻发言人就美“斯特拉顿”号炮舰过航台湾海峡发表谈话-当前通讯
-
南京已经没有大厂了 天天讯息
-
《方舟:生存进化》次世代版本预览图公开,画面效果显著提升_环球滚动
-
全球头条:端午知多少 | 端午节是什么?由来和习俗你知道多少?
-
从叛逆少年到成功人士,43岁谢霆锋都经历了什么?|全球头条
-
广西90多款脱贫县农产品亮相支付宝
-
为何古代夏至是“法定节假日”?_快消息
-
260名!海口龙华区公开招聘中小学在编教师
-
厦门近期发生两起火灾 被困人员都及时关门避免烟气危害|全球快看
-
亚洲藤球运动员浙江金华开赛 竞技“脚踢的排球” 世界微速讯
-
科林电气:截至6月份 公司在非洲地区的电表销售额约为300万美元 在公司整体营收中占比不大
-
助力中考 武汉经开区军山街道全力开启“护考模式”
-
环球热点!曾乾亨(关于曾乾亨介绍)
-
世界关注:透过数据看今年麦收 难度、速度、温度成为夏收关键词
-
实拍宁夏银川一烧烤店爆炸:满地碎片 引发天然气管道再爆炸!|天天快资讯
-
节日消费升温、出行热度高涨 数字里看端午假期_天天亮点
-
环球快消息!河北隆尧:学民俗 迎端午
-
西安“城市封面”学术年第一期主题沙龙暨高新区城市客厅·大师季启动仪式圆满举行_天天最新
-
基金投顾画像:展业三年仍不及期待,这四大要素成拦路虎
-
今日夏至:白昼最长 静享时光 环球关注
-
当前视点!探访湖北秭归非遗小巷:屈原故里端午情浓
-
湘琼合作共建产业基地落点海南东方市
-
为IPO“操碎了心”,环亚科技重金营销之路还能走多远?
-
俄国防部:乌方无人机袭击莫斯科州 遭俄电子战压制
-
黄河九省区文化艺术交流展演将在6月23日在银川拉开序幕-天天热文
-
vivo V29或在未来几周亮相 搭载骁龙778G+移动平台_天天热点评
-
国足“试水”两连胜之后,是时候约战亚洲强队了?_世界聚看点
-
夏日炎炎,番禺区水务系统为一线工人送清凉-世界滚动
-
石家庄市发布高温红色预警 精彩看点
-
世界快资讯丨近八成的世界500强企业在江苏有投资
-
幻·影院惊艳来袭!1905电影网会员专享大礼包来了_天天观天下
-
江西警方严厉打击跨境赌博犯罪2022年以来立案742起 实时
-
Foreign Youth Meets Chinese Painting and Calligraphy
-
天天新动态:U17国足0比3不敌沙特无缘晋级 基本情况讲解
-
全球动态:龙虎山风景名胜区税务局:浓浓端午情 慰问暖人心
-
“3小时高铁圈”,“圈”出几多精彩?
-
阳光成长 心育护航 ——安阳市东门小学组织家长观看《家长夜校》专题讲座
-
当前聚焦:足协杯第3轮综述:中超5队晋级!亚泰4-3逆转,梅州点球大战过关
-
辽沈战役纪念馆启动“为烈士寻亲”行动
-
重庆市与吉利控股集团签署战略框架协议 每日消息
-
美媒:五角大楼承认高估援乌军火价值 天天微速讯
-
当前看点!“95后”小夫妻返乡当瓜农 “甜蜜产业”赋能乡村振兴
-
【世界速看料】二连公安开展“粽意满满 沁润警心”端午节主题活动
-
第二十三届中国安康汉江龙舟节主题活动盛大启幕!
-
天天通讯!戴尔 U3824DW 显示器上市:37.5 英寸 3840*1600,IPS Black 面板
-
璞泰来: 上海璞泰来新能源科技股份有限公司关于以集中竞价交易方式回购公司股份方案的公告 当前焦点
-
鹤壁浚县:十年磨一剑 越“夜”越精彩丨消费新观察
-
“蓝色引擎”凸显 2022年山东海洋生产总值1.6万亿
-
每日播报!浓情端午,“粽”享旅途
-
雀梅的盆景的制作方法 雀梅藤盆景的制作方法
-
今日热文:今日22时58分迎来夏至节气
-
当前短讯!绣春刀3完整版电影在线观看_绣春刀3高清在线观看
-
【足协杯】晋级16强!梅州客家队点球淘汰苏州东吴队
-
中国展览业恢复性发展态势良好
-
bingo5g手机是山寨手机吗_bingo 5g手机_环球观速讯
-
天天亮点!四川省2023年普通高等学校艺术体育类招生专业统一考试成绩录取控制分数线确定
-
提取网页文本内容_如何提取网页里的文本 全球微资讯
-
贴个标签就想“偷天换日”?浦东警方捣毁一生产销售假冒品牌光纤切割机的犯罪团伙 世界时快讯
-
人民币对港元汇率今日_人民币对港元汇率 天天微动态
-
美股异动 | 新能源车股走低 法拉第未来(FFIE.US)跌超13%
-
北京高院:近七成毒品犯罪交易依托互联网实施
-
洋车前子壳喂猫_洋车前子
-
社工证有什么用有补贴吗_社工证有什么用-环球通讯
-
每日观察!实拍新疆兵团最年轻的团场
-
各国“空军一号”连连看,五常中有2个国家没有元首的专属飞机
-
世界热议:基金分红:红塔红土瑞景纯债基金6月29日分红
-
天天资讯:“燃”起动力新时代
-
世界关注:招联金融加我微信有风险吗 招联金融加我微信有风险吗是真的吗