GPT-4 被破解,训练成本,模型架构的秘密都被挖出来了?
几个小时前 SemiAnalysis 的 DYLAN PATEL 和 DYLAN PATEL 发布了一个关于 GPT-4 的技术信息,包括 GPT-4 的架构、参数数量、训练成本、训练数据集等。本篇涉及的 GPT-4 数据是由他们收集,并未公开数据源。仅供参考。
(资料图片仅供参考)
原文翻译如下:
揭秘 GPT-4:导致 OpenAI 架构的工程权衡
OpenAI 保持 GPT-4 架构的封闭性并不是因为对人类存在一些生存风险,而是因为他们构建的东西是可复制的。事实上,我们预计 Google、Meta、Anthropic、Inflection、Character、腾讯、字节跳动、百度等在短期内都将拥有与 GPT-4 一样强大的模型。
不要误解我们的意思,OpenAI 拥有令人惊叹的工程技术,他们构建的东西令人难以置信,但他们得出的解决方案并不神奇。这是一个优雅的解决方案,具有许多复杂的权衡。做大只是战斗的一部分。 OpenAI 最持久的护城河是他们拥有最真实的使用情况、领先的工程人才,并且可以通过未来的模型继续领先于其他人。
我们从许多来源收集了大量有关 GPT-4 的信息,今天我们想分享一下。这包括模型架构、训练基础设施、推理基础设施、参数计数、训练数据集组成、令牌计数、层数、并行策略、多模态视觉适应、不同工程权衡背后的思维过程、独特的实施技术以及它们如何减轻一些问题他们最大的瓶颈与巨型模型的推理有关。
GPT-4 最有趣的方面是理解他们为什么做出某些架构决策。
此外,我们将概述 A100 上 GPT-4 的训练和推理成本,以及如何在下一代模型架构中与 H100 进行扩展。
首先,问题陈述。从 GPT-3 到 4,OpenAI 希望扩展 100 倍,但问题是成本。 密集变压器模型将无法进一步扩展。密集变压器是 OpenAI GPT-3、Google PaLM、Meta LLAMA、TII Falcon、MosaicML MPT 等使用的模型架构。我们可以轻松说出 50 家使用相同架构培训法学硕士的公司。这是一个很好的方法,但它在扩展方面存在缺陷。
从训练成本的角度来看,请参阅我们在 GPT-4 公告之前关于即将推出的密集模型 AI 砖墙的训练成本讨论。在那里,我们揭示了 OpenAI 在 GPT-4 架构方面所做的高层工作以及各种现有模型的训练成本。
在过去的 6 个月里,我们意识到培训成本无关紧要。
当然,从表面上看,花费数千万甚至数亿美元的计算时间来训练模型似乎很疯狂,但这对于这些公司来说是微不足道的。它实际上是一个资本支出项目,规模扩大可以持续带来更好的结果。唯一的限制因素是将计算扩展到人类可以获得反馈并修改架构的时间尺度。
未来几年,谷歌、Meta、OpenAI/ 微软等多家公司将在价值超过千亿元的超级计算机上训练模型。Meta 每年在 "Metaverse" 上燃烧超过 160 亿美元,Google 每年在各种永远不会实现成果的项目上浪费 100 亿美元。亚马逊在 Alexa 上损失了超过 50 亿美元。加密货币在毫无价值的事情上浪费了超过 1000 亿美元。
这些公司和整个社会可以而且将会花费超过一千亿美元来创建可以训练单个大规模模型的超级计算机。然后可以通过多种方式将这些大型模型产品化。这项工作将在多个县和公司重复进行。这是新的太空竞赛。以前的浪费与现在的区别在于,人工智能可以在短期内从人类助手和自主代理身上带来有形的价值。
扩展人工智能(真正的人工智能砖墙)的更重要问题目标是将训练计算与推理计算分离。这就是为什么训练 Chinchilla 对于任何将要部署的模型来说都是最佳的。这就是为什么要进行稀疏模型架构;每个参数在推理过程中都不会被激活。
真正的战斗是将这些模型扩展到用户和代理的成本太高。推理成本是训练成本的数倍。这就是 OpenAI 在模型架构和基础设施方面的创新目标。
大型模型的推理是一个多变量问题,其中模型大小会导致密集模型的死亡。
我们已经在这里详细讨论了有关边缘的问题,但数据中心的问题陈述非常相似。简而言之,设备永远不可能有足够的内存带宽来容纳大型语言模型来实现一定水平的吞吐量。即使它们有足够的带宽,边缘硬件计算资源的利用率也会很糟糕。
在数据中心、云中,利用率就是一切。 Nvidia 因其卓越的软件而受到赞誉的一半原因是,在 GPU 的几代生命周期中,Nvidia 不断更新低级软件,通过在芯片周围、芯片和内存之间更智能地移动数据来提高 FLOPS 利用率。
目前大多数用例中的 LLM 推理都是作为实时助手运行,这意味着它必须实现足够高的吞吐量,以便用户可以实际使用它。人类平均每分钟阅读约 250 个单词,但有些人的阅读速度高达每分钟约 1,000 个单词。这意味着您需要每秒至少输出 8.33 个令牌,但每秒需要输出 33.33 个令牌才能覆盖所有极端情况。
由于内存带宽要求,即使在最新的 Nvidia H100 GPU 服务器上,万亿参数密集模型在数学上也无法实现此吞吐量。每个生成的令牌都需要将每个参数从内存加载到芯片上。然后,将生成的令牌输入到提示中,并生成下一个令牌。此外,注意力机制的 KV 缓存中的流传输需要额外的带宽。
上图展示了以足够高的吞吐量推理 LLM 以便为单个用户提供服务所需的内存带宽。它表明,即使 8x H100 也无法以每秒 33.33 个令牌的速度提供 1 万亿参数密集模型。此外,每秒 20 个令牌的 8xH100 的 FLOPS 利用率仍低于 5%,导致推理成本非常高。实际上,目前的 8 路张量并行 H100 系统存在约 3000 亿个前馈参数的推理约束。然而,OpenAI 正在通过 A100 实现人类的阅读速度,其模型超过 1 万亿个参数,并且以每 1,000 个代币仅 0.06 美元的低价广泛提供。那是因为它是稀疏的,IE 并不是每个参数都被使用。
废话够多了,我们来谈谈 GPT-4 模型架构、训练基础设施、推理基础设施、参数计数、训练数据集组成、标记计数、层数、并行策略、多模态视觉编码器、不同工程权衡背后的思维过程、独特的实施的技术,以及它们如何缓解与大型模型推理相关的一些最大瓶颈。
总结主要的关于 GPT-4 的信息(总结来自 Yam Peleg 的推文):
参数数量:GPT-4 比 GPT-3 大 10 倍,估计参数数量在 120 层、1.8 万亿左右。
MoE 架构:即 Mixture-of-Experts 架构,这部分信息已经确认,OpenAI 通过利用 MoE 架构保持一定的成本,包含 16 个 Experts,每一个都是一个 MLP.2,约 1110 亿参数,每个前向传播都被路由到这些专家中
MoE 路由:尽管公开的技术文档中说了很多高级的路由功能,包括每个 token 如何选择每个专家等。但是现有 GPT-4 其实非常简单,大约就是为每个 attention 共享 550 亿参数的方式。
推理:每一个前向传播的推理(生成一个 token)需要 2800 亿参数以及 560 TFLOPS,这与纯 dense 模型每次正向传递所需的约 1.8 万亿参数和 3700 TFLOPS 形成了鲜明对比。
训练数据集:GPT-4 在约 13 万亿 tokens 上训练。这不是指不同的 token 数量,是根据 epochs 计算使用的 token 数量。基于文本的数据集做了 2 次 epoch 训练,基于代码的数据集做了 4 次 epoch 训练。
GPT-4 32K:每一个预训练阶段都是 8K 的长度。32K 的版本是 8K 预训练模型之后微调得到的。
Batch Size:batch size 是逐渐上升的,在集群中经过几天的时间达到一个数值。最终,OpenAI 的 Batch Size 达到了 6000 万!也就是每个专家大约有 750 万的 token 数量,但是并不是每个专家都能看到所有的 tokens。
并行策略:由于 NVLink 的限制,OpenAI 训练 GPT-4 做了 8 路 tensor 并行,15 路的 pipeline 并行。
训练成本:OpenAI 训练 GPT-4 的 FLOPS 约 2.15e25,在 2.5 万个 A100 上训练了 90-100 天左右时间(MFU 约 32% 到 36%),如果是一个 A100 约 1 美元,那么训练成本约 6300 万美元(如果现在使用 H100 可能只要 2150 万美元)。
MoE 的取舍:使用 MoE 之后做了很多取舍,包括推理的处理困难,因为每个模型都用来生成文本。这意味着生成的时候有的可以使用,有的空闲,对使用率来说非常浪费。研究显示 64-128 个专家的损失比 16 个专家更好。
GPT-4 的推理成本:比 1750 亿的 Davinchi(GPT-3/3.5 系列)高 3 倍,主要是 GPT-4 的集群太大,利用率低一点。估计约 1k tokens 要 0.0049 美元(128 个 A100)。
MOA:Multi Query Attention,和其他人一样,都是正常使用 MOA。因为只需要 1 个 head,显存大大下降,但是 32K 依然无法在 A100 40G 运行。
持续 batching:OpenAI 使用可变的 batch size 和持续 batching 方法。可以平衡推理成本和推理速度。
Vision Multi-Modal:GPT-4 的多模态部分是单独一个 visiion encoder,带有 cross attention。使得 1.8 万亿的 GPT-4 的参数扩展到 2 万亿左右。VisionModel 是从头训练的,还不够成熟。Vision 部分的一个作用是让代理可以月度网页,然后转换成图片和视频。部分数据是基于 Latex 与屏幕截屏训练的。还有 YouTube 视频,包括使用 whisper 翻译的脚本与抽帧结果。
推理架构:推理是在 128 个 GPU 集群上运行的,在不同的区域有不同的集群。每个节点有 8 个 GPU,包含 1300 亿参数的模型。或者说每个 GPU 少于 30GB 的 FP16、少于 15GB 的 FP8/int8。
原文链接:点击前往
标签:
推荐文章
- GPT-4 被破解,训练成本,模型架构的秘密都被挖出来了?
- 找前绿委任台中副市长?卢秀燕笑而不答
- 定增建设5GWH储能电芯,紫金绑定进一步加深
- 阳光财险青岛分公司参加“青岛市保险业7.8绿色环保健步行”活动
- 3dsmax 安装错误系列_001
- 苏州市相城区 苏州市相城区邮编
- 德国总理朔尔茨反对将瑞典入北约与土耳其入欧盟“挂钩”
- 这家银行解散!已全部清零
- 数字科技让传统文化“活”起来
- 三伏天养生6大禁忌 基本情况讲解
- 旅游旺季来临,零食行业如何抓住机遇?
- 2023年深圳节能宣传周暨低碳日活动启动
- 巨轮出海!120秒看水上“中国智造”
- 涉嫌入室行窃,美市长被“抓现行”,向房主咆哮“知道我是谁吗?”
- 江特电机07月10日被深股通减持562.02万股
- “锂矿沙特阿拉伯”,储量1500万公吨!美国公司加州“淘锂”
- 田赛_关于田赛介绍
- 破案了:逆水寒手游根本没有智能AI,400个策划天天都在扮演NPC
- 林国栋吊打何家劲(警察故事2):强度值计算
- 北京人艺新排《哈姆雷特》 与经典深度对话
- 新时代中国调研行·长江篇丨“绿动”宜宾——万里长江第一城
- 苹果iPad Pro屏幕将升级 OLED面板 明一季度开始试产
- 三维股份(603033.SH):2022年年度权益分派10转3股
- 日媒民调显示岸田内阁支持率较前月下降5%
- 黄平县寨碧村:探索基层治理方法共建和美乡村
- 总有你鼓励这首歌表达什么意思(总有你鼓励)
- 7月10日,股坛将军、刘昌松等大V对后市行情的预测及本人账户情况
- 浙商基金前基金经理被罚30万元,因利用未公开信息进行趋同交易
- 快讯 | 国家市场监管总局:婴配粉标签不得使用“无污染奶源”等模糊信息和“母乳化”表述
- 警方抓获一“专骗老外”的诈骗团伙,评论区亮了…
- 张兰败诉,家族信托保不住了?
- 一张图:2023/07/10黄金原油外汇股指"枢纽点+多空占比"一览
- 晋城将增添一座机场
- 战地2042steam价格多少
- 比特币、灰度比特币信托、Polygon和Presearch有望成为2023年加密货币赢家
- 深圳知名豪宅降价3000万成交!6848万起拍 26次激烈竞价 曾流拍两次
- 蚂蚁集团整改完成:被罚71.23亿元,估值下降40%;阿里考虑回购蚂蚁股份;中信消费金融回应股权变更丨21消费金融参考
- 中科环保:7月7日融资买入506.39万元,融资融券余额1.19亿元
- 沪深两市成交额突破3000亿元
- 久立特材:7月7日融资买入298.72万元,融资融券余额1.64亿元
- 业主怒了!市区一小区:没买车位,不许开车进小区!
- 平潭发展:融资净偿还135.23万元,融资余额3.59亿元(07-07)
- 早报:“看人真准!”
- 宋茜穿搭惊艳《五十公里桃花坞》!新剧情解锁群体沟通新玩法
- 煤价回落叠加用电需求增长,电力企业盈利能力大幅攀升
- 罗马诺:卢卡库想继续留在欧洲,国米未来几天和切尔西再会面
- 集束弹药引爆或波及平民 美副防长:比起平民伤亡 打败俄更重要
- 阿里巴巴:蚂蚁集团拟回购不超过7.6%股份
- 小米平板 6 即将欧洲开卖,起售价为 399 欧元
- 前尤文球员莫拉塔急于离开马竞,罗马认为莫拉塔,引援成本太高
- 上古练气士境界划分 上古练气士
- 上半年铁路完成固定资产投资同比增长6.9% 一批重点项目建设取得新进展
- 华硕海外推出PN64-E1迷你主机:13代酷睿处理器,2.5
- 国际原子能机构总干事和韩国官员讨论日本核污染水排海计划
最新资讯
- 南通俪人整形医院正规吗 医生名单来袭 改变更有保障
- 2023CBA夏季联赛明天开战!青岛“双子星”正式亮相
- 长春市同志街将更新优化
- 新时代 新征程 新伟业丨延链条 强支撑 激活力 玉溪市全链思维布局产业,引企入园集群发展
- “肌”不可失,预防“肌”密的关键在于…
- sgn是什么意思(SG是什么意思)
- 遗憾!曼城左后卫S-戈麦斯面无表情领取欧青赛金靴
- 360浏览器如何关闭广告拦截功能(360浏览器如何关闭广告拦截)
- 盛夏时节 消暑纳凉有方
- 龙王的工作:空银子洛丽塔手办监修图公开学姐第一次赢的瞬间
- 上海浦东发出首批无人驾驶道路测试牌照,百度智行等三家企业获批
- 十年磨一剑 攻关高精尖
- 太阳为什么一直在燃烧不会灭?
- 崔珉豪理想型(宋茜珉豪)
- 阿斯:赫罗纳无意谈判,巴萨想要罗梅乌必须支付800万欧解约金
- 程安靖简历(李婧程安东什么关系)
- 疑似联想Y700平板曝光:兼有8寸屏与16GB内存以及满血版骁龙8+
- 青岛即墨:推出“即墨小政”打造“智能+人工”政务咨询新模式
- 官宣!10笔签约正式达成,乌度卡对哈登无感,快船支出破3亿美元
- 2023世界人工智能大会聚焦前瞻科技—— 中外企业竞秀“大模型”
- 安全日是几月份(安全日是几月几日)
- 河北迁安:“非遗”传人自编鼓词文艺宣讲进社区
- 美军称收到求救:“伊朗军队多次开火”
- 第22届全国大学生机器人大赛在江阴开赛
- 华人健康:拟3.47亿元收购江苏神华药业100%股权
- 七月份综合运势最旺,每天都能喜上眉梢的三大属相!
- 爱穿衬衫的职场女性,夏季一定注意这三个要素!照着学很提气质
- 花溪区税务局走访企业主动接受社会监督
- 瑞可达:拟投资10亿元“建设高性能电池集成母排模组项目”
- “镜像人”深夜突发心梗 医生为他打通“心”通道
- 关注儿童肥胖需将营养问题前置
- 母亲节祝福朋友圈【6篇】
- 创了历史记录!下周三大看点
- 王天发7.7黄金原油周五多空趋势如何看?现货黄金-期货原油最新市场行情走势分析点评
- 河海大学加快推进苏州研究院载体建设
- 百融云创CEO张韶峰:大模型或将在金融领域开启“iPhone时刻”
- 常见的葡萄的品种有多少种?如何分类?
- 【建设平安云梦】云梦交警筑牢夏季交通安全防线
- 厦门国际会展中心D馆竣工投用
- 江西省金溪县发布高温橙色预警
- 3D MEDICINES涨超5% 自去年12月上市以来大涨280%
- 聚焦高质量发展|“飞”出产业“融”出动能 四川广安探寻高质量发展新路径
- 王宝强是哪个导演 周星驰夸王宝强是优秀导演 基本情况讲解
- 厦门国际会展中心D馆竣工投用
- 中国男篮前往欧洲拉练将与多支强队热身
- 乐惠国际(603076)7月6日主力资金净卖出1200.10万元
- whoscored预测皇马新赛季首发:罗德里戈中锋、居勒尔右边锋
- 安居房产(关于安居房产的基本详情介绍)
- 大S和徐妈索要6000万,才让汪小菲接走孩子,张兰还有更大的担忧
- 奔驰48v轻混技术(奔驰c48v轻混是什么意思?)