浪潮英伟达微软为何狂炼AI大模型？巨头角力已经开始

AI大模型领域的「环球影城」正式开业！

汽车人、霸天虎集结，这次不是为了赛博坦，而是为了疯狂争夺「火种源」。

现实世界中，AI巨头们在也在为这一「生命之源」——大模型展开争夺战，进行巅峰对决。

5300亿参数，烧了4480块英伟达GPU，威震天-图灵（MT-NLG）可以说是当前最大的语言模型。此外，GPT-3有1750亿参数，浪潮「源1.0」2457亿参数...

自从2018年谷歌推出BERT模型以来，语言模型做的越来越大，仿佛没有终点。短短几年，模型参数已经从最初的3亿，扩张到万亿规模。

然而，这并不是终点，争夺「火种源」角逐还在继续。

那么，这些AI巨头到底在争什么，在探索什么？

大模型究竟是否是一条正确的道路？

下一个模型有多大？+∞

从国外来看，2018年，谷歌提出3亿参数BERT模型惊艳四座，将自然语言处理推向了一个前所未有的新高度。

可以说，谷歌最先开启了大模型一股热潮。

紧接着，OpenAI在2019年初推出GPT-2，15亿参数，能够生成连贯的文本段落，做到初步的阅读理解、机器翻译等。

还有英伟达威震天（Megatron-LM）83亿参数，谷歌T5模型110亿参数，微软图灵Turing-NLG模型170亿参数。

这些模型一次次不断地刷新参数规模的数量级，而2020年却成为这一数量级的分界线。

大火的GPT-3，1750亿参数，参数规模达到千亿级别，直逼人类神经元的数量。

能作诗、聊天、生成代码等等，无所不能。

就在近日，微软和英伟达联手发布了Megatron-Turing自然语言生成模型(MT-NLG)，5300亿参数。

号称同时夺得单体Transformer语言模型界「最大」和「最强」两个称号。

除了千亿规模的稠密单体模型，还有万亿规模的稀疏混合模型。

如果将单体模型比作珠穆朗玛峰，那么混合模型就是喜马拉雅山脉其他的小山峰。

谷歌在今年年初推出了1.6万亿参数的Switch Transformer。而智源「悟道2.0」1.75万亿参数再次刷新万亿参数规模的记录。

好一副「百家争鸣」之势。

为什么会这样？一句话，大模型是大势所趋，更是必争的高地！

如今大模型的这种盛世，与深度学习时代极其相似。

就好比十几年前深度学习的崛起一样，国内外AI巨头看到了这个技术的未来，于是纷纷入局于此，各种各样深度学习的模型不断涌现。

现在，大模型更迭速度只会越来越快。

NLP单体模型大PK

那么，为什么我们要比较这几个模型呢？

在讨论这个问题之前，需要先搞懂大模型都有哪些分类。

比如说，从模型架构角度：单体、混合；功能角度：NLP、CV、对话等等。

其中，谷歌「Switch Transformer」采用Mixture of Experts (MoE，混合专家) 模式将模型进行了切分，其结果是得到的是一个稀疏激活模型。虽然节省了计算资源，但是精度却很难提高。

目前来说，自然语言处理领域单体大模型的顶流是：「GPT-3」、「MT-NLG」以及「源 1.0」。

https://arxiv.org/pdf/2110.04725.pdf

不过，中文和英文的模型之间区别还是很大的。

在自然语言理解方面，由于分词方式不同、同一词组不同歧义以及新词汇等方面挑战，所以中文训练的难度更高。

例如分词难点：中国科学技术大学；中国\科学技术\大学；中国\科学\技术\大学。这三种不同的分词形式，表达的意思有着天壤之别。这还仅仅是其中之一。

因此，训练中文NPL模型的训练难度要比同量级英文模型难度更高。

要做就做最大的

英文的高质量文本数据集可谓是五花八门。

有包含HackerNews、Github、Stack Exchange、ArXiv甚至还有YouTube字幕的The Pile；有包含了超过50亿份网页元数据的数据平台Common Crawl；甚至还可以用Reddit论坛的内容来进行训练。

就拿The Pile来说吧，其中包含了825GB的多样化开源语言建模数据，由22个较小的、高质量的数据集合组成。

GPT-3采用了规模超过292TB，包含499亿个token的数据集。

MT-NLG则使用了15个数据集，总共包含3390亿个token。

相比起来，中文的训练数据就匮乏得多了。

最大的开源项目CLUECorpus2020只包含了100GB的高质量数据集。

https://github.com/CLUEbenchmark/CLUECorpus2020

为了获得高质量的数据集，「源1.0」的团队开发了一套大数据过滤系统 Massive Data Filtering System (MDFS)，其中包括数据收集、粗略过滤、精细过滤三部分。

数据预处理流程图

数据主要来自Common Crawl、搜狗新闻（SogouN）、搜狗互联网语料库版本(SogouT，2016)、百科数据和书籍数据。

待清洗的原始数据

在对原始语料进行粗筛选之后，团队又训练了一个基于Bert的模型来对高质量、低质量和广告内容进行分类，并辅以人工筛查。

精细过滤之后的高质量语料大小

最后终于得到了5TB高质量中文数据集，其中包括近5年中文互联网的全部内容和近2000亿个词。

计算效率up！

有了数据集，也构建好了模型，现在就可以来谈一谈训练了。

对于最新的「MT-NLG」，由560台DGX A100服务器提供动力，其中每个DGX A100都有8个NVIDIA A100 80GB张量核心图形处理器，也就是4480块A100显卡。每个GPU的算力直接飙到每秒113万亿次浮点运算。

GPT-3的训练则是在超过28.5万个CPU核心以及超过1万个GPU上完成，GPU在训练过程中达到每秒2733亿次浮点运算。

而「源1.0」只用了2128张GPU，并在短短的16天就完成了训练。

这又是如何做到？

「源1.0」的团队创新性地采用了张量并行、流水线并行和数据并行的三维并行策略。

张量并行

在张量并行策略中，模型的层在节点内的设备之间进行划分。Transformer结构在进行前向计算和反向传播时，注意力层和多层感知机层的张量将会被按行或列进行拆分。输入端的张量首先会发送给每个加速器，在加速器中各张量独立进行前向计算。

流水线并行

流水线并行将 LM 的层序列在多个节点之间进行分割，以解决存储空间不足的问题。每个节点都是流水线中的一个阶段，它接受前一阶段的输出并将结果过发送到下一阶段。如果前一个相邻节点的输出尚未就绪，则当前节点将处于空闲状态。

数据并行

采用数据并行时，全局批次规模按照流水线分组进行分割。每个流水线组都包含模型的一个副本，数据在组内按照局部批次规模送入模型副本。

从结果上看，「源1.0」的训练共消耗约4095PD（PetaFlop/s-day），相较于「GPT-3」的3640PD，计算效率得到大幅提升。

在零样本和小样本学习「霸榜」

为什么一说大模型就要提这俩货？

原因很简单，人类可以仅通过一个或几个示例就可以轻松地建立对新事物的认知，而机器学习算法通常需要成千上万个有监督样本来保证其泛化能力。

而是否拥有从少量样本中学习和概括的能力，是将人工智能和人类智能进行区分的明显分界点。其中，零样本学习更是可以判断计算机能否具备人类的推理和知识迁移能力，无需任何训练数据就能够识别出一个从未见过的新事物。

简单来说，零样本学习，就是训练的分类器不仅仅能够识别出训练集中已有的数据类别，还可以对于来自未见过的类别的数据进行区分；小样本学习，就是使用远小于深度学习所需要的数据样本量，达到接近甚至超越大数据深度学习的效果。

不管是「GPT-3」还是「MT-NLG」，都在强调自己在这两方面的学习能力。

当然，二者的区别在于，作为前任SOTA的「GPT-3」被「MT-NLG」以微弱的优势「干」掉了。

「GPT-3」在LAMBDA和PIQA测试集上取得的成绩

「MT-NLG」在LAMBDA和PIQA测试集上取得的成绩

「源1.0」虽然没有办法直接和二者进行对比，不过在中文最大规模的语言评估基准——CLUE上的成绩还是很有说服力的。

在ZeroCLUE零样本学习榜单中，「源1.0」以超越业界最佳成绩18.3%的绝对优势遥遥领先。在文献分类、新闻分类，商品分类、原生中文推理、成语阅读理解填空、名词代词关系6项任务中获得冠军。

在FewCLUE小样本学习榜单中，「源1.0」获得了文献分类、商品分类、文献摘要识别、名词代词关系等4项任务的冠军。

刷榜终究是刷榜，虽然成绩很好，但实战起来还是很容易被人类「一眼看穿」。

不过，其实从成绩单上的分数也能看出，不管是英文还是中文的模型，和人类比起来差距还是很大的。

尤其是在情感理解和话题表达方面这类没有特定规则的情景下，比如作诗、写故事等等。

大模型，去哪？

AI巨头竞相追逐模型规模的新高度，这自然带来一个灵魂之问：他们在探索什么？

当前，语言模型的训练已经从「大炼模型」走向「炼大模型」的阶段，巨量模型也成为业界关注的焦点。

近日，Percy Liang，李飞飞等一百多位学者在发表的 200 多页的研究综述 On the Opportunities and Risk of Foundation Models 中阐述了巨量模型的意义在于「突现和均质」。

论文中，他们给这种大模型取了一个名字，叫基础模型（foundation model），其在NLP领域表现出了强大的通用性和适用性。

目前AI研究的涌现性和同质化特征

构建越来越大的模型，真的就会越来越好吗？

从ELMo到Bert再到之后的GPT-3等一系列模型，预训练模型的性能一直在提升，这是一个非常强的证据。

而现在威震天-图灵的参数量是5300多亿，可见，当前模型的参数规模可能也没有达到通用人工智能所要求的水平。

所以说，更大的模型依旧是刚需。

那么，构建越来越大的模型，真的能够通向通用人工智能（AGI）吗？

OpenAI 的无监督转化语言模型 GPT-3，展现出了从海量未标记数据中学习，且不限于某一特定任务的「通用」能力。

因此让许多人看到了基于大规模预训练模型探索通用人工智能的可能。

坦白讲，我们开始对大模型认识不太清晰的时候，认为它只是用来作首诗，对个对子，但其实这些并不是大模型的魅力所在。

大模型真正的魅力在于「不可知」，而在于对未来的一个探讨。

一位清华教授曾表示，GPT-3已经越来越接近人类水平，但它有一个「阿喀琉斯之踵」。

GPT这说明，GPT-3很聪明，但它仍有一些认知局限——没有常识。

自然语言处理研究员、康奈尔大学数据科学家Maria Antoniak表示，「谈到自然语言，更大的模型是否是正确的方法是一个悬而未决的问题。

虽然目前一些最好的基准性能得分来自大型数据集和模型，但是将大量数据倾倒到模型中的回报是不确定的。」

这足以证明，对大模型进行探索是一个持续不断的过程。

全球AI巨头争的是，探索的是大模型未知领域的「处女地」，可以说是面向通用智能最高阶智能的探索。

其实，不仅仅是科学探索，它必然会产生一种催化效应，探索的成果也会带动CV、OCR、语音等领域的发展。

因为，最终的智能产生是在这基础之上建立的。

我是谁？我在哪？我将要去向何方...

这对于人类来说是一直探索的哲学问题，那么机器会如何回答？

当我们输入一些命题时，它能够给出很多灵感式答案。

「源1.0」便是一个非常好的开始，但未来的路还很长。

参考资料：

https://arxiv.org/pdf/2005.14165.pdf

https://arxiv.org/pdf/2004.05986.pdf

https://arxiv.org/pdf/2110.04725.pdf

https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/

https://easyai.tech/ai-definition/tokenization/

https://lifearchitect.ai/models/#contents

本文来自微信公众号“新智元”（ID：AI_era），作者：新智元，36氪经授权发布。

下一个模型有多大？+∞

NLP单体模型大PK

大模型，去哪？

推荐内容

浪潮英伟达微软为何狂炼AI大模型？巨头角力已经开始

未来虚拟社交：虽远隔千里，仍能“促膝”而谈

莫比电动跑步机真的好用吗

微信完美运行 Win11安卓子系统曝光

第一次在太空过年的中国宇航员会吃什么呢？

两笔收购，促成了 iPhone 里的那颗最强芯片

元宇宙需要「基建狂魔」

卸任CEO：搜狗正式融入腾讯大家庭！

雷鸟创新发布首款双目全彩MicroLED光波导AR眼镜！

米家首款高温无线洗地机发布：全程可自清洁！

小米电子温湿度计问世：可续航2年！

7年后更新换代：影驰首款DDR5内存直奔64GB

苹果二季度总结：独占全球智能手机市场75%利润

安卓12硬件要求发布：内存至少需要6GB！

iPhone 13 Pro《原神》120帧实测：开了体验感更差

谷歌发布Android 12使用条件：OEM厂商回应进行支持

游戏大厂手机黑鲨4S系列上新：全系120W极速闪充！

iPhone 13 Pro终极跌落测试：20层摔下还能正常用！

魅族Flyme携手索尼：提供高品质本地化应用服务

小米12系列将12月问世：配置5000mAh电池

20层摔下还能正常用 大神进行iPhone 13 Pro终极跌落测试

小米这款299元的降噪耳机销量突破100万

以自主算法平台为核心，工业AI服务商「中科迪宏」提供3C及新能源AI视觉解决方案

QuestMobile2021全景生态秋季报告：多平台流量助力头部APP跃迁，小程序差异化玩法显现

曾经的手机王者：酷派目标三年内重返战场

波音737Max坠机调查后续：首席飞行官被起诉

双导热垫 全包设计 银欣推出PS5扩展SSD专用散热器

最前线 | 搜狗正式整合入腾讯，王小川卸任后或将在医疗领域创业

AirPods成助听器和测温计？苹果的运动健康版图里，不只有手表

数字经济一号工程：助力高质量发展新动力

王思聪再也不买劳斯莱斯 原因竟然是请错代言人？

苹果重聘前HomePod工程师，让其软件重回正轨

RPA赛道持续火热，这只“当红炸子鸡”到底红在哪里？

自主研发定位寻件系统：发展创新转换空降战斗力

222名CIO调研：96%的受访企业已开展数字化实践，超七成企业已使用云服务

网络游戏防沉迷：光靠技术还远远不够

全球变暖：世界能源支出变化报告发表气候变暖的影响

新方法能减轻抗生素治疗副作用：可保护有益肠道菌

北冰洋最后的冰区将可能在2100年消失

维卟梵：安全高效修复，还你健康胃食管

荧光染料混合物可保存数据数千年：不消耗能量可信息读取准确率超99%

羲和号成功发射：中国正式迈进探日道路

共同发展：建设万物和谐的美丽新世界

孤岛危机三部曲重制 所有电脑都能玩

字节跳动要开始送外卖了？抖音回应：假的

淘特功守道

因涉嫌违反营销政策，谷歌撤下多个手机跟踪App广告

探寻石化行业低碳发展：建立具有中国特色新能源体系

沐菲雅全屋整装一站式整装让家装品质有保障

神舟十三号即将发射：机组人员确定！

科技部：四大措施将支持深圳发挥科技创新作用

与世界相交时代相通：建设可持续发展道路

淘宝突然崩了 网友：这是双11提前了吗？

来炸场？乔布斯即将“现身”苹果新品发布会

未来数十年里，为什么全球企业都要向中国学习？

中国电信推动水泥行业智能化转型；国家林草局与中国移动合作，推进智慧林草建设 | 36氪大公司数字化创新指南1014

身价1.33万亿美元的世界首富竟然想玩这款中国手游

搜一搜可直达视频号品牌活动页面，PC端直播功能得到优化

全球每天丢掉的 40 亿只旧口罩，除了变成垃圾还能做什么？

升不了Windows 11？小雷帮你总结了几个常见问题

集齐500万个关注，大伟哥就会邀请马斯克参观米哈游总部？

iPhone 14提前“开发布会”，它才是颠覆之作？

现象规律、社交货币和产品视角

VR等不到兴起就陨落 拯救几乎无望

尴尬到抠脚的社死功能！微信语音会自动播放朋友圈

困境：苹果TV+在控制盗版方面举步维艰

精锐教育宣布暂停营业：面临巨大的经营困难

再等等就能便宜买显卡了？高通CEO称全球半导体芯片短缺明年有望缓解

戴尔与京东建立战略合作:共建IT业务生态

能破60000美元？比特币接连上涨迎新高

现实版终结者？国外公司开发适用于机器狗的武器系统

打脸官方？消息称任天堂正筹划全新“Switch 4K”主机

电动车干不过特斯拉就去造飞机？本田公布全新HondaJet概念飞机

苹果的大健康布局：研究Airpods的助听器、体温读取等用途

苹果叫板安卓：IOS系统比安装更加安全

小米跨界烟灶套装S1发布：年轻人第一次下厨房

20层摔下还能正常用大神进行iPhone 13 Pro终极跌落测试

双导热垫全包设计银欣推出PS5扩展SSD专用散热器

王思聪再也不买劳斯莱斯原因竟然是请错代言人？

孤岛危机三部曲重制所有电脑都能玩

淘宝突然崩了网友：这是双11提前了吗？

VR等不到兴起就陨落拯救几乎无望

中国比特币算力几乎为零政策管控已见成效

只要399元一加Buds Z2最强降噪耳机发布

一度宕机6小时微软Azure虚拟机做出回应

网友建议推出老年版应用商店，工信部表示支持

随身高速存储利器金士顿XS2000移动固态硬盘

DLSS加持？未来Switch或支持4K输出

“柯克舰长”飞天成功今年已有21名普通人进入太空全年将超过30人

心动外卖吃你所爱：小程序软件已获批!