未来十年，AI迎来“小数据”时代？

“不要相信那种（基于海量数据的AI优势）炒作。”作为全球AI和机器学习领域最权威的学者之一，吴恩达教授近期谈到自己对下一步AI趋势的看法。

图：吴恩达教授

从事AI研究的人都非常清楚，数据在AI发展中扮演着至关重要的角色。

传统观点认为，大量数据支撑起了尖端AI的发展，大数据也一直被奉为打造成功机器学习项目的关键之匙。作为深度学习的引擎，大数据与大模型已经成功运行了15年。

如今，预训练大模型已成为各家打造AI基础设施的利器，业界出现了各种由大数据构建出的大模型，例如：

Switch Transformer

谷歌于2021 年1月11日提出，声称参数量从GPT-3的1750亿提高到1.6万亿。Switch Transformer基于稀疏激活的专家模型(Mixture of Experts)，论文中提到在计算资源相同的情况下，训练速度可以达到T5 (Text-To-Text Transfer Transformer)模型的4-7倍。

MT-NLG

2021年年底，英伟达与微软联合发布了MT-NLG，该模型含参数5300亿个，宣称是目前最大的且最强的语言生成预训练模型。

悟道2.0

2021年6月，北京智源研究院发布悟道2.0，参数规模达到1.75万亿，是GPT-3的10倍，超过了谷歌Switch Transformer的1.6万亿参数记录。

“封神榜”

2021年11月，在深圳IDEA大会上，粤港澳大湾区数字经济研究院（简称“IDEA”）理事长沈向洋正式宣布，开启“封神榜”大模型开源计划，涵盖五个系列的亿级自然语言预训练大模型，其中包括了最大的开源中文BERT大模型“二郎神”系列。

但值得注意的是，在某些场景下，大数据并不适用，“小数据”才是更好的解决方案。

未来AI从大数据转向小数据

尽管业界在大数据和大模型取得了飞跃性的成果，但是这种规模化方法，并不适用于数据集不够庞大的新兴行业或传统行业。

在传统行业，基于公开数据的预训练的大模型几乎派不上用场。

“庞大的搜索数据、经济数据对于检测零部件缺陷毫无用处，对于医疗记录也没有太大的帮助。”吴恩达教授表示。

更困难的是，与可获取海量用户数据的互联网公司不同，传统企业没有办法收集海量的特定数据来支撑AI训练。

例如，在汽车制造业中，由于精益6-sigma管理技术的广泛应用，大多数零件制造商和一级供应商都尽量保证每百万批次的产品中最多出现4个不合格产品。于是，制造商们就缺少了不合格产品的样本数据，从而很难训练出性能良好的用于产品质检的视觉检测模型。

最近一次的MAPI调查显示：58%的研究对象认为，部署AI解决方案最主要的困难是数据源的缺乏。

正如吴恩达教授所言：“过去十年，AI最大的转变是深度学习，而接下来的十年，我认为会转向以数据为中心。随着神经网络架构的成熟，对于许多实际应用来说，瓶颈将会存在于“如何获取、开发所需要的数据”。

随着各国数据和隐私安全法规纷纷落位，对AI技术监管收紧，AI的大数据红利期已经一去不复返。

根据Gartner的报告，到2025年，70%的组织将被迫将重点从大数据转移到小数据和泛数据，为分析提供更多上下文——并减少AI对数据的需求。

但这并不意味着AI的发展会受阻。相反，在小数据时代，AI同样大有可为。

吴恩达教授认为，基于融合式学习、增强式学习、知识转移等方法，小数据也可以发挥大的作用，未来AI的趋势之一是将从大数据向小数据过渡。

小数据如何驱动AI？

需要注意的是，小数据的“小”并不仅仅代表数据量小，也要求质量高的数据，这一点尤为重要。小数据是指使用符合需求的数据类型构建模型，从而生成商业洞察和实现自动化决策。

我们经常会看到有人对AI期望过高，仅仅收集几张图片数据，就期望获得一个高质量的模型。在实际部署时，是要找出最适合用于模型构建的那部分数据，用于输出正确内容。

对此，吴恩达教授举例道：一个经过训练的机器学习系统在大部分数据集上的表现还不错，却只在数据的一个子集上产生了偏差。这时候，如果要为了提高该子集的性能，而改变整个神经网络架构，这是相当困难的。但是，如果能仅对数据的一个子集进行设计，那么就可以更有针对性的解决这个问题。

例如，当背景中有汽车噪音时，有一个语音识别系统的表现会很差。了解了这一点，就可以在汽车噪音的背景下收集更多的数据，而不是所有的工作都要收集更多的数据，那样处理起来会非常昂贵且费时。

再比如，智能手机上有许多不同类型的缺陷，可能会是划痕、凹痕、坑痕、材料变色或者其它类型的瑕疵。如果训练过的模型在检测缺陷时总体表现很好，但在坑痕上表现得很差，那么合成数据的生成就可以更有针对性地解决这个问题，只为坑痕类别生成更多的数据。

事实上，小数据并不是一个全新的课题，在机器学习领域，小数据的处理方法已经越来越多。

少样本学习

通过少样本学习技术，为机器学习模型提供少量训练数据，适合在模型处于完全监督学习状态而训练数据不足时使用。

少样本学习技术经常应用于计算机视觉领域。在计算机视觉中，模型可能不需要很多示例来识别某一对象。例如，具有用于解锁智能手机的面部识别算法，无需数千张本人的照片便可开启手机。

知识图谱

知识图谱属于二级数据集，因为知识图谱是通过筛选原始的大数据而形成的。知识图谱由一组具有定义含义并描述特定域的数据点或标签组成。

例如，一个知识图谱可能由一系列著名女演员名字的数据点组成，共事过的女演员之间以线（或称之为边）连接起来。知识图谱是一种非常有用的工具，以一种高度可解释和可重复使用的方式组织知识。

迁移学习

当一个机器学习模型作为另一模型的训练起点，以帮助此模型完成相关任务时，就需要用到迁移学习技术。

从本质上讲，是将一个模型的知识迁移到另一个模型。以原始模型为起点，再使用额外数据来进一步训练模型，从而培养模型处理新任务的能力。如果新任务不需要原始模型的某些构成部分，也可以将其删除。

在自然语言处理和计算机视觉等需要大量计算能力和数据的领域，迁移学习技术尤为有效。应用迁移学习技术可以减少任务的工作量和所需时间。

自监督学习

自监督学习的原理是，让模型从现有的数据中收集监督信号。模型利用现有数据来预测未观测到的或隐藏的数据。

例如，在自然语言处理中，数据科学家可能会在模型中输入一个缺少单词的句子，然后让这个模型预测所缺少的单词。从未隐藏的单词中获得足够的背景线索后，模型便学会识别句中隐藏的单词。

合成数据

当给定数据集存在缺失，而现有数据无法填补时，就可以利用合成数据。

比较普遍的示例是面部识别模型。面部识别模型需要包含人类全部肤色的面部图像数据，但问题是，深色人脸的照片比浅色人脸的照片数据要少。数据科学家可以人工创建深色人脸数据，以实现其代表的平等性，而不是创建一个难以识别深色人脸的模型。

但机器学习专家必须在现实世界中更彻底地测试这些模型，并在计算机生成的数据集不足时，添加额外的训练数据。

小数据的大潜力

如今，小数据的潜力正在被业界所重视。

2021年9月，美国网络安全和新兴技术局（简称CSET）发布的《小数据人工智能的巨大潜力》报告指出，长期被忽略的小数据（Small Data）人工智能潜力不可估量！

一是，缩短大小实体间AI能力差距。

由于不同机构收集、存储和处理数据的能力差异较大，AI的“富人”（如大型科技公司）和“穷人”之间正在拉开差距。使用小数据构建AI系统，能够大幅降低中小型企业进入AI的壁垒，减少传统企业项目的研发时间和成本，将成为数以万计的商业项目的重要突破口。

二是，促进数据匮乏领域的发展。

对于许多亟待解决的问题如：为没有电子健康记录的人构建预测疾病风险的算法，或者预测活火山突然喷发的可能性，可用数据很少或者根本不存在。

小数据方法以提供原则性的方式来处理数据缺失或匮乏。它可以利用标记数据和未标记数据，从相关问题迁移知识。小数据也可以用少量数据点创建更多数据点，凭借关联领域的先验知识，或通过构建模拟或编码结构假设去开始新领域的冒险。

三是，避免脏数据问题。

小数据方法能让对“脏数据”烦不胜烦的大型机构受益。不可计数的“脏数据”需要耗费大量人力物力进行数据清理、标记和整理才能够“净化”，而小数据方法中数据标记法可以通过自动生成标签更轻松地处理大量未标记的数据。迁移学习、贝叶斯方法或人工数据方法可以通过减少需要清理的数据量，分别依据相关数据集、结构化模型和合成数据来显着降低脏数据问题的规模。

四是，减少个人数据的收集。

全球各国都陆续出台了针对个人数据保护的政策法规，用小数据方法能够很大程度上减少收集个人数据的行为，通过人工合成数据或使用模拟训练算法，让使用机器学习变得更简单，从而让人们对大规模收集、使用或披露消费者数据不再担忧。