部分人工智能沉迷刷榜实际应用中却犯基础错误？

目前部分人工智能沉迷刷榜，在基准测试时高分通过，表现优异，但实际应用中却还会犯一些非常基础的错误。

近日，有媒体报道，目前部分人工智能沉迷刷榜，在基准测试时高分通过，表现优异，但实际应用中却还会犯一些非常基础的错误。这种沉迷刷榜，忽略实用性质的行为造成了部分AI模型“高分低能”的现象。那么，对于AI发展而言，基准测试是否必要?在实际应用中，基准测试哪些问题有待改进完善呢?

AI模型哪家好，基准测试来说话

AI模型应该如何衡量其性能?

“目前AI模型能力的高低取决于数据，因为AI的本质是学习数据，输出算法模型。为了公平衡量AI能力，很多机构、企业甚至科学家会收集、设计不同的数据集，其中一部分喂给AI训练，得到AI模型，另外一部分数据用于考核AI模型的能力，这就是基准测试。”近日，西安电子科技大学电子工程学院教授吴家骥接受科技日报记者采访时表示。

吴家骥介绍说，机器学习越来越多地用于各种实际应用场景，例如图像和语音识别、自动驾驶汽车、医学诊断等。因此，了解其在实践中的行为和性能变得非常重要。其鲁棒性和不确定性的高质量估计对于许多功能至关重要，尤其是在深度学习领域。为掌握模型的行为，研究人员要根据目标任务的基线来衡量其性能。

2010年，基于ImageNet数据集的计算机视觉竞赛的推出，激发了深度学习领域一场算法与数据的革命。从此，基准测试成为衡量AI模型性能的一个重要手段。微软公司的计算机科学家马塞洛·里贝罗表示，基准测试应该是从业者工具箱中的一个工具，人们用基准来代替对于模型的理解，通过基准数据集来测试“模型的行为”。

例如，在自然语言处理领域，GLUE科研人员让AI模型在包含上千个句子的数据集上训练，并在9个任务上进行测试，来判断一个句子是否符合语法，并分析情感，或者判断两个句子之间是否是逻辑蕴涵等，一度难倒了AI模型。随后，科研人员提高了基准测试难度，一些任务要求AI模型不仅能够处理句子，还要处理来自维基百科或新闻网站的段落后回答阅读理解问题。仅经过1年的发展，AI模型的性能从不到70分轻松达到90分，超越了人类。

吴家骥表示：“科学研究要有科学问题、方法、计算、试验对比等要素。因此在进行科学研究，包括人工智能的科研中，也必须有计算与试验对比，也就是说AI算法的能力应该是可测量的，目的是验证研究方法的可行性、有效性。因此，基准测试很有必要，这样才可以公平验证AI算法能力的高低好坏，避免各说各话，‘王婆卖瓜自卖自夸’。”

算法最终服务实践，而非刷榜

有人说，高分是AI模型的兴奋剂。于是，有的人工智能为了取得好成绩而频频刷榜。

微软公司2020年发布报告指出，包括微软、谷歌和亚马逊在内的各种sota模型包含诸多隐含错误，比如把句子里的“what's”改成“whatis”，模型的输出结果就会截然不同，而在此前，从没有人意识到这些曾被评价还不错的商业模型竟会在应用中如此糟糕。显然，这样训练出的AI模型就像一个只会考试、成绩优异的学生，可以成功通过科学家设置的各种基准测试，却不懂为什么。

“为了获得好成绩，研究人员可能会使用特殊的软硬件设置对模型进行调整和处理，让AI在测试中表现出色，但这些性能在现实世界中却无法施展。”西安电子科技大学研究员尚坤指出。

在智能手机领域，我们谈及手机的使用体验时一般都不免会涉及手机的性能表现，这些性能通常会用跑分成绩来表现。然而，我们常常会遇到一款手机的跑分成绩处于排行榜领先水平，但是在实际使用过程中却出现动画掉帧、页面滑动卡顿、应用假死等的现象。全球顶级评测网站AnandTech的一篇报道曾对这种现象提出质疑，指出某品牌手机跑分时启动了“性能模式”，而在平时的使用中“性能模式”很少被调用开启。这种处理方式虽然能够获得高跑分，但是不能模拟用户真实的使用情景，这让基准测试不具有参考意义。

尚坤认为，针对上述问题，改进基准的方法主要有：一种是增加更多的数据集，让基准变得更难。用没有见过的数据测试，这样才能判断AI模型是否能够避免过拟合。研究人员可创建一个动态数据收集和基准测试平台，针对每个任务，通过众包的方式，提交他们认为人工智能模型会错误分类的数据，成功欺骗到模型的样例被加入基准测试中。如果动态地收集数据增加标注，同时迭代式的训练模型，而不是使用传统的静态方式，AI模型应该可以实现更实质性的进化。

尚坤说，另一种是缩小实验室内数据和现实场景之间的差距。基线测试无论分数多高，还是要用实际场景下的数据来检验，所以通过对数据集进行更贴近真实场景的增强和扩容使得基准测试更加接近真实场景。如ImageNet-C数据集，可根据16种不同的实际破坏程度对原有的数据集进行扩充，可以更好模拟实际数据处理场景。

应用广泛，需尽快建立国家标准

美国麻省理工学院Cleanlab实验室的研究指出，常用的10个作为基准的数据集中，有超过3%的标注是错误的，基于这些基准跑分的结果则无参考意义。

“如果说，基准测试堪称人工智能领域的‘科举制’，那么，‘唯分数论’输赢，是不可能训练出真正的好模型。要打破此种现象，一方面需要采用更全面的评估方法，另一方面可以考虑把问题分而治之，比如用多个AI模型解决复杂问题，把复杂问题转化为简单确定的问题。简单且经过优化的基线模型往往优于更复杂的方法。谷歌的研究人员为常见的AI任务引入了不确定性基线库，来更好评估AI应用的稳健性和处理复杂不确定性的能力。”远望智库人工智能事业部部长、图灵机器人首席战略官谭茗洲指出。

虽然行业正在改变对于基准的态度，但目前基准测试研究仍然是一个小众研究。谷歌在一份研究中采访了工业界和学术界的53位AI从业者，其中许多人指出，改进数据集不如设计模型更有成就感。

谭茗洲表示，AI应用基准研究是构建国内统一大市场的内在需要，当前AI已经在国计民生的各类领域中得到广泛应用，更需要设立标准对AI模型进行全面有效的评估，片面追求和采用高分AI模型，可能会让模型在复杂极端场景下出现“智障”行为，并且可能由于训练和推理性能的低效，造成不良社会影响、经济损失和环境破坏。

谭茗洲强调，AI应用基准研究关乎国家战略。针对重要领域，建立我国自己的AI基准测试标准、AI数据集、AI模型评估标准等迫在眉睫。

据了解，西安电子科技大学的DvcLab也在AI基准测试这个领域进行了前瞻性研究，特别是针对AI应用基准测试中数据集的整体质量与动态扩展两个关键问题，正在开发可在线协作的数据标注与AI模型研发托管项目，并计划今年陆续开源，正在为构建国家AI基准评估标准体系进行积极探索。