你在丛林的边缘出生,来到这个世界要学的第一件事,叫做“生存”,需要学会采集生活物资,知道猎杀或者躲避敌人。初始,你的水、食物数值为100,血量也是100;当水和食物二缺一时,就会在每个时间单位掉10滴血,血量变为0时,你将失去生命特征死亡。
在危机四伏的丛林中行走,除了掉血而亡,还有好几种死法,比如遭敌人猎杀成为“盘中餐”、不小心踩到致命岩浆等。此时,系统告诉你,当下是猎杀敌人的最佳时机,能快速积累助你“丛林逃生”的分数,但你可能错过击杀NPC获取升级装备的机会,你是要分数还是要装备呢?当背包装满时,你是选择卖掉部分攻击装备,腾出空间储存应急药物和生存物资,还是无论如何坚决不把武器装备拱手于敌人?
(资料图)
这些问题并非假设,而是AI在一场赛事中真实面临的选择。而将AI置于这种两难境地的,是超参数科技的研究员们。今年4月,他们依托Neural MMO(简称NMMO)学术环境,发起系列「NMMO海量AI团队生存挑战赛」,探索海量AI的智能决策能力。截至今日,AIcrowd平台数据显示,有1000多位选手参与其中,他们来自不同的国家,大多是行业从业者和高校学生。
一个海量AI智能决策“比武场”
在地球生命的早期,生物有机体非常简单。它们是微小的单细胞生物,几乎没有协调能力。然而,数十亿年的进化通过竞争、合作和自然选择,形成了复杂的生命形式,以及复杂的人类智能。
NMMO正是受此启发,模拟地球生命之间的竞争与合作,通过设计游戏规则、海量AI竞争与合作,以及标准的大规模强化学习算法,刺激AI在没有监督的情况下学习复杂的策略和技能,看是否能演进出更复杂的智能。它由麻省理工学院博士生Joseph Suarez开发,结合了大型多人在线角色扮演游戏(MMORPG)玩法,是一个面向强化学习、支持海量AI研究的学术环境。
对大多数游戏玩家来说,MMORPG并不陌生,风靡全球的《魔兽世界》就是最经典的MMORPG游戏。这类游戏的特点在于强社交属性,以及丰富的交互和持续更迭的游戏内容。NMMO很像游戏,不同的是玩家为AI,而非人类。
AI会作为玩家降生在游戏地图的边缘。整个地图是一个抽象的生态系统,设置了可供饮用的水、可获取食物的森林、碰到即致命的岩浆、可转化为存储食物资源的鱼和能生产高级魔法弹药的水晶石等16种自然资源或元素。每个AI拥有局部的“视野”,需要水和食物来生存,当身体中储存的水和食物低于一定量的时候,AI的生命值就开始下降。
NMMO中存在近战、远程、魔法三种攻击方式,三者互相克制,是一种石头剪刀布式的博弈。此外,AI之间除了互相攻击,还可以攻击NPC,由此获得金钱和盔甲、武器等装备。
AI们需要完成探索、觅食、战斗和升级装备等多重任务,并根据这些技能的等级计算分数。这是一场AI小队间的竞争,一支队伍的得分将由某一项最高的个体得分所决定。因此,AI小队需要实现高效分工合作,不同的AI承担不同的角色任务,以最优团队策略去获取游戏的最终胜利。
在这个过程中,AI与NPC、队友、敌方之间需要进行丰富的交互和博弈,非常考验AI自身的智能决策能力。AI要想在资源有限而竞争者众的环境中更好地生活,就要学会让步和协调双方利益,比如给队友送人头,甚至和敌方合作获取更好的装备。
一场硅基生命体的“社会实验”
在超参数科技的研究员陈嘉欣看来,NMMO的优势在于它是一个支持海量AI共存、交互,并涌现策略的生态系统。她所在的团队目前正围绕“AI社会”概念展开一系列的研究项目,其核心在于探索海量AI相互影响下所形成的自运转社会系统,而在强化学习领域颇具影响力的NMMO符合这类研究对环境的基本需求。
因此,超参数科技联合麻省理工学院、清华大学深圳国际研究生院,以及数据科学挑战平台AIcrowd,共同主办「NMMO海量AI团队生存挑战赛」的系列竞赛,并向全球AI研究者、爱好者发出邀请。
陈嘉欣介绍,不同于打麻将、斗地主这类任务定义简单而明确的游戏,NMMO是一个复杂的开放世界,有基本的采集、生存逻辑,也有战斗、装备系统,“AI需要做符合底层规则和逻辑的行为”。但这只是进行研究的基础条件,若想深入探索“AI社会”概念,促使海量AI涌现出更丰富、复杂的策略,研究员们需要对NMMO进行改良,重新设计交互、博弈机制。
在8月的新赛事中,研究员们引入了职业分工、毒圈机制、交易系统等新元素,通过加长决策链条进一步仿真现实世界的决策环境,将AI的决策难度再抬上一个等级。
新增的职业分工相当于是AI在这个虚拟世界中所承担的“社会角色”。相较一开始就设定好固定角色的普通游戏,NMMO赛事里的AI可以在八种不同的职业中进行自主选择。研究员们很喜欢这种有灰度的设置,期待看到AI在博弈中演化出属于自己的角色。事实正是如此,赛事平台视频回放显示,AI小队在自主探索的过程中,逐渐出现了队内的职业分工,这种行为也在一定程度上提升了小队的整体效率。
而与职业分工息息相关的另外两种设定——装备系统和交易系统,则使AI小队之间涌现出更加丰富、复杂的交互行为,AI们不再局限于互相攻击、抢夺资源,可以自由买卖装备、食物等物品,并根据不同的情况给物品定价。因此,有参赛者选择避开冲突性高的进攻型策略,转向致力于“搞钱”的迂回路线。研究者们观察到,有AI小队演化出了“低买高卖”的经济学行为,在众多的竞争队伍中赢得自己的相对优势,最终也取得不错的比赛成绩。
无论是整个团队做好高效分工去正面对战,还是另辟蹊径去集体遨游商海,都让NMMO呈现出更接近人类社会的面貌。如果说最初的NMMO更像纯粹的自然界,只为活命的AI更像野生动物;那经过更新迭代的NMMO俨然已迈入人类社会,AI们也开始了商业文明之旅。
一群探索技术边界的“先行者”
在上千个参赛者提交的比赛策略中,其实没有关于AI智能决策问题的直接答案,但研究员们认为NMMO是“现实世界在虚拟环境的映射”,研究AI在环境中的每一个行动、决策都能带来新的启发和思考,最终会向着解决现实世界中具有挑战性的实际问题转化,真正帮助相应领域的发展。
超参数科技高级研发总监朱晓龙观察到,在数字化、智能化转型的时代大背景下,其实存在非常多智能决策应用场景,比如智能运输调度、经济政策制定等,而NMMO系列挑战赛或能起到助推器的作用。比如,Salesforce Research和哈佛大学的研究,就是通过在类似的仿真环境中观察AI对税收政策的反应,帮助使用者推演出最优解决思路,最后实践证实了AI对于政策设计和提高社会福利具有促进意义。
随着AI研究者和行业实践者更多地进行联合探索,AI近几年已经逐步成为“显学”,从仅能被感知到影子的“推荐算法”变为产品的核心组成部分,近期风头无两的“AI绘画”正是典型代表。这一切从Google两个研究员开始,2012年他们在实验室训练深度学习网络,指导计算机去画猫脸图片。历经十年技术更迭、沉淀,AI绘画终于迎来爆发,出现如DALL·E2、Midjourney、Stable Diffusion等令人惊叹的成果,并在短短几个月内实现飞速更新和广泛应用。
放在十年前,人们很难想象的是,有一天,AI会跑到文学艺术的领地上来。正如当下,研究者们也很难预料NMMO赛事所做的技术探索未来会迸发出怎样的革新力量,最终能创造出怎样的全新物种。唯一可以确定的是,AI作为数字智能时代最受关注的前沿技术之一,将深度融入人类的未来生活。