理解大脑如何组织和访问空间信息,例如“我们在哪里”、“拐角处有什么”、“如何到达那里”,仍是一项巨大的挑战。该过程涉及从上百亿个神经元中调取一系列的记忆及存储其中的空间数据,而每个神经元又连接着上千个其他神经元。神经科学家已经确认了空间认知的关键元素,例如映射位置的网格细胞[1]。然而,要想对此进行更深入的研究,事情就变得棘手了:研究人员想要观察基于位置的有关图像、声音、和味道的记忆是如何流动和互相连接的,却不可能通过取出并研究人的大脑灰质切片来达此目的。
(相关资料图)
人工智能为此提供了另一条出路。多年来,神经科学家们利用了多种类型的神经网络(神经网络为大多数深度学习的应用提供了动力)来模拟大脑中神经元的放电。于近期的研究中,研究人员发现海马体作为一个对记忆至关重要的脑部结构其实是一种变相的特殊神经网络,这种神经网络被称为Transformer[2]。他们的新模型以一种类似大脑内部运作的方式来追踪空间信息,并且已经取得了显著成效。
-Kristina Armitage-
同时就职于斯坦福大学和牛津大学蒂姆·贝伦斯(Tim Behrens)实验室的认知神经科学家詹姆斯·惠廷顿(James Whittington)说:“现在我们知道了,这些大脑模型与Transformer模型相当,这就意味着我们的模型表现得更好并且更容易训练。”
惠廷顿及同事所做的研究提示我们,Transformer可以极大地促进神经网络模型模拟网格细胞及大脑其他部分进行运算的能力。惠廷顿表示,这些模型可以推动我们对人工神经网络的工作原理、甚至对大脑运算机制的理解。
在谷歌大脑(Google Brain)研究Transformer模型的计算机科学家大卫·哈(David Ha)表示:“我们并不是在尝试重新建造一个大脑,但我们能否创造出足以复制大脑所作所为的机制呢?”
Transformers在2017年作为一种处理语言的新型AI模型首次出现。这一模型是BERT[3]和GPT-3等引人注目的能够补全句子的程序中的秘密武器,而这些程序可以生成以假乱真的歌词、创作莎士比亚十四行诗并模仿客服代表。
Transformer的工作原理是一种被称为“自注意力”(self-attention)的机制,其中每个输入,不管是一个单词、一个像素、还是序列中的一个数字,总是与其余每个输入相连。而别的神经网络仅将输入与某些特定的输入相连。虽然Transformers最初是为语言任务而设计的,但后来它们在别的任务(比如图像分类和如今的大脑建模)中都表现得相当出色。
-Avalon Nuovo-
在2020年,由奥地利林茨大学(Johannes Kepler University Linz)的计算机科学家塞普•霍克瑞特(Sepp Hochreiter)带领的团队用Transformer改造了一个强大的、存在已久的记忆检索模型。这个被改造的模型名叫Hopfield网络(Hopfield network),在40年前由普林斯顿的物理学家约翰·霍普菲尔德(John Hopfield)首次提出。这些网络遵循一条通则:同时活跃的神经元在彼此之间建立更牢固的连接。
霍克瑞特和他的合作者留意到研究人员一直在寻找更好的记忆检索模型,在此之后,他们发现了一类新型Hopfield网络[4]检索记忆的方式和Transformers执行注意力的方式之间的联系。这些新型Hopfield网络由MIT-IBM沃森人工智能实验室(MIT-IBM Watson AI Lab)的霍普菲尔德和德米特里·克罗托夫(Dmitry Krotov)开发。与标准的Hopfield网络相比,新型Hopfield网络由于有更高效的连接而可以存储和检索更多的记忆。霍克瑞特的团队通过添加一个类似Transformers里注意力机制的规则来升级这些网络。
之后,在今年早些时候[5],惠廷顿和贝伦斯进一步改进了这种方法。他们修改了这些Transformer,使得模型不再将记忆视为线性序列(就像句子里的一串单词那样),而是将它们编码为高维空间中的坐标。研究人员口中的这一“扭转”进一步提升了模型在神经科学任务中的表现。他们还表明,该模型的数学基础和神经科学家在功能性磁共振成像(fMRI)扫描中观测到的网格细胞放电模式的模型一致。
贝伦斯(左)和惠廷顿(右)帮助证明了我们大脑中的结构在数学上与“Transformer”相似。
伦敦大学学院的神经科学家卡斯维尔• 巴里(Caswell Barry)说道:“网格细胞有这种令人激动的、美丽的、规则的结构,并具有那些不太可能随机产生的、醒目的放电模式。”上述的新研究则向我们展示了Transformer如何精确地复刻这些在海马体观测到的模式。巴里说:“他们认识到,Transformer可以根据以前的状态及其移动情况确定位置,而这正是传统的网格细胞模型描述的定位方式。”
近期的其他研究表明,Transformer也可以促进我们对大脑中其他功能的理解。2021年,麻省理工学院的计算神经科学家马丁·施林普夫(Martin Schrimpf)分析了43例不同种类的神经网络模型[6],来观察它们在预测由fMRI和脑皮层电图报告的人类神经活动测量结果上表现如何。他发现Transformer作为目前领先的、最先进的神经网络,几乎可以预测神经成像报告的所有变化。
此外,哈和计算机科学家同事Yujin Tang最近设计了一个模型[7],该模型可以通过Transformer有意地以一种随机、无序的方式发送大量数据,来模拟人体向大脑传递感觉信号。他们的Transformer可以像我们的大脑一样成功处理无序的信息流。
Yujin Tang表示:“神经网络只能硬性地接收特定的输入。”但在现实生活中,数据集通常变幻莫测,而大多数的AI模型无法据此调整。“我们想要试验一种具有快速适应性的架构。”
论文题目:The Sensory Neuron as a Transformer: Permutation-Invariant Neural Networks for Reinforcement Learning
DOI:https://doi.org/10.48550/arXiv.2109.02869
尽管存在这些进步的迹象,贝伦斯认为Transformer只是我们向最精确的大脑模型迈出的一步而已,而非探索的终点。他说:“我在这里必须要做一个持怀疑态度的神经科学家。例如,我不认为Transformers最终会是我们在大脑中处理语言的方式,即使它们是当前最好的语句模型。”
巴里说:“在预测‘我在哪儿’以及‘我将会看到什么’这方面,Transformer会是那个最高效的机制吗?老实说,现在就下定论还为时尚早。”
施林普夫也指出,即便是表现最好的Transformers也是有局限的。例如,它们在单词和短语方面表现良好,但在像讲故事这种更大规模的语言任务中却并不出色。
施林普夫说:“我感到这种Transformer的架构已经让我们处于理解大脑结构的正确框架中了,并且它还可以随着训练得到改善。这是一个很好的方向,只是这个领域太过复杂。”
参考文献
[1]https://www.quantamagazine.org/the-brain-maps-out-ideas-and-memories-like-spaces-20190114/
[2]https://www.quantamagazine.org/will-transformers-take-over-artificial-intelligence-20220310/
[3]https://www.quantamagazine.org/machines-beat-humans-on-a-reading-test-but-do-they-understand-20191017/
[4]https://papers.nips.cc/paper/2016/hash/eaae339c4d89fc102edd9dbdb6a28915-Abstract.html
[5]https://openreview.net/forum?id=B8DVo9B1YE0
[6]https://www.pnas.org/doi/10.1073/pnas.2105646118
[7]https://arxiv.org/abs/2109.02869
原文
https://www.quantamagazine.org/how-ai-transformers-mimic-parts-of-the-brain-20220912/
本文来自微信公众号“神经现实”(ID:neureality),作者:Stephen Ornes,,译者:Lemon,校对:P,编辑:M.W. l,36氪经授权发布。