“我有一个大年夜胆的设法主张”?Meta AI 新技能让你的思维图像一目了然!_图像_作者
夕小瑶科技说 原创作者 | 付奶茶
大家之前是否想象过未来的技能进步会带来读脑器,打算界面是否有可能超越触摸屏、键盘进入我们思维内部读取我们脑袋中所想。只管当前我们社会尚未达到这一阶段,但我们确实逐渐靠近这一愿景!
不久前,Meta AI宣告了一项名为Image Decoder的深度学习运用,由FAIR-Paris与巴黎文理大学(PSL)巴黎高师(ENS)互助完成。该研究实现了一个主要的里程碑,即可以将人类大脑活动险些实时地转化为高精度图像,展示不雅观察者的视觉或思维内容。这一系统由图像编码器、大脑编码器、图像编码器组成,在Meta在4月份发布的自监督学习模型DINOv2[1]上演习,利用脑电旗子暗记(Magnetoencephalography, MEG)对人脑活动进行解码和可视化。
这项事情是Meta长期研究操持的一部分,其终极目标是构建一个完备仿照人类学习和推理能力的AI系统。接下来让我们看看他们究竟是若何做的吧!
论文题目:《Brain decoding: Toward real-time reconstruction of visual perception》
论文链接:https://ai.meta.com/static-resource/image-decoding
文章速览在这里我们首先先先容一下脑磁图(Magnetoencephalography,MEG)是什么~脑磁图被广泛用于脑功能检测技能,是对脑内神经电流发出的极其微弱的生物磁场旗子暗记的直接丈量,并记录全体大脑的瞬态数据。通过打算机综合影象信息处理,将得到的旗子暗记转换成脑磁曲线图,等磁线图等。
Image Decoder将机器学习和脑磁图(MEG)结合在一起。首先,剖析标记过的数据,然后对新数据进行检讨并只管即便精确地标记。然后利用脑磁图在头部外侧丈量记录大脑活动,利用仪器捕捉人类在思考时大脑磁场的眇小变革。这样的做法可以在检索阶段从一组候选的图像中选择精确的图像,然后通过演习直接预测潜在的表示用来调度天生图像模型。
▲MEG记录连续地与图像的深度表示对齐,然后可以在每个瞬间调节图像的天生。
大脑编码器作者ConvNet架构进行了调度,标记为fθ,以学习从MEG窗口Xi ∈ RC×T到潜在图像表示zi ∈ R F的投影,针对每个输入进行单一潜在值的回归,并添加了一个韶光聚合层和两个MLP头部1,用于从F′投影到目标潜在维度F。
图像编码器图像编码器学习将 MEG 旗子暗记与这些构建出来的图像进行嵌入对齐。作者利用卷积神经网络架构去提取特色,在此根本之上,添加了时序聚合层,以减少维度,节约打算开销。
天生解码器作者从预演习的嵌入图像中天生图像,利用了基于三个嵌入条件的潜扩散模型:CLIP-Vision(257 tokens × 768), CLIP-Text(77 tokens × 768)和变分自编码器潜AutoKL(4 × 64 × 64),凑集这些以及大脑表征天生可信的图像。
演习目标作者提出的pipeline有多个部分,因此采取多目标优化策略,并在图像检索中采取CLIP Loss。
为了评估天生图像的质量,利用MSE Loss:
末了采取凸组合方办法结合CLIP和MSE进行演习:
实验剖析数据集
作者选择在THINGS-MEG数据集上测试方法的有效性,对四位参与者包括两名女性和两名男性,均匀年事23岁)产生的63,000个历史MEG数据进行演习。这些数据来源自患者不雅观看来自12次对话中记录的22,448张不同的图片以及原始图库中200张重复的图片。以这种办法,研究员通过图像解码器可以不雅观察被试者的脑活动看到他们正在想象的内容。
▲THINGS-MEG1
机器学习是大脑表征的有效模型作者采取线性岭回归模型(Linear Ridge regression models)来验证检索图像的性能。在实验结果中,所有图像的解码效果都明显高于随机预测的检索性能,在监督学习和文本/图像对齐模型(如VGG和CLIP)产生了最高的检索分数。
机器学习是拟合大脑反应过程的有效工具
作者将这些线性基线与相同任务上演习的深度卷积神经网络架构进行比较,即在给定MEG窗口的情形下检索匹配的图像。利用深度模型相对付线性基线实现了7倍的改进。多种类型的图像嵌入产生良好的检索性能,个中VGG-19(监督学习)、CLIP-Vision(文本/图像对齐)和DINOv2(自监督学习)的前5准确率分别为70.33 ± 2.80%,68.66 ± 2.84%和68.00 ± 2.86%。
时序级图像检索
作者考试测验了韶光分辨的图像检索实验,考试测验拟合大脑中是处理和识别图像的过程。首先对韶光进行了切割(250毫秒长的滑动窗口),每次只看大脑处理图像的一小段韶光。拟合大脑研究每一帧的***。在图像未呈现之前,所有的模型表现都很差,就像是随机预测一样。首次明显的峰值可以在0到250毫秒的窗口上不雅观察到,随后在图像结束后涌现第二个峰值,在图像消逝后,它们的性能又迅速规复到了随机预测的水平。而论文中指出,DINOv2在图像消逝后表现仍旧表现出了特殊好的检索性能。
为了更好理解解码指标,作者构建了一个由原有测试集与3659张参与者未见过的额外图像合并而成的附加集,结果上来看,检索到的图像每每来自精确的种别,比如“演讲者(Speaker)”或“西兰花(brocoli)”,紧张涌如今前几个子窗口(t≤1秒)。
从MEG旗子暗记中天生图像
虽然检索任务展现了令人鼓舞的效果,但是他哀求真实的样本必须存在于检索集中,这限定了实践中利用的可能性。为了缓解这样的限定,作者演习了三个不同的脑模块,用于预测利用的三个嵌入来天生图像(图5)。
天生的图像从评估结果中看相对不错,个中多个天生的图像与精确的实际种别相匹配。但是,天生的图像彷佛包含有关真实图像的低级视觉信息 虽在最佳的情形下,系统根据MEG数据准确地检索、重修图像的准确率达到了70%,这比过去的方法提高了7倍数。从结果中可以看出,图像解码器虽然可以顺利地从潜在图像库中获取一些大略的图片,例如西兰花、毛毛虫等,但是对付更加繁芜多样化的图像比如塔克斯、鳄梨酱料等成功率较低。
背后的伦理然而,这种技能真的符合伦理标准吗?
研究者们也意识到,这项技能打破的确带来了多个伦理问题。由于深入探查一个人的思维并将其可视化,是一种未被明确定义的新型侵入办法,这涉及到人类生理隐私的保护。
作者在这项技能在伦理隐私上的问题没能给出明确的回答,但是提到目前技能在处理一个人所看到过的详细物体和现实图像时表现最出色。而当个体被哀求想象一幅未曾见过的图像时,解码器的准确性就会显著降落。简而言之,得到受试者的赞许不仅是法律上的哀求,更是脑解码技能实现的基本条件。
此外,作者称如果一个人的脑活动图像是在未经赞许的情形下被解码,那么他们可以采取抗滋扰来抵抗这种情形,但是,这的的确地须要具备足够的意识和反应速率来反应他们正在处于这样的情形。
本文系作者个人观点,不代表本站立场,转载请注明出处!