Synth Daily

Brain-IT:基于脑交互Transformer的fMRI图像重建

Brain-IT 提出了一种从功能性磁共振成像 (fMRI) 脑部扫描数据中重建图像的新方法。其核心是一个名为 脑交互变换器 (BIT) 的模型,该模型通过将不同受试者大脑中功能相似的区域进行聚类和信息整合,来预测图像的 高级语义内容低级结构布局。通过这种方式,它能生成与原始图像高度一致的重建结果,在保真度上显著超越了现有技术。该方法的最大亮点在于其高效性:仅使用一名新受试者 1 小时的数据,就能达到其他方法需要 40 小时数据才能实现的重建效果。

Brain-IT 的核心方法

当前从 fMRI 重建图像的方法,其生成结果往往与人们实际看到的图像存在较大偏差。Brain-IT 通过一种受大脑启发的方法来解决这一挑战,其关键在于 脑交互变换器 (BIT) 架构。

  • 跨脑信息整合: 该方法的核心是将功能相似的脑体素(大脑活动的最小测量单位)聚类。这些功能集群在所有受试者之间共享,成为整合单个大脑内部及多个大脑之间信息的基石。
  • 高效训练: 模型的所有组件都在所有集群和受试者之间共享,这使得模型可以用有限的数据进行高效训练。

重建图像的双重引导策略

为了精确指导图像的生成,BIT 会预测两种互补的、局部化的图像特征:

  • 高层语义特征: 用于引导扩散模型生成具有 正确语义内容 的图像。这确保了重建图像“看起来像什么”。
  • 底层结构特征: 用于初始化扩散过程,为图像提供一个 正确的粗略布局。这确保了重建图像的“基本结构”是正确的。

这种设计使得信息能够从大脑体素集群直接流向局部化的图像特征,从而实现更精确的控制。

通过这些原则,我们的方法能够从 fMRI 中忠实地重建所见图像,并在视觉效果和标准客观指标上超越当前最先进的方法。

Brain-IT 工作流程概览

整个重建流程首先通过 BIT 将 fMRI 信号转化为有意义的图像特征,然后利用这些特征引导一个扩散模型来生成最终图像。

  1. 特征预测: BIT 利用一个所有受试者共享的 体素到集群 (V2C) 映射,将 fMRI 信号转换为图像特征。
  2. 底层分支: 首先,一个“底层分支”利用 VGG 特征重建出一个粗略的图像。
  3. 语义分支: 随后,这个粗略的图像被用作“语义分支”的初始输入,该分支利用语义特征来引导扩散模型,最终生成精细、高保真的图像。

关键成果与优势

Brain-IT 在与现有主流方法的对比中展现出明显优势,无论是在数据充足还是数据有限的情况下。

  • 高保真重建: 在使用 40 小时训练数据时,Brain-IT 生成的图像在语义内容和低级视觉属性上都更好地保留了原始图像的特征。
  • 卓越的数据效率: 即使只使用 1 小时的受试者特定数据,Brain-IT 的重建效果也比其他方法更忠实于原始图像。
  • 量化指标领先: 在 8 项衡量重建质量的低级和高级客观指标中,Brain-IT 在其中 7 项上全面超越了所有基准方法。

此外,仅使用一名新受试者 1 小时的 fMRI 数据,我们就能取得与当前方法使用完整的 40 小时记录训练后相当的结果。