Synth Daily

19,023 个人体基因的助记肖像

这个项目旨在通过一种新颖的记忆辅助方法,让复杂的分子生物学变得更容易理解。它将大约 19,000 个人体蛋白编码基因,通过一套系统规则,映射成具有特定性别、体重、年龄、服饰和颜色的“角色”。例如,基因的重要性决定了角色的颜色深浅,而发现年份则对应其年龄。利用 AI 生成这些角色的图像后,一个名为 Iconoplasm 的浏览器插件会在网页上高亮基因名称,并通过悬浮卡片展示其角色形象,从而将抽象的数据转化为生动的故事和视觉记忆。

问题的根源:抽象信息难以记忆

许多人,即使是专业人士,也发现分子生物学的抽象概念极难记住。相比之下,我们的大脑却能毫不费力地记住《权力的游戏》中复杂的家族谱系、联盟和地理位置。这是因为大脑更容易处理和记忆那些富含人类可理解意义的故事和角色。

我可以把这样的段落读五六遍,写在抽认卡上,输入到 Anki 里,但几周后我的大脑仍然拒绝理解或记住它们。

这个项目的核心想法是:我们是否能创造一个像《权力的游戏》一样引人入胜的故事,而这个故事的结构实际上同构于分子生物学中最重要的路径?随着大语言模型和图像生成技术的发展,这个想法变得可行。

为什么是基因,而不是细胞?

像《工作细胞》这样的作品已经尝试将细胞人格化,这对于生理学初学者来说很有趣。然而,细胞类型的边界是模糊且动态的,一个细胞今天可能是一种类型,明天又是另一种。

相比之下,蛋白编码基因的数量(约 19,000 个)是稳定且明确的。因此,更合理的记忆映射是:

  • 细胞 是载具、城市或袖珍宇宙。
  • 基因 是居住在其中的角色。

如何将基因数据转化为角色特征

为了给 19,000 个基因角色生成视觉设定,需要建立一套将基因数据转化为角色特征的“同构”规则。

  • 性别 → 蛋白质跨膜状态

    • 男性 = 跨膜蛋白(穿过细胞膜的蛋白质)。
    • 女性 = 溶解性蛋白(在细胞内自由移动的蛋白质)。
    • 这个设定让大约 73% 的基因角色为女性,27% 为男性。
  • 体重 → 蛋白质质量

    • 一个简单的换算:45 公斤 的角色体重对应 45 千道尔顿 (kDa) 的蛋白质质量。
  • 年龄 → 基因发现年份

    • 以 2020 年为基准点,一个在 2000 年被命名的基因,其角色年龄就是 20 岁。
    • 这个规则让那些更早被发现、通常也更重要的基因,看起来年龄更大
  • 时尚风格 → 蛋白质家族 (Pfam clan)

    • 蛋白质的结构域家族(如“β-螺旋桨”)被映射到不同的时尚美学风格(如“哥特”、“学术风”)。
    • 这是一个极具挑战性的映射过程,最终借助大语言模型,通过大量迭代和微调才得以实现。
    • 一个有趣的巧合是:9 个肽酶家族正好对应了美学维基上的 9 种哥特风格。
  • 奇幻特征 → 基因符号词根

    • 拥有相同词根的基因(例如,大量嗅觉受体基因 OR1A1, OR1A2 等)会共享一种独特的奇幻特征,以增强辨识度。
  • 颜色 → 多项指标的组合 这是最复杂的一项映射,它将基因的三个关键属性转化为颜色的三个维度:

    • 亮度 → 突变容忍度:基因对突变越不容忍(意味着它对生存至关重要),角色的颜色就越深(黑)。反之,那些冗余或非必需的基因颜色则越浅(白)
    • 饱和度 → 组织特异性:在所有细胞中都表达的“管家基因”颜色是灰色。而只在特定组织中表达的基因,颜色则会非常鲜艳
    • 色相 → 基因名称首字母:这主要是为了助记,当你记得角色的主色调时,就能猜到其名字的第一个字母。

从数据到图像:生成与工具

基于以上规则,每个基因都会生成一段详细的角色描述文本。例如,基因 COASY 的描述片段:

她穿着一件鸽灰色羊毛绉纱夹克……裙子下面是一件奶油色真丝衬衫,领口是中式立领……她看起来像是要去和某个她已决定要摧毁的人喝茶。六十二点三公斤,二十六岁,女性……她通过在战场上布满丝线来战斗……当丝线绽放时,她始终保持着宁静,而触碰到它的一切都被分崩离析。

随后,这些描述被输入 AI 图像生成模型(本项目选用 Anima),创造出角色的视觉形象。

为了让这些图像真正发挥记忆辅助的作用,作者开发了一个名为 Iconoplasm 的浏览器插件:

  • 它会自动高亮网页上出现的所有人类基因名称
  • 当鼠标悬停在基因上时,会弹出一个显示其角色形象和信息的卡片
  • 这套系统通过不断的重复曝光,帮助用户建立基因名称与视觉形象之间的强关联。

将生物通路看作故事

通过这种“角色化”的视角,许多复杂的分子生物学场景可以被解读为充满戏剧性的故事。

  • 癌基因诱导的细胞凋亡

    • 反派:MYC、HRAS 等基因试图在未经许可的情况下启动细胞分裂。
    • 英雄:TP53、BAX 等基因宁愿启动自毁程序,也不让癌症发生。
  • 白细胞的跨内皮迁移

    • 当感染发生时,白细胞需要在血管中减速、黏附,并穿过血管壁到达问题区域。
    • ITGAL 和 ITGB2 等基因负责在求救信号处“停下”,而 RAC1、CDC42 等基因则控制其移动,安全穿透屏障。
  • 不安全的细胞年轻化

    • 试图通过“表观遗传时钟逆转”来抗衰老,可能会意外激活体内潜伏的癌前突变。
    • 潜在风险:KRAS、PIK3CA 等癌基因在生命过程中悄悄积累突变。
    • 干预手段:POU5F1、SOX2 等“重编程因子”被引入,它们移除了细胞再生的障碍,但也可能为癌症打开了大门。

挑战与未来展望

这个项目仍处于早期阶段,并面临一些挑战:

  • 数据不完整:并非所有 19,000 个基因都有完整的可用数据。
  • 版权问题:生成式 AI 内容的法律地位尚不明确,但作者希望所有图像和设计都能被自由使用。
  • 艺术家权益:项目短期内使用了艺术家名字作为风格提示,但提供了艺术家申诉和屏蔽的渠道,长期计划是转向不依赖艺术家姓名的生成模型,或在资金允许的情况下委托人类画师创作。

最终,这个项目的目标是依靠社群的力量,不断优化和完善每个基因的角色形象,让分子生物学的学习过程变得更加直观、生动和难忘。