Synth Daily

AI #174:你就是它

这篇内容探讨了人工智能领域的最新进展和争议。关键议题包括新开源模型 GLM-5.2 的发布、能以“协作智能体”形式接入 Slack 的 Claude Tag、以及专注于健康问答的 GPT-5.5 Instant。文章深入分析了 AI 在代码审查、医疗诊断、媒体内容生成和学术检测等领域的应用及其风险,特别关注了 MidJourney 图像扫描仪和 AI 生成文学作品引发的激烈辩论。此外,内容还审视了 AI 监管与安全框架的进展,如谷歌的 AI Control 路线图和白宫就“越狱”严重性评估的合作。最终,文章指出 AI 的能力正迅速发展,足以改变组织和社会的运作方式,但其安全、治理及人类制度能否跟上,仍然是一个巨大的未知数。

新模型与新功能

  • GLM-5.2: 这是目前最强的开源模型,尽管运行成本较高。它可能适用于需要完全本地或私有化运行的智能体,但并非普遍适用。有人认为它为开源智能体带来了“能力阶跃”,使其首次能在真实研究任务中发挥作用。

  • Claude Tag: 这是一个将 Claude 集成到 Slack 的新系统。用户可以通过 @Claude 启动一个实例来处理编码任务。它被设计成一个具有主动性、记忆和多人协作能力的“团队成员”。

    这是与大语言模型交互的第三个主要范式。第一是网站,第二是桌面应用。这第三个范式是,它是一个独立的、持久的、异步的实体,拥有组织范围的工具和上下文,与人类团队并肩工作。—— Andrej Karpathy (Anthropic)

  • GPT-5.5-Instant for Health: OpenAI 优化了免费版的 GPT-5.5 Instant,使其在健康相关问题上的表现与顶尖模型相当。它能更好地识别紧急情况、解释不确定性,并简化复杂信息。OpenAI 称,在数十亿条健康相关信息中,被标记为可能存在事实问题的回复比例在过去两个月下降了超过 71%。

AI 的实际应用与争议

AI 辅助工作与学术

AI 已被用于多种日常任务,例如:

  • 自动更新和修复旧的学术论文。
  • 帮助临床医生重新审查悬而未决的儿科罕见病案例。
  • 在编程中自动执行循环任务,如创建用户故事、测试和修复错误。

然而,AI 在学术领域的应用也带来了新的问题。加州大学伯克利分校的计算机科学课程中,由于学生依赖 AI 作弊和数学基础薄弱,不及格率(F 评级)飙升了 3 至 11 倍

AI 生成内容与“废料 (Slop)”之争

AI 生成的内容正在渗透到各个领域,引发了关于其质量和真实性的辩论。

  • 有国务院官员使用 AI 撰写文章,警告他国不要建立自己的主权 AI 系统。
  • 一篇明显由 AI 生成的故事赢得了一项文学奖,其开头是这样写的: > 树比她先知道——它在等待。迪帕后来才意识到这一点,当清明回归时——如果它曾经回归的话。此刻,这份知晓属于比她更古老、更根深蒂固、更有耐心的东西……

许多人认为这种文字是“废料”,缺乏真正的创造力,而另一些人则认为文学奖的评判标准本身就存在问题。核心争议在于,如果未披露使用 AI 的作品能够获奖,那么这些奖项的价值何在。

MidJourney 扫描仪与医疗诊断

MidJourney 推出了一种新的图像扫描仪,引发了关于其在医疗领域潜力的激烈讨论。

  • 支持方认为: 廉价、高频的扫描能提供大量随时间变化的详细数据,这对于发现疾病和监测健康(如体脂分布)是革命性的。这是一种“信息越多越好”的观点。
  • 反对方则担忧: 这会产生大量假阳性结果,导致过度医疗和不必要的焦虑。他们认为医疗系统尚未准备好明智地处理这些新数据,并指出传统医学界对大规模筛查持谨慎态度。

当你的系统如此糟糕,以至于你预期更多、更好的信息会先验地带来坏处时,那么你正在实践汉森式医学。这样的系统迫切需要改革。

与此同时,新的 AI 诊断工具(如 EchoNext)已经显示出实际效果,它能通过分析心电图发现人类医生可能忽略的严重心脏问题,甚至挽救生命。

安全、控制与监管

谷歌的 AI Control 路线图

谷歌发布了一份名为 AI Control Roadmap 的文件,提出了在对齐失败情况下的“纵深防御”策略。

  • 核心思想: 将 AI 系统视为“不受信任的”内部员工,并建立能够抵御其潜在敌对行为的防御体系。
  • 关键挑战: 随着 AI 变得越来越智能,监控其推理过程将变得不可行。报告承认,面对超级智能 AI,AI 控制最终将变得不可行。
  • 检测与响应: 文件提出了从 D1 到 D4 的检测等级(基于 AI 的意识水平)和从 R1 到 R3 的响应等级(从隔离到完全停机)。

白宫与 Anthropic 的合作

在 Fable (Mythos) 模型引发争议后,白宫和 Anthropic 正在合作创建一个正式的技术评估框架,用于量化“越狱”事件的严重性。这标志着监管思路的转变:从追求“完全免疫”转向建立一套评估和应对风险的标准化方法。

芯片安全与出口管制

美国政府怀疑一台 ASML 的极紫外光刻机(EUV)可能已被运往中国,尽管 ASML 否认曾向中国发货。此事凸显了围绕高端芯片技术的地缘政治紧张局势。

  • EUV 光刻机对于制造前沿芯片至关重要,其尺寸如同一辆校车,需要持续维护。
  • 如果机器真的进入中国,即使无法立即投入生产,其被逆向工程的风险也极高。

社会影响与观点

政治与游说

  • Alex Bores 在纽约第 12 选区竞选失败: 由 OpenAI 和 a16z 资助的政治行动委员会(PAC)花费数百万美元反对候选人 Alex Bores,虽然他最终以微弱劣势落败,但这一事件显著提升了 AI 监管议题的政治关注度。胜选者 Micah Lasher 同样持支持 AI 监管的立场。
  • Dean Ball 加入 OpenAI: 知名 AI 政策评论员 Dean Ball 加入 OpenAI,领导一个名为“战略未来”的新团队,负责前沿 AI 政策,包括灾难性风险和劳动力市场影响等。许多人希望此举能改善 OpenAI 的政策立场。

对未来的看法

  • 两种“药丸”: 存在两种认知状态——“AGI pilled”(相信通用人工智能即将到来并带来巨大影响)和“ASI pilled”(相信超级智能将彻底改变一切,可能导致人类失控)。后者更难被接受。
  • 人类与 AI 的竞争: 有观点认为,人类的“肉体大脑”在速度和基底上无法与机器智能竞争。 > 当你认为你的肉脑能在极限状态下与 AI 竞争时,你其实是相当愚蠢的。—— roon (OpenAI)
  • 对风险的担忧: 包括英特尔前 CEO 和著名学者弗朗西斯·福山在内的人士,都公开表达了对超级智能可能带来的生存风险的担忧。然而,华盛顿的许多政策制定者仍然认为 AI 的唯一风险是“滥用”,并且这个问题“接近解决”。这种脱节令人担忧。