每日科技摘要-06-29-早报

开源模型在安全任务上追得很快，但结果不只看模型本身，也看外部工具和流程。另一边，开发者还在补模型蒸馏、行为理解和敏感文件隔离这些基础问题。

GLM 5.2 在我们的基准测试中击败了 Claude：Semgrep 做 IDOR 漏洞检测时发现，GLM 5.2 在几乎没有额外辅助的条件下，F1 达到 39%，高于 Claude Code 的 32%，成本也很低。文章的核心结论是：模型很重要，但外围工具同样决定结果。
中国的 Z.ai 声称在网络安全领域可与 Mythos 媲美：智谱发布的 GLM-5.2 被认为在部分安全场景接近 Anthropic 的 Mythos。可下载、可本地运行让它更灵活，也让被滥用的风险更现实。
黑盒大语言模型的知识蒸馏：这篇论文提出 Proxy-KD，用代理模型把黑盒大模型的能力更高效地转给小模型。实验结果显示，它比常见黑盒蒸馏方法更好，有时也超过传统白盒方法。
大语言模型能通过镜像测试吗？：作者偷偷篡改模型输出，观察模型会不会发现“这不是我原本要说的话”。结果显示，模型有时会察觉异常，有时会把异常学成自己的新习惯。
OpenAI Codex 仍有一个关于排除敏感文件的方法问题尚未解决：开发者希望 Codex 支持明确的忽略规则，防止 .env、密钥、证书等文件被读取或发给模型。这个需求迟迟没定，说明 AI 编程工具的默认安全边界还不够清楚。

AI 已经不只是写代码和聊天。它开始直接碰到考试、公堂和创作合同，旧问题没有消失，只是换了新外壳。

布朗大学教授谴责考试中大规模 AI 作弊行为：布朗大学一名教授在期中考试中发现至少 50 名学生涉嫌用 ChatGPT 作弊，但校方反应被指过于冷淡。事件让 AI 时代的考试监管和学术诚信问题更难回避。
检方在帕利塞兹火灾审判中将 ChatGPT 对话记录作为证据：洛杉矶一起纵火案中，检方把 ChatGPT 聊天记录也作为证据之一。但陪审团并不买账，案件最终流审，说明这类记录的证明力仍有很大争议。
Suno 推出 Spark 孵化器计划，为其 AI 机器输送独立艺术家：Suno 向独立音乐人提供资助和推广，但条件包括较宽泛的作品授权、衍生使用许可，以及限制负面发言的条款。争议点很直接：扶持是真的，拿作品喂模型也是真的。

AI 热潮正在把整条算力链往上推。内存价格、HBM 供给、超算榜单和资本市场都在跟着变。

1960-2026 年历史内存价格：这个数据集把 DRAM、NAND 和 HBM 的每 GB 价格按时间展开，能清楚看到几十年的下降曲线，以及近年 AI 带来的新变化。它也给出了数据来源、更新方式和局限，适合用来做长期判断。
为什么华尔街认为美国存储芯片制造商美光是下一个英伟达：AI 数据中心拉高了 DRAM、NAND 和 HBM 需求，美光业绩和股价因此大涨。市场看好它吃到 AI 红利，但存储行业一向周期性很强，热度能持续多久还不好说。
中国声称拥有全球最快的超级计算机：中国的 LineShine 据称以超过 2000 exaflops 登顶 TOP500，重新拿回全球第一。值得注意的是，它靠的是大规模国产处理器而不是 GPU，但能耗明显偏高。

多国都在用“保护儿童”或“公共安全”推动更强的身份核验和通信扫描。问题是，平台一旦必须知道你是谁，匿名和私密通信就会先受伤。

《KIDS 法案》将要求进行年龄验证才能上网：EFF 警告，美国这项打包法案会把年龄核验压力推给平台，成年人也可能被迫出示证件。它还可能带来更重的内容审查，并影响私信和加密通信。
欧盟将在闭门会议中就“聊天控制”立法：欧盟正推进对私人消息的大规模扫描方案，支持者说是为了打击犯罪，反对者担心它会削弱端到端加密和匿名通信。争议不仅在内容，也在闭门谈判的推进方式。
澳大利亚将社交媒体禁令的最高处罚加倍：澳大利亚把违反未成年人社交媒体禁令的最高罚款翻倍，并赋予监管方更大取证权。方向很明确：不只立法，还要逼平台证明自己真的在拦人。
Flock 摄像头追踪的不只是你的车牌，而且正在迅速普及：这类摄像头不仅识别车牌，还能用自然语言搜人和物。它们确实能帮警方破案，但误判、滥用和大规模共享数据的风险也在一起扩大。

车企还在谈 AI，但到了质量和安全环节，经验工程师和监管调查比宣传更有分量。

AI 失灵后，福特重新聘用“老将”工程师：福特承认 AI 和自动化质量系统没达到预期，于是重新找回 350 名资深工程师，把关零部件问题。它想说明一件事：制造业里，老经验还不能轻易拿掉。
TechCrunch 出行：所有目光都聚焦特斯拉 FSD：特斯拉 FSD 在致命事故后继续受到美国监管机构调查，安全压力仍在上升。与此同时，Waymo 继续扩车队，行业分化越来越清楚。
美国曾经要求最先进的技术，如今却在禁止它：这篇评论认为，美国正用关税和限制把更便宜、更先进的中国电动车挡在门外。对消费者来说，结果很简单：选择更少，竞争也更弱。

不少开发者在回到一个很朴素的方向：自己做，少依赖，能看懂，也能改。

Librepods：解放版 AirPods：这个项目让 AirPods 在 Linux 和 Android 上也能用上一部分苹果专属功能，比如电量显示、降噪切换和自动连接。它离完整替代还很远，但已经很实用。
Show HN：Bash4LLM+——一个轻量、零依赖的 Bash 封装，用于调用 LLM API：项目用单个 Bash 脚本封装 OpenAI 兼容接口，强调可审计、少依赖和安全约束。适合想把 LLM 接到终端脚本里的开发者。
Show HN：NanoEuler——从零开始，用纯 C/CUDA 实现的 GPT-2 规模模型：作者不用 PyTorch，直接用 C/CUDA 把分词、训练、微调和推理全部手写了一遍。它不是为了追求最强效果，而是为了把模型训练过程讲清楚。
用 Lemote Yeeloong 笔记本和 OpenBSD 与“龙”周旋：一篇很长的折腾记录，围绕龙芯老笔记本、OpenBSD 移植、启动流程和硬件兼容问题展开。更像硬件考古，但也让人看到“自由软件跑在冷门平台上”有多难。
检查航天飞机 I/O 处理器的电路板：这篇文章拆解了航天飞机 I/O 处理器的板卡和工作方式，解释它如何在冗余总线和实时任务之间分配计算。内容很老，但工程思路一点也不过时。

流媒体正在把“少打扰”变成更贵的选项，而监管目前只是在修最表面的那层问题。

无广告流媒体如今已成奢侈品：主流平台一边涨价，一边把广告套餐变成默认选项。过去“便宜又无广告”的卖点正在消失，无广告反而成了高价特权。
加州针对流媒体广告噪音过大的法律将于 7 月 1 日生效：加州开始限制“比节目更响”的流媒体广告。它能解决一个烦人的小问题，但解决不了广告越来越多这件更大的事。