每日科技摘要-03-08-晚报

AI：从“能写代码”走向“能长期维护”，同时争议也在升温

AI 一边在软件工程评测、自动化研究上加速落地；另一边，监管、生产力证据和“包装过度”的问题也更突出。

SWE-CI：通过 CI 评估 Agent 维护代码库的能力：提出基于持续集成循环的评测集，100 个任务来自真实项目的长期演进历史，重点看多轮迭代下的可维护性，而不只是一次性“写对答案”。
Autoresearch：自动搞定单 GPU nanochat 训练的智能体调研：用一个很小的训练框架，让代理在固定训练时间内不断改代码、跑实验、对比结果，展示“自动做研究”的最小可行形态。
如何在本地运行 Qwen 3.5：给出本地部署与量化运行思路，主打更长上下文和更低显存门槛，适合想在本机跑多模态/长文本的人参考。
如果有人愿意听，这就是一份 AI 路线图：跨党派宣言强调“人类主导”、法律责任和强制安全机制，甚至提出禁止某类超级智能开发，反映监管讨论在加速。
问 HN：为什么没有真正的研究能证明 AI 更高效？：讨论焦点是“个别案例很亮眼，但系统性提升证据不足”，也提到软件工程的复杂性让收益难快速外溢。
我才不请 LLM 当顾问：作者担心“快速给答案”会替代思考过程，带来似是而非的结论与学习能力退化。
Grammarly 的“专家审核”其实压根没有专家：被质疑用“名人专家”包装功能，但并无授权或真实参与，提醒用户别把生成建议当权威背书。

开发与基础设施：性能、部署、语言与工具都在补“长期可用”这课

从云主机性价比到 CI/CD 经验，再到语言/工具链细节，核心是减少不可控成本，提高可维护性。

2026 年云 VM 性能基准测试：对 7 家云厂商 44 种实例做 CPU 与性价比测试；新一代 AMD/Intel/ARM 各有强项，价格差异明显，建议优先选新 CPU 并善用预留/抢占策略控成本。
十年线上发布实战：从“运维把关、发布慢”走向自动化发布与可追踪，强调平台工程的价值是让开发能更快、更稳地把改动推到线上。
提醒：PyPy 可能处于缺乏维护的状态：社区开始公开提示 PyPy 支持在变弱，生态（如 numpy）也在调整；对依赖 PyPy 的项目是现实风险点。
WASM 写作笔记：总结 Rust + wasm-bindgen 的踩坑经验，重点在跨边界数据、命名约定、错误处理与句柄生命周期，目标是让 Wasm 项目更稳、更好维护。
Sem——语义化版本控制：在 Git 之上实现实体级差异对比：用 tree-sitter 做“函数/类级别”的差异与归因，尽量区分格式化与逻辑改动，适合代码审查、影响分析和重构期追踪。
C++ 单例的极致性能优化：对比两种单例实现的开销差异，结论是自定义构造时静态成员方案更省额外检查与锁成本。
时区数据库的奇妙反差萌：通过一地永久夏令时的变更，展示 IANA 时区库如何记录复杂历史；对做时间处理的人是“别想当然”的提醒。
Lobster 编程语言：面向游戏/图形的开源语言，主打静态类型、编译期内存管理和可直接编译到 C++ 的工程路径。
MonoGame：用 .NET 框架打造跨平台游戏：XNA 的开源延续，支持多平台与主机，适合 C# 做跨平台游戏的团队复用成熟生态。
Emacs 内部机制：在 C 里拆解 Lisp_Object（第二部分）：拆解 Emacs 用“带标签指针”在 C 里表示动态类型的做法，适合想读懂大型老牌系统代码的人。
Lisp 风格的 C++ 模板元编程：用 C++17 模板模拟延迟求值与列表操作，展示模板元编程能走到什么程度，更偏技术趣味与思路展示。

终端与消费硬件：手机市场分化加剧，“更便宜”与“更难做”同时存在

一边是成熟市场的品牌退场与缺乏创新；另一边是新兴市场要把价格压到极限，但供应链和税费让落地更难。

晚安，明天见：Arrows N 与富士通的退场：复盘 Arrows 衰落：性能与体验落后、运营商生态束缚、创新不足；即使被联想收购，想靠资源翻身也不容易。
力推 40 美元智能手机声势渐起，但成本门槛仍难跨：GSMA 联合非洲运营商推动超低价 4G 机，目标是让更多人上网；但硬件成本、税费与利润空间是最大阻力，能否规模化仍未知。

有趣但需要留心的浏览器能力：摄像头不仅能拍你，也能“测你”

浏览器端的传感能力越来越强，体验很酷，但隐私边界也更需要用户自己把关。

Show HN：一个怪玩意儿——用浏览器视频检测你的脉搏：用摄像头视频估算心率，并声称不展示画面；这类能力说明“可从图像推断出的信息”越来越多，使用前要想清楚授权与数据去向。