AI:从“能写代码”走向“能长期维护”,同时争议也在升温
AI 一边在软件工程评测、自动化研究上加速落地;另一边,监管、生产力证据和“包装过度”的问题也更突出。
- SWE-CI:通过 CI 评估 Agent 维护代码库的能力:提出基于持续集成循环的评测集,100 个任务来自真实项目的长期演进历史,重点看多轮迭代下的可维护性,而不只是一次性“写对答案”。
- Autoresearch:自动搞定单 GPU nanochat 训练的智能体调研:用一个很小的训练框架,让代理在固定训练时间内不断改代码、跑实验、对比结果,展示“自动做研究”的最小可行形态。
- 如何在本地运行 Qwen 3.5:给出本地部署与量化运行思路,主打更长上下文和更低显存门槛,适合想在本机跑多模态/长文本的人参考。
- 如果有人愿意听,这就是一份 AI 路线图:跨党派宣言强调“人类主导”、法律责任和强制安全机制,甚至提出禁止某类超级智能开发,反映监管讨论在加速。
- 问 HN:为什么没有真正的研究能证明 AI 更高效?:讨论焦点是“个别案例很亮眼,但系统性提升证据不足”,也提到软件工程的复杂性让收益难快速外溢。
- 我才不请 LLM 当顾问:作者担心“快速给答案”会替代思考过程,带来似是而非的结论与学习能力退化。
- Grammarly 的“专家审核”其实压根没有专家:被质疑用“名人专家”包装功能,但并无授权或真实参与,提醒用户别把生成建议当权威背书。
开发与基础设施:性能、部署、语言与工具都在补“长期可用”这课
从云主机性价比到 CI/CD 经验,再到语言/工具链细节,核心是减少不可控成本,提高可维护性。
- 2026 年云 VM 性能基准测试:对 7 家云厂商 44 种实例做 CPU 与性价比测试;新一代 AMD/Intel/ARM 各有强项,价格差异明显,建议优先选新 CPU 并善用预留/抢占策略控成本。
- 十年线上发布实战:从“运维把关、发布慢”走向自动化发布与可追踪,强调平台工程的价值是让开发能更快、更稳地把改动推到线上。
- 提醒:PyPy 可能处于缺乏维护的状态:社区开始公开提示 PyPy 支持在变弱,生态(如 numpy)也在调整;对依赖 PyPy 的项目是现实风险点。
- WASM 写作笔记:总结 Rust + wasm-bindgen 的踩坑经验,重点在跨边界数据、命名约定、错误处理与句柄生命周期,目标是让 Wasm 项目更稳、更好维护。
- Sem——语义化版本控制:在 Git 之上实现实体级差异对比:用 tree-sitter 做“函数/类级别”的差异与归因,尽量区分格式化与逻辑改动,适合代码审查、影响分析和重构期追踪。
- C++ 单例的极致性能优化:对比两种单例实现的开销差异,结论是自定义构造时静态成员方案更省额外检查与锁成本。
- 时区数据库的奇妙反差萌:通过一地永久夏令时的变更,展示 IANA 时区库如何记录复杂历史;对做时间处理的人是“别想当然”的提醒。
- Lobster 编程语言:面向游戏/图形的开源语言,主打静态类型、编译期内存管理和可直接编译到 C++ 的工程路径。
- MonoGame:用 .NET 框架打造跨平台游戏:XNA 的开源延续,支持多平台与主机,适合 C# 做跨平台游戏的团队复用成熟生态。
- Emacs 内部机制:在 C 里拆解 Lisp_Object(第二部分):拆解 Emacs 用“带标签指针”在 C 里表示动态类型的做法,适合想读懂大型老牌系统代码的人。
- Lisp 风格的 C++ 模板元编程:用 C++17 模板模拟延迟求值与列表操作,展示模板元编程能走到什么程度,更偏技术趣味与思路展示。
终端与消费硬件:手机市场分化加剧,“更便宜”与“更难做”同时存在
一边是成熟市场的品牌退场与缺乏创新;另一边是新兴市场要把价格压到极限,但供应链和税费让落地更难。
- 晚安,明天见:Arrows N 与富士通的退场:复盘 Arrows 衰落:性能与体验落后、运营商生态束缚、创新不足;即使被联想收购,想靠资源翻身也不容易。
- 力推 40 美元智能手机声势渐起,但成本门槛仍难跨:GSMA 联合非洲运营商推动超低价 4G 机,目标是让更多人上网;但硬件成本、税费与利润空间是最大阻力,能否规模化仍未知。
有趣但需要留心的浏览器能力:摄像头不仅能拍你,也能“测你”
浏览器端的传感能力越来越强,体验很酷,但隐私边界也更需要用户自己把关。
- Show HN:一个怪玩意儿——用浏览器视频检测你的脉搏:用摄像头视频估算心率,并声称不展示画面;这类能力说明“可从图像推断出的信息”越来越多,使用前要想清楚授权与数据去向。