AI 开发工具
这一组新闻说明,AI 正从“会聊天”走向“能干活”。重点不再只是跑分,而是能不能进代码仓库、测试流程和日常办公。
- MAI-Code-1-Flash:微软发布新的代码模型,强调按开发者真实工作流训练,而不是只追基准成绩。它更适合代理式编程、仓库问答和重构,在复杂任务上还能减少最多 60% 的 token,用更低成本换更快响应。
- MAI-思考-1:微软推出中等规模推理模型,主打软件工程和数学能力。微软称它从零开始训练,使用商业授权数据,不靠第三方模型蒸馏。
- GitHub Copilot 应用:GitHub 开始预览原生 Copilot 桌面应用,把 issue、PR、并行代理、代码差异和合并放到一个界面里。它还支持 MCP 服务器和自定义技能,想把“写代码”变成“管理一组代理”。
- 微软新工具允许开发者通过文本描述快速创建 AI 行为测试:微软开源 ASSERT,用自然语言把产品规则和预期行为直接转成测试用例。这样更适合检查应用级 AI 是否按要求做事,而不只是看通用榜单。
- 微软为开发者提供了更好地控制 AI 智能体行为的方法:微软还推出 ACS 规范,让团队能明确写出哪些事代理能做、不能做、必须人工审批,哪些操作要留下审计记录。它想解决企业最担心的越权和乱调用工具问题。
- 我们如何为 RAG 编制图像索引:Kapa 介绍了一种很实用的做法:不在查询时直接跑昂贵的多模态模型,而是在建索引时先把图片转成文字描述。这样能显著提升文档问答质量,同时控制延迟和成本。
- OpenAI 推出面向白领工作的全新 Codex 工具:OpenAI 正把 Codex 从编程扩到数据分析、设计、销售和投行等工作。它新增插件和嵌入功能,说明企业 AI 的竞争点已经从“模型强不强”转向“能不能嵌进现有流程”。
- 认识 Microsoft Scout:永不下班的 AI 同事:微软还在测试常驻式办公代理 Scout,可读取 Teams、邮件和日历,主动安排和处理任务。它很像一个一直在线的助理,但提示注入和权限边界仍是现实风险。
AI 成本、监管与安全
AI 用得越多,钱、规则和安全问题就越难绕开。最近几条消息都在说明,企业已经从“先上再说”转向“怎么控、怎么省、怎么防”。
- 扩展 Glasswing 项目:Anthropic 扩大 Project Glasswing,把约 150 家关键基础设施和重要开源软件维护机构纳入合作,帮助它们用 Claude 扫描漏洞、生成补丁。重点是把更强的 AI 先用在防守方。
- Uber 在 4 个月内烧光预算后,给员工的 AI 支出设上限:Uber 之前鼓励员工多用 AI,如今却给 Claude Code、Cursor 等工具设每月 1500 美元上限。原因很直接:AI 账单涨得太快,而生产力提升还没有清楚到足以说服所有人。
- 特朗普在行业反对后签署更为收窄的人工智能监管行政令:美国新行政令要求部分 AI 公司在模型公开前 30 天自愿提交政府测试,不设强制许可。相比此前设想,这个版本明显收窄,但也把 AI 辅助黑客攻击列入重点执法方向。
隐私、安全与平台控制
这一组新闻有一个共同点:用户越来越难相信平台会自然站在自己这边。无论是邮箱、浏览器、手机还是门铃,争议都集中在监控、默认开启和强推升级。
- Gmail 觉得我很蠢,所以我走了:作者离开 Gmail,原因不是收发邮件本身,而是越来越多关不掉或不易关闭的 AI 总结、自动回复和写作提示。这反映出一个更大的问题:很多产品正在替用户做决定。
- 广告联盟正向你的网页浏览器逼近:文章批评浏览器内置广告归因标准,认为它打着隐私旗号,却可能把追踪做得更深,并进一步巩固大平台在广告市场的优势。
- 谷歌推出来电伪装检测功能,防范 AI 深度伪造冒充诈骗:谷歌开始在 Android 上推出伪造来电检测,尝试验证来电是否真来自可信联系人。目标很明确:对付越来越像真的 AI 冒充电话。
- 你应该尽快安装 6 月份的 Android 安全补丁:谷歌 6 月补丁共修复 124 个漏洞,其中包括一个已被利用的提权零日漏洞。这个更新没什么花哨之处,但很重要,能尽快装就尽快装。
- 亚马逊因 Ring 人脸识别功能面临集体诉讼:诉讼焦点是 Ring 的“熟悉面孔”功能会不会在未经同意时收集路人面部信息。问题不新,但随着家用摄像头更普及,争议只会更大。
- Dashlane 密码管理器称黑客窃取了部分客户的密码保险库:Dashlane 表示,攻击者通过暴力破解双重认证入侵约 20 个账户,并下载了至少 12 个加密保险库。保险库虽仍需主密码解密,但这类事件再次说明:密码管理器本身也是高价值目标。
- 让 Microsoft Office 2019 变砖:微软将让 Mac 版 Office 2019 进入“只能看、不能改”的受限模式,理由是安全证书过期。对用户来说,这更像一次被动升级,提醒人们订阅制和平台控制会一步步吞掉“买断后长期可用”的预期。
开放基础设施与开发生态
这里能看到另一条线:一些老东西没有过时,反而因为今天的环境更重要了。开放标准、简单协议和扎实工具,正在重新显出价值。
- 开放维修数据标准 – 开放维修联盟:开放维修数据标准试图统一维修记录的写法,让不同社区和地区的数据能放到一起分析。它有助于看清哪些产品最常坏、哪里最难修,也能给“可维修性”讨论提供更硬的数据。
- RSS 回来了。AI 代理正在阅读它:RSS 再次被看见,不是因为怀旧,而是因为 AI 代理需要稳定、结构清晰、可预测的公开内容入口。和社交平台的算法流相比,RSS 对机器和人都更直接。
- QBE – 编译器后端 – 1.3:轻量编译器后端 QBE 发布 1.3,大幅改进 IL 匹配、优化和 Windows ABI 支持,还新增共享库与位置无关代码能力。对小型语言和工具链作者来说,这是很实在的一步。
- 为 KDE Plasma 最后一版支持 X11 的版本做准备:KDE 明确将逐步移除 Plasma 的 X11 会话,把精力集中到 Wayland。现实原因很简单:大部分用户已转向 Wayland,而 X11 已很少有人维护和测试。
计算硬件与底层能力
底层算力还在继续变,变化点主要在两头:一头是更现实的 GPU 软件适配,另一头是更长期的量子和聚变。
- 在 AMD MI300X 上部署 DeepSeek-V4-Flash:MI300X 的硬件规格和价格都很有吸引力,但真正卡人的还是软件。Doubleword 修好精度、算子和调度问题后,单卡吞吐提升约 8.6%,说明 AMD 卡不是不能用,而是生态还在补课。
- 微软新一代量子芯片让实用量子计算的到来大幅提速:微软发布 Majorana 2 量子芯片,称新材料堆栈能加快实用量子计算落地。现在离真正大规模应用还远,但这仍是值得跟踪的底层进展。
- Focused Energy 融资 2.4 亿美元 A 轮,押注激光驱动核聚变技术:Focused Energy 拿到大额融资,继续推进激光惯性约束聚变,并计划建设示范系统。聚变仍然是高风险长跑,但资本和政府的钱还在持续流入。