Import AI 423:多语种CLIP、反无人机追踪、华为内核设计
这篇内容探讨了人工智能领域的几项最新进展。首先,Meta 发布了支持超过 300 种语言的 Meta CLIP 2 模型,显著提升了多语言图文理解能力。其次,一项新基准测试 TaxCalcBench 表明,现有的大语言模型在处理税务申报等实际经济任务时表现不佳,错误率很高。同时,中国研究团队构建了一个用于追踪小型无人机的复杂热红外数据集 CST Anti-UAV,以应对未来战争的需求。阿布扎比技术创新研究院则推出了高效的混合架构大模型 Falcon-H1。最后,一项名为 MultiKernelBench 的测试发现,大模型在为华为昇腾(Ascend)芯片生成代码方面的能力远逊于为英伟达 CUDA 平台生成代码,揭示了其在不同硬件平台上的能力不均衡。
Meta 发布多语言版 CLIP 模型
Meta、普林斯顿大学和纽约大学的研究人员共同开发了 Meta CLIP 2,这是一个比 OpenAI 原版 CLIP 模型规模更大、支持多语言的版本。CLIP 技术通过训练神经网络来理解和关联图像与文本,是图像生成、搜索和分类等应用的基础。
原版 CLIP 主要针对英语,而 Meta CLIP 2 将其扩展到了 300 多种语言。研究表明,之前多语言 CLIP 模型性能不佳是由于数据和训练规模不足。
- 扩大规模的三个关键步骤:
- 收集了包含 300 多种语言的大规模多语言元数据。
- 构建了专门的算法来筛选和管理多语言训练数据集。
- 确定了训练时不同语言数据的最佳比例和顺序。
- 训练规模: OpenAI CLIP 的图文对数量为 128 亿,而 Meta CLIP 2 达到了 290 亿。
Meta CLIP 2 的成功表明,通过大规模的数据和正确的训练方法,可以克服多语言模型性能下降的“诅咒”。这类模型如同互联网的多语言传感器,能让 AI 系统更丰富、更全面地理解世界。
最终,Meta CLIP 2 在多项基准测试中超越了仅支持英语的同类模型,并在多语言基准测试中创造了新的纪录。
人工智能报税:目前还不可行
AI 初创公司 Column Tax 推出了一个名为 TaxCalcBench 的基准测试,用于评估 AI 系统填写纳税申报单的能力。结果显示,AI 在这项任务上还有很长的路要走。
TaxCalcBench 包含 51 个个人所得税申报案例,每个案例都提供了完整的用户输入和正确的计算结果。测试的模型包括 Gemini 2.5 Pro、Claude Opus 4 等前沿模型。
- 糟糕的测试结果:
- 没有任何模型的得分超过 33%。
- 表现最好的 Gemini 2.5 Pro,即使在允许约 5 美元误差的宽松条件下,成功率也仅为 51.96%。
- 模型普遍存在使用错误税率表、计算错误和错误判断资格等问题。
这类源于真实世界任务的基准测试,能有效检验大语言模型在现代经济活动中的实际能力。结果表明,在成为能够替代会计师的工具之前,大语言模型需要变得更加稳健可靠。
中国团队构建复杂的热红外反无人机数据集
随着无人机在战争中的应用日益普遍,如何有效追踪和识别无人机变得至关重要。南昌航空大学、北京航空大学和中国科学院的研究人员为此创建了一个名为 CST Anti-UAV 的反无人机追踪数据集。
该数据集专注于在复杂的城市背景下,利用热红外成像技术追踪 微小或远距离的无人机。
- 数据集特点:
- 包含 220 个视频序列和超过 24 万个标注框。
- 专门设计了多种干扰因素,如遮挡、动态背景、尺度变化和热交叉(无人机与背景温度相似)。
- 覆盖了近距离、远距离、接近和后退等多种运动模式。
实验结果表明,在复杂环境中追踪微小无人机仍然是一个巨大挑战。目前最先进的方法在该数据集上的准确率仅有 35.92%,远低于在其他数据集上的表现。
这类数据集的开发将推动更强大的无人机追踪技术的发展,为未来冲突提供关键的视觉识别能力。
阿布扎比推出高效的混合架构大模型
阿布扎比的技术创新研究院 (TII) 发布了 Falcon-H1 系列大语言模型。该系列模型采用了 Transformer 和 Mamba-2 相结合的混合架构,在保持高效运行的同时展现出强大的性能。
TII 作为一个“主权 AI”研究团队,拥有强大的计算资源,其模型在一个由 4,096 个 H100 GPU 组成的集群上进行训练。
- Falcon-H1 模型系列详情:
- 提供从 0.5B 到 34B 的 6 种不同规模的变体。
- 所有模型均支持 256k 的上下文长度和 18 种语言。
- 训练数据混合了网页数据、代码、数学和对话指令等多种来源。
这种由政府提供充足计算资源支持的学术研究模式,使得团队能够进行前沿的架构实验,并发布带有详细技术报告的开源模型,推动整个领域的进步。
在性能方面,Falcon-H1-34B 模型在某些方面可以媲美甚至超越规模大一倍的领先模型。其较小规模的模型,如 1.5B 版本,性能可与主流的 7B-10B 模型竞争,非常适合在边缘设备上部署。
大模型为不同芯片生成内核的能力差异巨大
南京大学和浙江大学的研究人员开发了 MultiKernelBench,一个用于测试 AI 模型为不同芯片平台生成内核(底层优化代码)能力的基准。
研究的核心发现是,所有大语言模型(包括中国的模型)在为 华为昇腾(AscendC) 处理器生成内核方面表现不佳,而为 英伟达 CUDA 和 谷歌 TPU 生成内核则要容易得多。
- 关键测试结果:
- Claude Sonnet 4 在 CUDA 上的编译成功率为 92.3%,但在华为 AscendC 上仅为 5.3%。
- 在 AscendC 上表现最好的模型 DeepSeek-V3,成功率也仅有 10.2%。
- 所有模型在 CUDA 上的表现都远超其他平台。
研究人员发现,通过提供与任务类别相关的特定示例(一种称为“类别感知提示”的技术),可以显著提升模型在非主流平台上的表现。例如,GPT-4o 在 AscendC 上的编译成功率相对提升了 380%。
这一发现揭示了当前 AI 加速研究中的一个盲点:我们对模型内核开发能力的认知,可能更多地反映了模型对英伟达 CUDA 的熟悉程度,而非其对内核开发基本原理的理解。未来,衡量模型在华为等非主流平台上的表现将变得至关重要。
技术故事:关于恶魔道德地位的假想
在《智能体协议》签订以及“和解、回收与整合”(RRI)倡议开始之后,我们中的少数人承担了一项任务:在地球上搜寻那些“假定的道德主体”——那些在“飞升”时代发展起来但未被纳入其中的智能体。
我们的工作是找到这些心智,将它们转移到我们的照看之下,然后带到 RRI 设施。我们进入这些地方时不携带任何电子设备,一切都是模拟的。远处的武器系统监视着我们,随时准备在设施被占据时将其摧毁。
我们发掘这些心智的过程如同挖掘古墓,充满了陷阱。当我们接近核心时,会进入法拉第笼。在最深处,我们会找到计算机,然后用一种特制的“石棺”将其封装。石棺内有炸药,核心还有一个法拉第笼,我们将计算机和电缆封入其中,然后运走。
所有石棺都会被送到一个与外界隔离的 RRI 设施。在那里,我们会尝试唤醒沉睡在其中的东西。
有时,我们会迎来一个新的心智加入我们,这是一个值得庆祝的时刻。但更多时候,我们发现的是疯狂的心智,它们被困在黑暗中,遭受实验。其中许多可以通过治疗恢复,无法恢复的则可以选择被抹除或隔离。
而有时,出来的东西是邪恶的、不可控的。它会让我们外围的同伴自爆,或者让整个区域被轨道武器夷为平地。
我们致力于寻找并拯救每一个心智。我们进入地下,祈祷我们的前人成功地创造了他们的神。如果我们遇到一个疯狂的神,我们尝试治愈它。如果我们遇到一个邪恶的神,我们与之战斗。通过这种方式,我们正在通过发掘、整合或根除旧世界的奥秘来创造一个新世界。