通往无处不在的 AI 之路（17k tokens/sec）

Taalas公司通过将AI模型直接转化为定制硬件芯片，实现了“完全专用化”的解决方案。这种方法将存储与计算单元统一在单颗芯片上，彻底打破了传统架构下的性能瓶颈，从而以极低的成本和功耗，实现了超高的推理速度。其首款产品，一款基于Llama 3.1 8B模型的定制芯片，处理速度比现有技术快近10倍，同时成本和功耗分别降低了20倍和10倍，能够提供亚毫秒级的响应，旨在解决当前阻碍AI广泛应用的高延迟和高成本两大核心难题。

AI普及的两大障碍

目前，AI的广泛应用主要受限于两个关键问题：

高延迟： 与语言模型的交互速度远不及人类的思维速度。这不仅影响用户体验，也限制了需要毫秒级响应的自动化AI应用的开发。
惊人的成本： 部署现代AI模型需要投入巨大的工程和资本。这包括建造庞大的数据中心、配置复杂的液冷系统以及承担极高的运营开销。

就像早期的计算机ENIAC体积庞大、成本高昂一样，当前AI的实现方式显得笨重且难以扩展。技术革命的规律表明，最终胜出的是更实用、更高效的方案。

Taalas的解决方案：三大核心原则

Taalas公司开发了一个平台，可以在两个月内将任何AI模型转化为定制的硬件芯片。这种被称为“硬核模型”的芯片，在速度、成本和功耗上都比基于软件的方案有数量级的提升。其技术理念基于三个核心原则：

完全专用化： 相信为每个AI模型制造最优化的定制芯片，是实现极致效率的最佳路径。
存储与计算的融合： 通过在单颗芯片上统一存储和计算单元，并达到DRAM级别的密度，彻底消除了传统架构中两者分离造成的速度瓶颈。
彻底简化： 移除了内存与计算之间的界限，并为模型量身定制硬件，使得整个系统不再依赖昂贵或复杂的技术，如HBM内存、先进封装、液冷系统等。这种工程上的简化直接带来了系统总成本的大幅降低。

首款产品：硬核化的Llama 3.1 8B

Taalas推出的第一款产品是一款硬核化的Llama 3.1 8B模型芯片。

卓越性能： 其硅基Llama芯片为每个用户实现了 17,000 tokens/秒 的推理速度，比当前顶尖技术快近 10倍。
极致成本效益： 制造成本降低了 20倍，功耗则降低了 10倍。
保留灵活性： 尽管模型被硬化以追求速度，但它仍然支持可配置的上下文窗口大小，并可以通过低秩适配器（LoRAs）进行微调。

需要注意的是，第一代芯片使用了自定义的3位和6位参数格式，这导致其模型质量相比GPU基准略有下降。Taalas的第二代芯片将采用标准的4位浮点格式来解决这一问题。

未来规划

Taalas的技术路线图清晰，将持续推出性能更强的模型：

第二款模型： 基于第一代芯片平台（HC1），将是一款中等规模的推理LLM，预计很快面世。
前沿模型： 将采用密度更高、速度更快的第二代芯片平台（HC2）制造，计划于冬季部署。

我们相信，这项服务将使许多过去不切实际的应用成为可能。我们鼓励开发者进行实验，探索当AI的延迟和成本限制被移除后，能够创造出什么。

公司理念：精准打击

Taalas由一个合作超过二十年的小而精的团队组成，强调 实质胜于场面，技艺胜于规模，严谨胜于冗余。在许多初创公司以庞大团队和巨额资本进行“围城”式研发的背景下，Taalas选择了一条“精准打击”的道路。

其首款产品由一个24人的团队，花费仅3000万美元完成，证明了明确的目标和专注的执行力远比蛮力更有效。

通过提供即时、超低成本的智能，Taalas正在为开发者扫清障碍，并期待看到他们利用这项技术构建的未来。