Taalas公司通过将AI模型直接转化为定制硬件芯片,实现了“完全专用化”的解决方案。这种方法将存储与计算单元统一在单颗芯片上,彻底打破了传统架构下的性能瓶颈,从而以极低的成本和功耗,实现了超高的推理速度。其首款产品,一款基于Llama 3.1 8B模型的定制芯片,处理速度比现有技术快近10倍,同时成本和功耗分别降低了20倍和10倍,能够提供亚毫秒级的响应,旨在解决当前阻碍AI广泛应用的高延迟和高成本两大核心难题。
AI普及的两大障碍
目前,AI的广泛应用主要受限于两个关键问题:
- 高延迟: 与语言模型的交互速度远不及人类的思维速度。这不仅影响用户体验,也限制了需要毫秒级响应的自动化AI应用的开发。
- 惊人的成本: 部署现代AI模型需要投入巨大的工程和资本。这包括建造庞大的数据中心、配置复杂的液冷系统以及承担极高的运营开销。
就像早期的计算机ENIAC体积庞大、成本高昂一样,当前AI的实现方式显得笨重且难以扩展。技术革命的规律表明,最终胜出的是更实用、更高效的方案。
Taalas的解决方案:三大核心原则
Taalas公司开发了一个平台,可以在两个月内将任何AI模型转化为定制的硬件芯片。这种被称为“硬核模型”的芯片,在速度、成本和功耗上都比基于软件的方案有数量级的提升。其技术理念基于三个核心原则:
- 完全专用化: 相信为每个AI模型制造最优化的定制芯片,是实现极致效率的最佳路径。
- 存储与计算的融合: 通过在单颗芯片上统一存储和计算单元,并达到DRAM级别的密度,彻底消除了传统架构中两者分离造成的速度瓶颈。
- 彻底简化: 移除了内存与计算之间的界限,并为模型量身定制硬件,使得整个系统不再依赖昂贵或复杂的技术,如HBM内存、先进封装、液冷系统等。这种工程上的简化直接带来了系统总成本的大幅降低。
首款产品:硬核化的Llama 3.1 8B
Taalas推出的第一款产品是一款硬核化的Llama 3.1 8B模型芯片。
- 卓越性能: 其硅基Llama芯片为每个用户实现了 17,000 tokens/秒 的推理速度,比当前顶尖技术快近 10倍。
- 极致成本效益: 制造成本降低了 20倍,功耗则降低了 10倍。
- 保留灵活性: 尽管模型被硬化以追求速度,但它仍然支持可配置的上下文窗口大小,并可以通过低秩适配器(LoRAs)进行微调。
需要注意的是,第一代芯片使用了自定义的3位和6位参数格式,这导致其模型质量相比GPU基准略有下降。Taalas的第二代芯片将采用标准的4位浮点格式来解决这一问题。
未来规划
Taalas的技术路线图清晰,将持续推出性能更强的模型:
- 第二款模型: 基于第一代芯片平台(HC1),将是一款中等规模的推理LLM,预计很快面世。
- 前沿模型: 将采用密度更高、速度更快的第二代芯片平台(HC2)制造,计划于冬季部署。
我们相信,这项服务将使许多过去不切实际的应用成为可能。我们鼓励开发者进行实验,探索当AI的延迟和成本限制被移除后,能够创造出什么。
公司理念:精准打击
Taalas由一个合作超过二十年的小而精的团队组成,强调 实质胜于场面,技艺胜于规模,严谨胜于冗余。在许多初创公司以庞大团队和巨额资本进行“围城”式研发的背景下,Taalas选择了一条“精准打击”的道路。
其首款产品由一个24人的团队,花费仅3000万美元完成,证明了明确的目标和专注的执行力远比蛮力更有效。
通过提供即时、超低成本的智能,Taalas正在为开发者扫清障碍,并期待看到他们利用这项技术构建的未来。