LLM排行榜——OpenAI、Google、DeepSeek等大厂模型大比拼
评估人工智能(AI)模型涉及多个关键性能指标,主要包括处理信息的容量(上下文窗口)、生成内容的速度、响应延迟以及使用成本。这些指标共同决定了模型的实用性和经济性。各大科技公司,如 OpenAI、Google、Meta 和 Anthropic,都在持续推出和迭代各自的模型,形成了激烈的竞争格局。
衡量模型性能的关键指标
上下文窗口 (Context Window): 指模型能一次性处理的输入和输出信息的最大总量(以 token 计算)。通常,输出 token 的上限会远低于输入。
输出速度 (Output Speed): 指模型生成内容时,每秒输出的 token 数量。对于支持流式输出的模型,这是指接收到第一个数据块之后的速度。
首次生成时间 (Latency / Time to First Token): 指从发送请求到接收到第一个 token 所需的时间(秒)。对于不支持流式输出的模型,这代表接收到完整结果所需的时间。
价格 (Price): 指每百万 token 的美元价格。这是一个综合价格,通常按 3:1 的比例混合了输入和输出 token 的成本。
输出价格 (Output Price): 指模型生成每一百万个 token 的成本。
输入价格 (Input Price): 指向模型发送每一百万个 token 的成本。
评测数据是“实时”的,基于过去 72 小时内的测量结果。这些测量每天对单个请求进行 8 次,对并行请求进行 2 次。
参与评测的主要模型
以下是来自全球各大厂商的 AI 模型列表,它们都在不同的基准上进行比较。
OpenAI:
- GPT-3.5 系列, GPT-4 系列, GPT-4o 系列, o1, o3, o4 等多个版本。
Meta:
- Code Llama 70B, Llama 2 系列, Llama 3 系列, Llama 3.1 系列, Llama 3.2 系列, Llama 3.3, Llama 4 系列。
Google:
- Gemini 1.0, 1.5, 2.0, 2.5 系列 (包括 Flash, Pro, Ultra 等版本), Gemma 2, Gemma 3 系列, PALM-2。
Anthropic:
- Claude 2.0, 2.1, Claude 3 系列 (Haiku, Sonnet, Opus), Claude 3.5 系列, Claude 3.7 系列, Claude 4 系列。
Mistral:
- Codestral, Devstral, Magistral, Ministral, Mistral Large, Mistral Medium, Mistral Small, Mixtral, Pixtral 等。
DeepSeek:
- DeepSeek Coder V2, DeepSeek LLM 67B, DeepSeek Prover, DeepSeek R1, DeepSeek-V2 系列, Janus Pro 等。
其他主要厂商:
- Perplexity: PPLX 系列, Sonar 系列, R1。
- xAI: Grok 系列。
- Microsoft Azure: Phi-3 和 Phi-4 系列。
- Alibaba: Qwen 系列 (包括 Qwen2, Qwen2.5, Qwen3 等)。
- Z AI (智谱AI): GLM-4 系列。
- 01.AI: Yi-Large, Yi-Lightning。
- Baichuan: Baichuan 4, Baichuan M1。
- NVIDIA: Cosmos Nemotron, Llama 3.1/3.3 Nemotron 系列。
- Cohere: Aya, Command 系列。
- Bytedance: Duobao, Skylark 系列。