LLM排行榜——OpenAI、Google、DeepSeek等大厂模型大比拼

评估人工智能（AI）模型涉及多个关键性能指标，主要包括处理信息的容量（上下文窗口）、生成内容的速度、响应延迟以及使用成本。这些指标共同决定了模型的实用性和经济性。各大科技公司，如 OpenAI、Google、Meta 和 Anthropic，都在持续推出和迭代各自的模型，形成了激烈的竞争格局。

衡量模型性能的关键指标

上下文窗口 (Context Window): 指模型能一次性处理的输入和输出信息的最大总量（以 token 计算）。通常，输出 token 的上限会远低于输入。
输出速度 (Output Speed): 指模型生成内容时，每秒输出的 token 数量。对于支持流式输出的模型，这是指接收到第一个数据块之后的速度。
首次生成时间 (Latency / Time to First Token): 指从发送请求到接收到第一个 token 所需的时间（秒）。对于不支持流式输出的模型，这代表接收到完整结果所需的时间。
价格 (Price): 指每百万 token 的美元价格。这是一个综合价格，通常按 3:1 的比例混合了输入和输出 token 的成本。
输出价格 (Output Price): 指模型生成每一百万个 token 的成本。
输入价格 (Input Price): 指向模型发送每一百万个 token 的成本。

评测数据是“实时”的，基于过去 72 小时内的测量结果。这些测量每天对单个请求进行 8 次，对并行请求进行 2 次。

以下是来自全球各大厂商的 AI 模型列表，它们都在不同的基准上进行比较。

OpenAI:
- GPT-3.5 系列, GPT-4 系列, GPT-4o 系列, o1, o3, o4 等多个版本。
Meta:
- Code Llama 70B, Llama 2 系列, Llama 3 系列, Llama 3.1 系列, Llama 3.2 系列, Llama 3.3, Llama 4 系列。
Google:
- Gemini 1.0, 1.5, 2.0, 2.5 系列 (包括 Flash, Pro, Ultra 等版本), Gemma 2, Gemma 3 系列, PALM-2。
Anthropic:
- Claude 2.0, 2.1, Claude 3 系列 (Haiku, Sonnet, Opus), Claude 3.5 系列, Claude 3.7 系列, Claude 4 系列。
Mistral:
- Codestral, Devstral, Magistral, Ministral, Mistral Large, Mistral Medium, Mistral Small, Mixtral, Pixtral 等。
DeepSeek:
- DeepSeek Coder V2, DeepSeek LLM 67B, DeepSeek Prover, DeepSeek R1, DeepSeek-V2 系列, Janus Pro 等。
其他主要厂商:
- Perplexity: PPLX 系列, Sonar 系列, R1。
- xAI: Grok 系列。
- Microsoft Azure: Phi-3 和 Phi-4 系列。
- Alibaba: Qwen 系列 (包括 Qwen2, Qwen2.5, Qwen3 等)。
- Z AI (智谱AI): GLM-4 系列。
- 01.AI: Yi-Large, Yi-Lightning。
- Baichuan: Baichuan 4, Baichuan M1。
- NVIDIA: Cosmos Nemotron, Llama 3.1/3.3 Nemotron 系列。
- Cohere: Aya, Command 系列。
- Bytedance: Duobao, Skylark 系列。