LLM排行榜——OpenAI、Google、DeepSeek等大厂模型大比拼

评估人工智能(AI)模型涉及多个关键性能指标,主要包括处理信息的容量(上下文窗口)、生成内容的速度、响应延迟以及使用成本。这些指标共同决定了模型的实用性和经济性。各大科技公司,如 OpenAI、Google、Meta 和 Anthropic,都在持续推出和迭代各自的模型,形成了激烈的竞争格局。

衡量模型性能的关键指标

    • 上下文窗口 (Context Window): 指模型能一次性处理的输入和输出信息的最大总量(以 token 计算)。通常,输出 token 的上限会远低于输入。

    • 输出速度 (Output Speed): 指模型生成内容时,每秒输出的 token 数量。对于支持流式输出的模型,这是指接收到第一个数据块之后的速度。

    • 首次生成时间 (Latency / Time to First Token): 指从发送请求到接收到第一个 token 所需的时间(秒)。对于不支持流式输出的模型,这代表接收到完整结果所需的时间。

    • 价格 (Price): 指每百万 token 的美元价格。这是一个综合价格,通常按 3:1 的比例混合了输入和输出 token 的成本。

    • 输出价格 (Output Price): 指模型生成每一百万个 token 的成本。

    • 输入价格 (Input Price): 指向模型发送每一百万个 token 的成本。

评测数据是“实时”的,基于过去 72 小时内的测量结果。这些测量每天对单个请求进行 8 次,对并行请求进行 2 次。

参与评测的主要模型

以下是来自全球各大厂商的 AI 模型列表,它们都在不同的基准上进行比较。

  • OpenAI:

      • GPT-3.5 系列, GPT-4 系列, GPT-4o 系列, o1, o3, o4 等多个版本。
  • Meta:

      • Code Llama 70B, Llama 2 系列, Llama 3 系列, Llama 3.1 系列, Llama 3.2 系列, Llama 3.3, Llama 4 系列。
  • Google:

      • Gemini 1.0, 1.5, 2.0, 2.5 系列 (包括 Flash, Pro, Ultra 等版本), Gemma 2, Gemma 3 系列, PALM-2。
  • Anthropic:

      • Claude 2.0, 2.1, Claude 3 系列 (Haiku, Sonnet, Opus), Claude 3.5 系列, Claude 3.7 系列, Claude 4 系列。
  • Mistral:

      • Codestral, Devstral, Magistral, Ministral, Mistral Large, Mistral Medium, Mistral Small, Mixtral, Pixtral 等。
  • DeepSeek:

      • DeepSeek Coder V2, DeepSeek LLM 67B, DeepSeek Prover, DeepSeek R1, DeepSeek-V2 系列, Janus Pro 等。
  • 其他主要厂商:

      • Perplexity: PPLX 系列, Sonar 系列, R1。
      • xAI: Grok 系列。
      • Microsoft Azure: Phi-3 和 Phi-4 系列。
      • Alibaba: Qwen 系列 (包括 Qwen2, Qwen2.5, Qwen3 等)。
      • Z AI (智谱AI): GLM-4 系列。
      • 01.AI: Yi-Large, Yi-Lightning。
      • Baichuan: Baichuan 4, Baichuan M1。
      • NVIDIA: Cosmos Nemotron, Llama 3.1/3.3 Nemotron 系列。
      • Cohere: Aya, Command 系列。
      • Bytedance: Duobao, Skylark 系列。