🚀 Xnurta可选择 AI 模型列表(研发版)

📅 最后更新:2026.03.02 | 👨‍💼 负责人:Justin.Zhang

企业级AI模型融合服务平台 - 整合全球顶尖大模型能力

📌 重要说明:
当前所有的模型均采用融合渠道接入方式,确保所有模型的数据量和更新频率与官方完全同步。支持通过SDK、API调用方式接入,或集成至已封装的第三方平台使用。
💡 使用咨询:关于具体的业务场景适配、技术集成方案、定价策略等详细信息,请直接联系 Justin.Zhang 进行线下沟通交流。
阿里云百炼 - 通义千问系列
最新模型(2026年3月版)
💡 优惠说明:启用 Batch批量调用上下文缓存 可享 50%折扣(二者不可叠加)

📝 文本生成模型 - TOP 7

qwen3.5-plus
🆕 最新旗舰
架构: 397B MoE (17B激活)
🔥 1M tokens上下文
💰 输入: ¥0.0008/千token(≈¥0.8/百万token)
📤 输出: ¥0.002/千token
通义千问3.5旗舰版,原生多模态视觉语言模型,支持201种语言,解码速度比Qwen3-Max快8.6-19倍,成本降低60%
✨ 核心能力:
  • 原生多模态(文本+图像+视频早期融合)
  • 视觉代理能力(UI截图分析、自主操作)
  • 1M token超长上下文窗口
  • 内置自适应工具调用(搜索、代码解释器)
  • SWE-bench 76.4% | LiveCodeBench v6 83.6
🧠 Agentic AI | 👁️ 原生多模态 | ⚡ 8x吞吐提升 | 💰 成本降60% | 🌍 201种语言
qwen3-max
旗舰
版本: 通义千问3
🔥 最高252K上下文
💰 输入: ¥0.0032-0.0096/千token
📤 输出: ¥0.0128-0.0384/千token
通义千问3旗舰版,最强综合能力,支持复杂推理、多工具调用、超长上下文处理
⚡ 复杂推理 | 🛠️ 多工具调用 | 📊 252K超长上下文 | 💎 阶梯计价
DeepSeek-V3
开源SOTA
提供商: DeepSeek
上下文: 128K
💰 输入: ¥0.004/千token
📤 输出: ¥0.004/千token
第三方最强开源模型之一,数学与代码能力突出,输入输出同价
🧮 数学能力强 | 💻 代码生成优秀 | 🌟 开源SOTA | 💰 性价比高
qwen-plus
主力推荐
类型: 通用高性价比
上下文: 1M tokens
💰 输入: ¥0.0008-0.0048/千token
📤 输出: ¥0.002-0.048/千token
通用高性价比主力模型,平衡效果与成本,支持百万级token上下文
⚖️ 性能成本平衡 | 📚 1M超长上下文 | 🎯 通用场景首选
DeepSeek-R1
推理专用
提供商: DeepSeek
特长: 逻辑推理
💰 输入: ¥0.004/千token
📤 输出: ¥0.004/千token
推理专用模型,擅长数学、逻辑、代码生成,满血版性能接近Qwen-Max
🧠 推理优化 | 🔢 数学能力强 | 💻 代码生成 | ⚡ 逻辑推理
qwen3-turbo
极速
特性: 超快响应
🏆 超低成本
💰 输入: ¥0.001/千token
📤 输出: ¥0.002/千token
超快响应,适合简单问答、客服、摘要等轻量任务,高并发场景首选
⚡ 极速响应 | 💰 低成本 | 📞 适合客服 | 🔄 高并发
qwen3-coder
代码专用
支持: 80+编程语言
能力: 工具调用
💰 输入: ¥0.002/千token
📤 输出: ¥0.006/千token
专精编程,支持80+语言,可调用工具链、执行代码,开发者助手首选
💻 80+语言 | 🛠️ 工具调用 | ⚙️ 代码执行 | 👨‍💻 开发专用

👁️ 视觉理解模型(Visual Understanding)

qwen3-vl-max
视觉旗舰
模态: 图像+文本
多图支持: 最多8张
💰 输入: ¥0.008/千token
📤 输出: ¥0.012/千token
通义千问视觉语言旗舰,支持多图输入、高精度OCR、图表结构化、物体定位、视觉推理
✨ 核心能力:
  • 多图输入(最多8张同时分析)
  • 高精度OCR(含表格、公式、手写)
  • 图表结构化(柱状图/折线图→JSON)
  • 物体定位(返回 bounding box)
  • 视觉推理(如"找出所有红色圆形")
📊 图表分析 | 🔍 OCR识别 | 🖼️ 图文理解 | 💬 视觉问答 | 📍 物体定位
⚠️ 图像输入按像素折算为token,高清图 ≈ 500-2000 tokens
qwen3-vl-plus
通用推荐
类型: 通用视觉理解
💰 性价比高
💰 输入: ¥0.004/千token
📤 输出: ¥0.006/千token
通用视觉理解模型,适合图像描述、基础VQA、简单OCR、单图分析等场景
✨ 核心能力:
  • 图像描述生成
  • 基础VQA(视觉问答)
  • 简单OCR识别
  • 单图分析
📝 图像描述 | 💬 视觉问答 | 🔍 简单OCR | ⚖️ 性价比高
qwen3-vl-flash
轻量极速
特性: 快速识别
🏆 超低成本
💰 输入: ¥0.001/千token
📤 输出: ¥0.002/千token
轻量级视觉模型,适合快速图像分类、标签生成、高并发客服图片识别
✨ 核心能力:
  • 快速图像分类
  • 标签生成
  • 高并发客服图片识别
⚡ 极速响应 | 💰 超低成本 | 🏷️ 标签生成 | 📞 客服场景

🎯 专用视觉能力(独立接口)

通义千问 OCR
专用OCR
计费: ¥0.005/次
专用于身份证、发票、银行卡、表格等结构化识别
✨ 支持识别:
  • 身份证识别
  • 发票识别
  • 银行卡识别
  • 表格结构化
QVQ(视觉数学解题)
数学专用
计费: ¥0.01/次
识别手写公式、几何图形并自动解答,教育场景专用
✨ 核心能力:
  • 手写公式识别
  • 几何图形理解
  • 自动解题步骤
  • 多种题型支持
文档智能(DocAI)
文档处理
计费: ¥0.02/页
PDF/扫描件全文布局还原 + 语义结构化,企业文档处理首选
✨ 核心能力:
  • PDF全文布局还原
  • 扫描件识别
  • 语义结构化
  • 表格提取
💡 兼容性说明:所有 VL 模型均支持 OpenAI Vision API 兼容格式,可直接替换 gpt-4o 使用,无需修改代码结构。

🎧 语音理解模型(Speech Understanding)

🎤 语音识别(ASR - Automatic Speech Recognition)

通义听悟 ASR 标准版
推荐
计费: ¥0.003/分钟
最大时长: 4小时/文件
标准语音识别服务,支持中英文混合识别、多采样率、实时流式和文件上传
✨ 核心特性:
  • 中英文混合识别
  • 支持 8kHz / 16kHz 采样率
  • 实时流式识别
  • 文件批量上传
🎤 中英混合 | ⚡ 实时流式 | 📁 文件上传 | 💰 性价比高
通义听悟 ASR 会议版
会议专用
计费: ¥0.006/分钟
特性: 说话人分离
会议场景优化版本,支持多人说话人分离、会议纪要自动生成、行业术语优化
✨ 核心特性:
  • 多人说话人分离(Speaker Diarization)
  • 会议纪要自动生成
  • 行业术语优化(医疗/金融/法律)
  • 智能标点和语义理解
👥 说话人分离 | 📝 会议纪要 | 🏥 行业优化 | 🎯 高精度
通义听悟 ASR 高精版
超高精度
计费: ¥0.01/分钟
准确率: 98%+
超高准确率识别,支持方言、噪声环境,专业场景首选
✨ 核心特性:
  • 超高准确率(98%+)
  • 支持方言(粤语、四川话等)
  • 噪声环境鲁棒
  • 专业术语识别
🎯 98%+准确率 | 🗣️ 方言支持 | 🔊 噪声鲁棒 | 💎 专业场景

🔊 语音合成(TTS - Text-to-Speech)

通义听悟 TTS 标准音色
推荐
计费: ¥0.005/千字
特性: 自然流畅
自然流畅的中文语音合成,支持SSML控制语速、停顿、情感
✨ 核心特性:
  • 自然流畅中文发音
  • 支持 SSML 控制语速/停顿/情感
  • 多种音色选择
  • 高质量合成
🎵 自然流畅 | ⚙️ SSML控制 | 🎭 多音色 | 💰 性价比高
通义听悟 TTS 情感音色
情感丰富
计费: ¥0.01/千字
特性: 情感风格
支持多种情感风格的语音合成,可定制企业专属声音
✨ 核心特性:
  • 支持"开心""严肃""温柔"等情感风格
  • 可定制企业专属声音
  • 情感表达自然
  • 适合有声读物、广告等
😊 情感丰富 | 🎨 定制音色 | 📚 有声读物 | 🎯 专业场景
数字人语音驱动
视频联动
计费: 按视频生成计费
特性: 口型同步
结合视频生成,实现口型同步的数字人语音驱动
✨ 核心特性:
  • 口型精准同步
  • 表情自然
  • 结合通义万相视频生成
  • 适合数字人播报
👤 口型同步 | 🎬 视频联动 | 😊 表情自然 | 📺 播报专用
⏱️ 音频时长限制:最大支持音频时长为 4小时/文件,建议长音频分段处理以获得更好效果

🎬 视频生成模型

wan2.5-video
通义万相2.5
时长: 最长10秒
功能: 文/图生视频
💰 计费: ≈¥0.01/秒(按时长×像素×epoch)
通义万相2.5,支持文生视频、图生视频、数字人合成,单视频最长10秒
📹 文生视频 | 🖼️ 图生视频 | 👤 数字人合成 | ⏱️ 最长10秒
💡 费用 = Σ(视频时长 × 1024 × max_pixels × n_epochs) × 单价
wan2.2-video
通义万相2.2
时长: 最长5秒
🎁 免费额度多
💰 计费: ≈¥0.005/秒(按时长计费)
通义万相2.2基础版,适合快速生成短视频,免费额度较多
🎬 基础版 | ⏱️ 最长5秒 | 🎁 免费额度 | ⚡ 快速生成

🔢 向量嵌入模型

text-embedding-v4
最强嵌入
MTEB分数: 68.36
语言: 中英混合
💰 输入: ¥0.0001/千token
📤 输出: 无计费
当前最强中文/英文混合嵌入模型,MTEB得分68.36,适用于RAG、语义检索
🏆 最强嵌入 | 🌏 中英混合 | 🔍 语义检索 | 💎 RAG首选

📊 通义千问系列全系对比

📝 文本生成模型
• qwen3.5-plus(🆕最新旗舰)- 397B MoE原生多模态,1M上下文,201种语言,成本降60%
• qwen3-max(旗舰)- 最强综合能力,252K超长上下文,复杂推理
• DeepSeek-V3(开源SOTA)- 数学与代码能力突出,性价比高
• qwen-plus(主力推荐)- 通用高性价比,1M上下文
• DeepSeek-R1(推理专用)- 逻辑推理、数学、代码生成
• qwen3-turbo(极速)- 超低成本,高并发场景
• qwen3-coder(代码专用)- 80+编程语言,工具调用

👁️ 视觉理解模型
• qwen3-vl-max(视觉旗舰)- 多图输入、高精度OCR、图表结构化
• qwen3-vl-plus(通用推荐)- 图像描述、基础VQA、单图分析

🔢 嵌入模型
• text-embedding-v4(最强嵌入)- MTEB 68.36,中英混合,RAG首选
AWS Bedrock
最新模型(2026年3月版)

🔥 Anthropic Claude 4/4.5/4.6 系列

Claude Opus 4.6
🆕 最强旗舰
提供商: Anthropic
🔥 200K / 1M (Preview)
💰 $5/1M 输入
📤 $25/1M 输出
Anthropic最强模型,将多天开发项目压缩至数小时,支持Agent Teams多代理协作、深度推理和超长上下文处理
🧠 最强推理 | 🤖 Agent Teams多代理协作 | 💻 自主编码 | 📊 1M上下文(Preview) | 📑 PPT生成
Claude Sonnet 4.6
🆕 性价比之王
提供商: Anthropic
🔥 200K / 1M (Preview)
💰 $3/1M 输入
📤 $15/1M 输出
接近Opus级别智能,Sonnet价格。SWE-bench Verified 77.2%,计算机使用准确率94%,70%开发者更偏好此模型
⚡ Opus级智能Sonnet价格 | 💻 SWE-bench 77.2% | 🖥️ 计算机使用94% | 🎯 日常开发首选
Claude Opus 4.5
旗舰
提供商: Anthropic
上下文: 200K
💰 $0.005/1K 输入
📤 $0.025/1K 输出
最新旗舰模型,专业软件工程任务的最佳选择,成本降低1/3
⚠️ 5倍输出token消耗率 | ✨ 混合推理模式 | 🛠️ 工具搜索和使用
Claude Sonnet 4.5
推荐
提供商: Anthropic
上下文: 200K
💰 $0.003/1K 输入
📤 $0.015/1K 输出
快速迭代和规模化用户体验的理想选择,性能与成本的完美平衡
⚡ 快速响应 | 🎯 适合生产环境 | 💡 扩展思维功能 | 🛠️ 工具使用
Claude Haiku 4.5
极速
提供商: Anthropic
上下文: 200K
💰 $0.0008/1K 输入
📤 $0.004/1K 输出
子代理和免费层产品的轻量级模型,超低延迟响应
⚡ 超低延迟 | 💎 极低成本 | 🤖 适合子代理 | 📱 轻量部署
Claude Opus 4
强大
提供商: Anthropic
上下文: 200K
💰 $0.015/1K 输入
📤 $0.075/1K 输出
最强大的Claude模型,具有混合推理能力,支持即时响应和深度思考
🧠 混合推理 | 💻 自主编码 | 🔧 工具使用 | 🎯 复杂任务
Claude Sonnet 4
均衡
提供商: Anthropic
上下文: 200K
💰 $0.003/1K 输入
📤 $0.015/1K 输出
中等规模模型,适合高容量使用场景,努力参数可控
⚡ 高容量场景 | 🎛️ 努力参数可控 | 💰 性价比优秀 | 🔄 稳定输出

👁️ Amazon Nova 系列

Amazon Nova Premier
即将发布
提供商: Amazon
级别: 企业级
💰 价格待定
📤 即将公布
AWS最强多模态模型,用于复杂视觉任务和企业级应用
🧠 高级图像分类 | 🎬 复杂视频分析 | 📄 文档VQA | 📐 技术图表解读
Amazon Nova Pro
高性能
提供商: Amazon
模态: 多模态
💰 $0.0008/1K 输入
📤 $0.0032/1K 输出
高性能多模态模型,准确性、速度和成本的最佳平衡
📊 图像/视频/文本处理 | ⚡ 高性能 | 💰 性价比高 | 📄 OCR识别
Amazon Nova Lite
经济
提供商: Amazon
模态: 多模态
🏆 $0.00006/1K 输入
📤 $0.00024/1K 输出
超低成本多模态模型,快速处理图像、视频和文本
💎 超低成本 | 🖼️ 快速图像分类 | 🎬 基础视频分析 | 📝 OCR识别
Amazon Nova Micro
🥇 最低成本
提供商: Amazon
类型: 纯文本
💎 $0.000035/1K 输入
📤 $0.00014/1K 输出
纯文本模型,提供最低延迟和成本,适合大规模部署
⚡ 最低延迟 | 💎 极致低成本 | 📱 大规模部署 | 📝 纯文本处理
Amazon Nova Reel
🎬 视频
提供商: Amazon
类型: 视频生成
💰 按视频时长计费
📤 高质量输出
最先进的AI视频生成模型,可生成高质量短视频内容
🎬 AI视频生成 | 🎨 高质量画面 | ⚡ 快速生成 | 📱 多分辨率
Amazon Nova Canvas
🎨 图像
提供商: Amazon
类型: 图像生成
💰 按图片数量计费
📤 高分辨率
最先进的图像生成模型,支持高质量图像创作
🎨 AI图像生成 | 🖼️ 高分辨率 | ✏️ 图像编辑 | 🎯 精准控制

👁️ Anthropic Claude 系列 - 视觉理解能力

Claude Opus 4.5 Vision
最佳视觉
提供商: Anthropic
上下文: 200K
💰 $0.005/1K 输入
📤 $0.025/1K 输出
最佳视觉模型,支持复杂视觉解释和多步导航
🧠 深度理解 | 📊 图表解读 | 💻 截图转代码 | 🎯 复杂场景
Claude Sonnet 4.5 Vision
平衡推荐
提供商: Anthropic
上下文: 200K
💰 $0.003/1K 输入
📤 $0.015/1K 输出
平衡性能的视觉理解,适合生产环境
🖼️ 图像理解 | 📊 视觉推理 | 📄 文档VQA | ⚡ 生产环境首选
Claude Haiku 4.5 Vision
轻量级
提供商: Anthropic
上下文: 200K
💰 $0.0008/1K 输入
📤 $0.004/1K 输出
轻量级视觉处理,适合高并发场景
⚡ 快速图像分类 | 💬 基础视觉问答 | 💎 低成本 | 📱 高并发
Claude 3.5 Sonnet Vision
强大视觉
提供商: Anthropic
上下文: 200K
💰 $0.003/1K 输入
📤 $0.015/1K 输出
强大的图像处理能力,适合专业视觉任务
🔬 专业图像分析 | 📄 技术文档理解 | 📊 图表解读 | 🎨 设计稿分析

👁️ Meta Llama 系列

Llama 4 Scout 17B
原生多模态
提供商: Meta
⚡ 1000万 tokens 上下文
💰 $0.00017/1K 输入
📤 $0.00017/1K 输出
通用多模态模型,支持超长1000万token上下文长度,文本和图像理解
🖼️ 图像字幕生成 | 🔍 视觉定位 | 💬 视觉问答 | 📏 10M上下文
Llama 4 Maverick 17B
强大
提供商: Meta
参数: 4000亿 MoE
💰 $0.00073/1K 输入
📤 $0.00088/1K 输出
4000亿参数的多模态模型,支持12种语言的文本和图像处理
🌍 12种语言 | 🖼️ 多语言图像理解 | 📊 100万tokens | 🧠 视觉推理
Llama 3.2 90B Vision
企业级
提供商: Meta
参数: 90B
💰 $0.0024/1K 输入
📤 $0.0024/1K 输出
企业级视觉智能模型,适合大规模视觉任务
🏢 企业级图像分析 | 📄 文档智能处理 | 📊 视觉数据提取 | 🔄 批量任务
Llama 3.2 11B Vision
中等规模
提供商: Meta
参数: 11B
💰 $0.00016/1K 输入
📤 $0.00016/1K 输出
中等规模视觉理解模型,平衡性能与成本
🖼️ 通用图像理解 | 💬 视觉问答 | 🔍 场景分析 | 💎 高性价比

🧠 其他专业模型

DeepSeek-V3.1
DeepSeek
提供商: DeepSeek
上下文: 128K
💰 $0.0013/1K 输入
📤 $0.0013/1K 输出
高性能推理模型,适合复杂推理任务
🧠 高性能推理 | 💻 代码生成 | 📊 数据分析 | 💎 高性价比
DeepSeek-R1
DeepSeek
提供商: DeepSeek
上下文: 128K
💰 $0.0013/1K 输入
📤 $0.0013/1K 输出
推理优化模型,专注提升推理效率
🔬 推理优化 | 🧮 数学推理 | 💡 逻辑分析 | ⚡ 高效推理
Kimi K2 Thinking
Moonshot AI
提供商: Moonshot AI
上下文: 128K
💰 $0.0006/1K 输入
📤 $0.0025/1K 输出
思维链推理模型,支持复杂任务的步骤化推理
🧠 思维链推理 | 📝 步骤化分析 | 💻 代码生成 | 🔧 工具使用
Qwen3-VL-235B-A22B
Qwen
提供商: Qwen
模态: 视觉语言
💰 $0.00088/1K 输入
📤 $0.00088/1K 输出
视觉语言模型,支持图像和视频理解
🖼️ 图像理解 | 🎬 视频分析 | 📄 文档处理 | 🌍 多语言支持
Qwen3-Coder-480B-A35B
Qwen
提供商: Qwen
专用: 代码生成
💰 $0.00088/1K 输入
📤 $0.00088/1K 输出
代码生成专用模型,支持多种编程语言
💻 代码生成 | 🔧 多语言编程 | 📝 代码补全 | 🐛 Bug修复
NVIDIA Nemotron Nano 2 9B
NVIDIA
提供商: NVIDIA
参数: 9B
💰 $0.00013/1K 输入
📤 $0.00013/1K 输出
轻量级推理模型,适合边缘部署
⚡ 轻量级 | 📱 边缘部署 | 💎 极低成本 | 🔄 快速推理
Google Cloud - Vertex AI
最新模型(2026年3月版 - 含Gemini 3.0/3.1系列)
💡 成本优化:启用 Context Caching(上下文缓存) 可享 90%折扣(约$0.20/1M tokens),适合重复分析大型文档

🚀 Gemini 3.0/3.1 系列 - 最新旗舰

🥇 TOP 1
Gemini 3.1 Pro (Preview)
🆕 最强推理
提供商: Google
🔥 100万 tokens
💰 输入: $2.00/1M tokens
📤 输出: $12.00/1M tokens
Gemini 3 Pro的重大升级版,ARC-AGI-2推理得分77.1%(3 Pro的2倍以上),价格不变。支持多模态输入(文/图/音/视频),输出最高64K tokens
✨ 核心能力:
  • ARC-AGI-2 推理得分 77.1%(超2倍提升)
  • 增强的代理工作流与工具编排
  • 新增Medium思考级别(平衡成本/速度/性能)
  • 100万token上下文 / 64K输出
  • GitHub Copilot集成支持
🧠 推理翻倍 | 🤖 代理增强 | 💻 编程优化 | 📊 100万上下文 | 💰 价格不变
🥈 TOP 2
Gemini 3 Pro (Preview)
顶级智力
提供商: Google
🔥 100万 tokens
💰 输入(≤200K): $2.00/1M tokens
📤 输出(含思维链): $12.00/1M tokens
🔄 上下文缓存: ~$0.20/1M tokens
🔍 Grounding搜索: $35/1000次查询
最强代理能力,专为Agentic Workflow设计,具备自适应思考(Adaptive Thinking)能力,可处理多步推理和自我纠错,适合复杂编程、深度推理任务
✨ 核心能力:
  • Agentic Workflow(代理工作流)
  • 自适应思考(Adaptive Thinking)
  • 多步推理与自我纠错
  • 100万token上下文窗口
  • 强大的Grounding(地面实况)能力
🧠 最强推理 | 🤖 代理工作流 | 💻 复杂编程 | 🔄 自我纠错 | 📊 100万上下文
⚠️ 长上下文定价:>200K context时输入价格约为 $4.00/1M tokens(翻倍)
💡 输出价格包含内部生成的"思维链"(Thinking Tokens)消耗
� TOP 3
Gemini 3 Pro Image
多模态生成
提供商: Google
模态: 文本+图像
💰 文本输入: $2.00/1M tokens
🖼️ 图像输入: $0.0011/张
📤 文本输出: $12.00/1M tokens
🎨 图像输出(1024x1024): ~$0.134/张
🎨 高清4K输出: ~$0.24/张
极高保真度图像生成,原生多模态模型,支持复杂的"图生图"或"文本+图"混合输出,结合推理能力优化构图和细节
✨ 核心能力:
  • 高保真图像生成(1024x1024 / 4K)
  • 图文混合编辑与推理
  • 图生图(Image-to-Image)
  • 文本+图像混合输入输出
  • 智能构图优化
🎨 极高保真 | 🖼️ 图文混合 | 🔄 图生图 | 🧠 推理优化 | 📐 智能构图
TOP 4
Gemini 3 Flash
速度旗舰
提供商: Google
模态: 文/图/视/音
💰 输入: 预计 $0.15-0.30/1M tokens
📤 输出: 预计 $0.60-1.20/1M tokens
兼顾速度与多模态理解的旗舰模型,在处理复杂的多模态(文本、图像、视频、音频)理解任务上表现极佳,同时保持较低延迟
✨ 核心能力:
  • 多模态理解(文/图/视/音)
  • 低延迟快速响应
  • 复杂任务处理
  • 适合代理任务
⚡ 极速响应 | 🎭 多模态 | 🤖 代理任务 | 🎯 高智商

💎 Gemini 2.5 系列 - 企业级生产环境(GA)

Gemini 2.5 Pro
企业标准
提供商: Google
🔥 100万 tokens
💰 输入: $1.25/1M tokens
� 输出: $10.00/1M tokens
企业级首选,平衡了顶级性能与生产环境稳定性,适合大多数需要高智商但不需要Gemini 3极致推理的场景
✨ 核心能力:
  • 高性能推理与编码
  • 100万token上下文
  • 生产环境稳定性
  • 大规模批量处理
🏢 企业首选 | 🎯 高性能 | 🛡️ 稳定可靠 | 📊 100万上下文 | ⚖️ 性价比优
💡 相比Gemini 3 Pro,输出成本低约20%,适合大规模批量处理复杂任务
Gemini 2.5 Flash
主力工作马
提供商: Google
特性: 极速+多模态
💰 输入: 预计 $0.15-0.25/1M tokens
📤 输出: 预计 $0.60-1.00/1M tokens
主力工作马,适合大多数通用任务,延迟极低,性价比极高,支持多模态流式传输
✨ 核心能力:
  • 极低延迟响应
  • 多模态理解
  • 流式传输
  • 通用任务处理
⚡ 闪电速度 | 🎭 多模态 | 💰 性价比王 | 🔄 流式传输 | 🎯 通用首选
Gemini 2.5 Flash-Lite
极致成本
提供商: Google
🏆 成本最低
💰 输入: $0.10/1M tokens
📤 输出: $0.40/1M tokens
成本杀手,Vertex AI上最便宜的模型,专门用来替代传统NLP任务(如分类、实体提取)或处理海量日志,仅需$1即可处理1000万个单词
✨ 核心能力:
  • 海量数据归类
  • 简单提取任务
  • 日志分析
  • 高吞吐量处理
💰 极致低价 | 📊 海量数据 | 🔄 高吞吐量 | 📝 简单任务 | 🏆 成本王者
💡 配合Context Caching(上下文缓存),处理长文档的成本几乎可以忽略不计
Gemini 2.5 Flash (Live API)
实时交互
提供商: Google
特性: 双向流式
💰 计费: 与Flash相同
实时双向流式传输,专为低延迟的语音和情感对话设计,适合构建类似真人的语音助手
✨ 核心能力:
  • 实时双向流式传输
  • 低延迟语音交互
  • 情感对话
  • 语音助手构建
🎤 实时语音 | 🔄 双向流式 | ⚡ 低延迟 | 💬 情感对话 | 🤖 语音助手

🌟 Gemini 2.0 系列 - 当前主力

Gemini 2.0 Flash
正式版
提供商: Google
模态: 文/图/音/视
💰 输入(文/图/视): $0.15/1M tokens
💰 输入(音频): $0.70/1M tokens
📤 输出: $0.60/1M tokens
实时对话、低延迟应用、多模态流式传输的主力选择,原生支持实时语音交互
⚡ 极速响应 | 🎤 实时语音 | 📹 视频理解 | 💰 性价比高
Imagen 3
图像生成
提供商: Google
类型: 文生图
💰 标准生成: $0.03/张
⚡ 快速模式: $0.015/张
✏️ 图片编辑: $0.03/张
画质天花板,生成照片级逼真图像,能精准绘制图片中的文字(霓虹灯牌、T恤等)
📸 照片级画质 | ✍️ 精准文字 | 🎨 图片编辑 | 🖼️ 文生图
Google Veo (Veo 2)
视频生成
提供商: Google
分辨率: 1080p+
💰 计费: $0.40-$0.75/秒
📊 示例: 10秒视频 ≈ $5
Sora级视频生成,生成1080p+高清视频,画面连贯且包含同步音效
🎬 高清视频 | 🔊 同步音效 | 📹 画面连贯 | ⚡ Sora级别
⚠️ 生成高清视频成本较高,建议在生产环境谨慎开放权限
Gemini 1.5 Pro
成熟稳定
提供商: Google
🔥 200万 tokens
💰 输入(128K内): $1.25/1M tokens
📤 输出(128K内): $5.00/1M tokens
长文档之王,凭借200万token上下文窗口,处理超长PDF、全代码库分析的唯一选择
📚 200万上下文 | 📄 长文档分析 | 💻 全代码库 | 🎯 成熟稳定
Claude 3.5 Sonnet
第三方王牌
提供商: Anthropic
特性: 代码专家
💰 输入: $3.00/1M tokens
📤 输出: $15.00/1M tokens
Anthropic王牌模型,逻辑推理和代码能力极强,在Vertex Model Garden中极受欢迎
🧠 逻辑推理 | 💻 代码能力 | 🎯 热门选择 | 🏆 第三方最强
Gemini 2.0 Flash-Thinking
实验性
提供商: Google
特长: 思维链
💰 计费: 实验性免费/按Pro计费
类似o1的思维链模型,专攻数学竞赛题、复杂科学研究,会"思考"后再回答
🤔 深度思考 | 🔢 数学竞赛 | 🔬 科研专用 | 🧠 思维链推理
Llama 3.2 (90B/11B)
开源
提供商: Meta
特性: 开源生态
💰 MaaS托管: $0.20-$0.50/1M tokens
Meta开源模型,适合需要私有化部署或极低成本微调的企业
🌟 开源 | 🔧 可微调 | 💰 低成本 | 🏢 私有化部署
Gemini 1.5 Flash-8B
价格屠夫
提供商: Google
🏆 超低成本
💰 输入: $0.0375/1M tokens
📤 输出: $0.15/1M tokens
极其便宜,适合处理海量日志分析、简单数据提取,甚至比GPT-4o-mini更便宜
💰 极低成本 | ⚡ 超低延迟 | 📊 日志分析 | 🔄 高频任务
Chirp v2 (USM)
语音识别
提供商: Google
支持: 100+语言
💰 计费: ≈$0.006/分钟
万能听译,支持100+种语言的语音识别,方言识别率极高
🎤 100+语言 | 🌏 方言识别 | 📝 语音转文字 | 🎯 高准确率
Gemini 2.0 Flash-Lite
正式版
提供商: Google
特性: 极致成本
比Flash更轻量,专为高吞吐量API设计,极致成本优化
💰 极低成本 | ⚡ 高吞吐量 | 🔄 API优化
Gemini 1.5 Flash
成熟稳定
提供商: Google
特性: 高性价比
1.5时代的轻量级模型,极其稳定,高性价比选择
⚖️ 性价比高 | 🛡️ 极其稳定 | ⚡ 快速响应

📊 Gemini 家族全系对比与选型指南

🚀 Gemini 3.0/3.1 系列(Preview - 最新旗舰):
• Gemini 3.1 Pro(🆕最强推理)- ARC-AGI-2 77.1%,推理能力翻倍,价格不变
• Gemini 3 Pro(顶级智力)- 最强代理能力、复杂编程、深度推理,含思维链Token
• Gemini 3 Pro Image(多模态生成)- 极高保真度图像生成、图文混合编辑
• Gemini 3 Flash(速度旗舰)- 兼顾速度与多模态理解的旗舰模型

💎 Gemini 2.5 系列(GA - 企业级生产环境):
• Gemini 2.5 Pro(企业标准)- 平衡性能与稳定性,100万上下文
• Gemini 2.5 Flash(主力工作马)- 极低延迟,通用任务首选
• Gemini 2.5 Flash-Lite(成本杀手)- 最便宜模型,海量数据处理
• Gemini 2.5 Flash with Live API(实时交互)- 双向流式,语音助手

🌟 Gemini 2.0 系列(当前主力):
• Gemini 2.0 Flash(实时对话)- 低延迟应用、多模态流式传输
• Gemini 2.0 Flash-Thinking(深度思考)- 类似o1的思维链模型

📚 Gemini 1.5 系列(成熟稳定):
• Gemini 1.5 Pro(超长上下文200万)- 长文档之王
• Gemini 1.5 Flash(稳定)- 高性价比选择
• Gemini 1.5 Flash-8B(微型)- 极低成本

🌐 开源模型
• Gemma 3(开放权重)- 支持文本和图像,140+语言,128K上下文
• Gemma 3n(边缘优化)- 低资源设备,支持多模态

🎨 专用模型
• Imagen 3/4(图像生成)- 照片级逼真,精准文字渲染
• Veo 3/3.1(视频生成)- 高质量视频生成,Text-to-Video
• MedGemini/MedLM(医疗)- 医疗领域专用
OpenAI - ChatGPT Business
最新模型(2026年3月版)

💻 代码生成模型 - 最新

GPT-5.3-Codex
🆕 最强编码
提供商: OpenAI
🔥 400K tokens
💰 输入: ≈$1.75/1M tokens
📤 输出: ≈$14/1M tokens
OpenAI最强代理编码模型,融合GPT-5.2-Codex编码能力与GPT-5.2推理能力,速度提升25%,支持实时交互式编码
✨ 核心能力:
  • SWE-Bench Pro 业界最高分(多语言)
  • Terminal-Bench 2.0 77.3%
  • 实时交互式代理编码(可中途引导)
  • 400K token上下文窗口
  • 首个参与自身训练的AI模型
🤖 代理编码 | 💻 SWE-Bench Pro最高 | ⚡ 速度+25% | 🔄 实时交互 | 🛠️ 多语言
GPT-5.3-Codex-Spark
🆕 极速编码
提供商: OpenAI
特性: 1000+ tokens/秒
首个专为实时编码设计的模型,基于Cerebras WSE-3推理引擎,超1000 tokens/秒,适合交互式编码场景
⚡ 1000+ tokens/秒 | 💻 实时编码 | 🎯 低延迟 | 🔄 交互优先

🌐 文本与通用大模型 - TOP 5

🥇 TOP 1
GPT-5.2
最新旗舰
提供商: OpenAI
特性: 高级推理
💰 输入: ≈$1.75/1M tokens
📤 输出: ≈$14/1M tokens
OpenAI最新旗舰通用大语言模型,擅长高级推理、复杂任务、代码生成、知识图谱构建
🧠 高级推理 | 💻 代码生成 | 📊 知识图谱 | 🎯 复杂任务
🥈 TOP 2
GPT-5.2 Pro
最强推理
提供商: OpenAI
特性: 超高精度
💰 输入: ≈$21/1M tokens
📤 输出: ≈$168/1M tokens
更精准、更强推理能力的Pro版本,专为高可靠性与准确性需求场景设计
💎 超高精度 | 🎯 可靠性强 | 🔬 专业场景 | ⚡ 强推理
🥉 TOP 3
GPT-5
综合最佳
提供商: OpenAI
定位: 平衡性能
💰 输入: ≈$1.25/1M tokens
📤 输出: ≈$10/1M tokens
强大多才的文本理解模型,适合一般推理、代码分析、内容生成等场景
⚖️ 综合平衡 | 💻 代码分析 | 📝 内容生成 | 🎯 通用推理
GPT-4.1
⚠️ 已退役
提供商: OpenAI
模态: 文本+图像
强大且通用的多模态大模型,支持文字和图像理解,可用于视觉结合任务
⚠️ 2026年2月13日已从ChatGPT退役,API暂时可用
GPT-5 mini / nano
轻量版
提供商: OpenAI
💰 超低成本
💰 mini 输入: ≈$0.25/1M tokens
📤 mini 输出: ≈$2/1M tokens
💰 nano 输入: ≈$0.05/1M tokens
📤 nano 输出: ≈$0.40/1M tokens
轻量级低成本版本,适合快速响应、低预算项目、高频调用场景
⚡ 快速响应 | 💰 超低成本 | 🔄 高频调用 | 📊 轻量任务
GPT-4.1-mini / nano
⚠️ 已退役
提供商: OpenAI
模态: 文本+图像
多模态轻量级版本,性能与价格的最佳折衷,支持图像和文本理解
⚠️ 2026年2月13日已从ChatGPT退役,API暂时可用
多模态轻量级版本,性能与价格的最佳折衷,支持图像和文本理解
💰 性价比高 | 📸 图像理解 | ⚡ 快速 | 🔄 多模态

🖼️ 图像生成模型

GPT-image-1.5
图像旗舰
提供商: OpenAI
类型: 文生图
💰 生成成本: $0.01-$0.17/张(按尺寸)
📊 token计费: $5-$10/1M tokens
图像生成旗舰模型,从文字提示生成或编辑高质量图像,支持多种尺寸和风格
🎨 文生图 | ✏️ 图像编辑 | 📐 多尺寸 | 🖼️ 高质量
GPT-image-1 / mini
图像生成
提供商: OpenAI
类型: 文生图
基础图像生成模型,性价比高,适合快速原型和批量生成
💰 性价比 | ⚡ 快速生成 | 📦 批量处理

📹 视频生成模型

Sora-2
视频生成
提供商: OpenAI
功能: 文/图生视频
💰 计费: ≈$0.10/秒
📊 示例: 10秒视频 ≈ $1
根据文字或图像生成动态视频+音频,基础版视频生成模型
🎬 文生视频 | 🖼️ 图生视频 | 🔊 同步音频 | ⚡ 基础版
Sora-2-Pro
高清视频
提供商: OpenAI
质量: 专业级
💰 计费: $0.30-$0.50/秒
📊 示例: 10秒视频 ≈ $3-$5
专业级高清视频输出,更精细的画面质量和动作连贯性
🎬 高清输出 | 💎 专业级 | 🎯 精细画质 | ⚡ Pro版本
⚠️ Pro版本成本较高,建议用于专业内容创作场景

🎧 音频与语音模型

gpt-4o-transcribe
语音转文字
提供商: OpenAI
功能: 语音识别
💰 计费: ≈$0.006/分钟
语音转文字核心模型,支持多语言识别和说话人分离(diarize版本)
🎤 语音识别 | 🌍 多语言 | 👥 说话人分离 | 📝 转录
gpt-4o-mini-tts
文字转语音
提供商: OpenAI
功能: 语音合成
💰 计费: ≈$0.015/分钟
文本转语音模型,高质量自然语音合成,支持多种音色
🔊 语音合成 | 🎵 自然音色 | 🌍 多语言 | ⚡ 高质量

⚙️ 实时与推理优化模型

GPT-realtime / mini
实时响应
提供商: OpenAI
特性: 低延迟
💰 输入: ≈$4/1M tokens
📤 输出: ≈$16/1M tokens
专为低延迟实时交互设计,适合对话机器人、实时客服等场景
⚡ 超低延迟 | 💬 实时对话 | 🤖 智能客服 | 🔄 流式输出
o3 / o3-pro
推理优化
提供商: OpenAI
特性: 推理增强
💰 o3 输入: ≈$2/1M tokens
📤 o3 输出: ≈$8/1M tokens
推理优化模型系列,专注复杂逻辑推理、数学问题、科学计算
🧠 推理优化 | 🔢 数学计算 | 🔬 科学任务 | 💡 逻辑增强
⚠️ o4-mini 已于2026年2月13日退役

📊 模型分类总览

💻 代码生成:GPT-5.3-Codex(🆕最强编码)、GPT-5.3-Codex-Spark(🆕极速编码)
🌐 文本/通用AI:GPT-5.2 系列、GPT-5 系列、GPT-realtime
⚠️ 已退役(2026.02.13):GPT-4.1 系列、GPT-4o、o4-mini
🖼️ 图像生成:GPT-image-1、GPT-image-1-mini、GPT-image-1.5
📹 视频生成:Sora-2、Sora-2-Pro
🎧 语音/音频:gpt-4o-transcribe、gpt-4o-mini-tts
⚙️ 推理/低延迟:o3、o3-pro、realtime系列(o4-mini已退役)
💡 温馨提示:OpenAI官方渠道对接工作正在积极推进中,具体的模型可用性、定价策略、API接入方式等信息,请直接联系 Justin.Zhang 获取最新进展和详细咨询。以上价格基于OpenAI官方标准层计费,实际价格可能因批量折扣、企业协议等因素有所调整。