☁️
阿里云百炼 - 通义千问系列
最新模型(2026年3月版)
💡 优惠说明:启用 Batch批量调用 或 上下文缓存 可享 50%折扣(二者不可叠加)
📝 文本生成模型 - TOP 7
qwen3.5-plus
🆕 最新旗舰
架构:
397B MoE (17B激活)
🔥 1M tokens上下文
💰 输入:
¥0.0008/千token(≈¥0.8/百万token)
📤 输出:
¥0.002/千token
通义千问3.5旗舰版,原生多模态视觉语言模型,支持201种语言,解码速度比Qwen3-Max快8.6-19倍,成本降低60%
✨ 核心能力:
- 原生多模态(文本+图像+视频早期融合)
- 视觉代理能力(UI截图分析、自主操作)
- 1M token超长上下文窗口
- 内置自适应工具调用(搜索、代码解释器)
- SWE-bench 76.4% | LiveCodeBench v6 83.6
🧠 Agentic AI | 👁️ 原生多模态 | ⚡ 8x吞吐提升 | 💰 成本降60% | 🌍 201种语言
qwen3-max
旗舰
版本:
通义千问3
🔥 最高252K上下文
💰 输入:
¥0.0032-0.0096/千token
📤 输出:
¥0.0128-0.0384/千token
通义千问3旗舰版,最强综合能力,支持复杂推理、多工具调用、超长上下文处理
⚡ 复杂推理 | 🛠️ 多工具调用 | 📊 252K超长上下文 | 💎 阶梯计价
DeepSeek-V3
开源SOTA
提供商:
DeepSeek
上下文:
128K
💰 输入:
¥0.004/千token
📤 输出:
¥0.004/千token
第三方最强开源模型之一,数学与代码能力突出,输入输出同价
🧮 数学能力强 | 💻 代码生成优秀 | 🌟 开源SOTA | 💰 性价比高
qwen-plus
主力推荐
类型:
通用高性价比
上下文:
1M tokens
💰 输入:
¥0.0008-0.0048/千token
📤 输出:
¥0.002-0.048/千token
通用高性价比主力模型,平衡效果与成本,支持百万级token上下文
⚖️ 性能成本平衡 | 📚 1M超长上下文 | 🎯 通用场景首选
DeepSeek-R1
推理专用
提供商:
DeepSeek
特长:
逻辑推理
💰 输入:
¥0.004/千token
📤 输出:
¥0.004/千token
推理专用模型,擅长数学、逻辑、代码生成,满血版性能接近Qwen-Max
🧠 推理优化 | 🔢 数学能力强 | 💻 代码生成 | ⚡ 逻辑推理
qwen3-turbo
极速
特性:
超快响应
🏆 超低成本
💰 输入:
¥0.001/千token
📤 输出:
¥0.002/千token
超快响应,适合简单问答、客服、摘要等轻量任务,高并发场景首选
⚡ 极速响应 | 💰 低成本 | 📞 适合客服 | 🔄 高并发
qwen3-coder
代码专用
支持:
80+编程语言
能力:
工具调用
💰 输入:
¥0.002/千token
📤 输出:
¥0.006/千token
专精编程,支持80+语言,可调用工具链、执行代码,开发者助手首选
💻 80+语言 | 🛠️ 工具调用 | ⚙️ 代码执行 | 👨💻 开发专用
👁️ 视觉理解模型(Visual Understanding)
qwen3-vl-max
视觉旗舰
模态:
图像+文本
多图支持:
最多8张
💰 输入:
¥0.008/千token
📤 输出:
¥0.012/千token
通义千问视觉语言旗舰,支持多图输入、高精度OCR、图表结构化、物体定位、视觉推理
✨ 核心能力:
- 多图输入(最多8张同时分析)
- 高精度OCR(含表格、公式、手写)
- 图表结构化(柱状图/折线图→JSON)
- 物体定位(返回 bounding box)
- 视觉推理(如"找出所有红色圆形")
📊 图表分析 | 🔍 OCR识别 | 🖼️ 图文理解 | 💬 视觉问答 | 📍 物体定位
⚠️ 图像输入按像素折算为token,高清图 ≈ 500-2000 tokens
qwen3-vl-plus
通用推荐
类型:
通用视觉理解
💰 性价比高
💰 输入:
¥0.004/千token
📤 输出:
¥0.006/千token
通用视觉理解模型,适合图像描述、基础VQA、简单OCR、单图分析等场景
✨ 核心能力:
- 图像描述生成
- 基础VQA(视觉问答)
- 简单OCR识别
- 单图分析
📝 图像描述 | 💬 视觉问答 | 🔍 简单OCR | ⚖️ 性价比高
qwen3-vl-flash
轻量极速
特性:
快速识别
🏆 超低成本
💰 输入:
¥0.001/千token
📤 输出:
¥0.002/千token
轻量级视觉模型,适合快速图像分类、标签生成、高并发客服图片识别
✨ 核心能力:
- 快速图像分类
- 标签生成
- 高并发客服图片识别
⚡ 极速响应 | 💰 超低成本 | 🏷️ 标签生成 | 📞 客服场景
🎯 专用视觉能力(独立接口)
通义千问 OCR
专用OCR
计费:
¥0.005/次
专用于身份证、发票、银行卡、表格等结构化识别
✨ 支持识别:
- 身份证识别
- 发票识别
- 银行卡识别
- 表格结构化
QVQ(视觉数学解题)
数学专用
计费:
¥0.01/次
识别手写公式、几何图形并自动解答,教育场景专用
✨ 核心能力:
- 手写公式识别
- 几何图形理解
- 自动解题步骤
- 多种题型支持
文档智能(DocAI)
文档处理
计费:
¥0.02/页
PDF/扫描件全文布局还原 + 语义结构化,企业文档处理首选
✨ 核心能力:
- PDF全文布局还原
- 扫描件识别
- 语义结构化
- 表格提取
💡 兼容性说明:所有 VL 模型均支持 OpenAI Vision API 兼容格式,可直接替换 gpt-4o 使用,无需修改代码结构。
🎧 语音理解模型(Speech Understanding)
🎤 语音识别(ASR - Automatic Speech Recognition)
通义听悟 ASR 标准版
推荐
计费:
¥0.003/分钟
最大时长:
4小时/文件
标准语音识别服务,支持中英文混合识别、多采样率、实时流式和文件上传
✨ 核心特性:
- 中英文混合识别
- 支持 8kHz / 16kHz 采样率
- 实时流式识别
- 文件批量上传
🎤 中英混合 | ⚡ 实时流式 | 📁 文件上传 | 💰 性价比高
通义听悟 ASR 会议版
会议专用
计费:
¥0.006/分钟
特性:
说话人分离
会议场景优化版本,支持多人说话人分离、会议纪要自动生成、行业术语优化
✨ 核心特性:
- 多人说话人分离(Speaker Diarization)
- 会议纪要自动生成
- 行业术语优化(医疗/金融/法律)
- 智能标点和语义理解
👥 说话人分离 | 📝 会议纪要 | 🏥 行业优化 | 🎯 高精度
通义听悟 ASR 高精版
超高精度
计费:
¥0.01/分钟
准确率:
98%+
超高准确率识别,支持方言、噪声环境,专业场景首选
✨ 核心特性:
- 超高准确率(98%+)
- 支持方言(粤语、四川话等)
- 噪声环境鲁棒
- 专业术语识别
🎯 98%+准确率 | 🗣️ 方言支持 | 🔊 噪声鲁棒 | 💎 专业场景
🔊 语音合成(TTS - Text-to-Speech)
通义听悟 TTS 标准音色
推荐
计费:
¥0.005/千字
特性:
自然流畅
自然流畅的中文语音合成,支持SSML控制语速、停顿、情感
✨ 核心特性:
- 自然流畅中文发音
- 支持 SSML 控制语速/停顿/情感
- 多种音色选择
- 高质量合成
🎵 自然流畅 | ⚙️ SSML控制 | 🎭 多音色 | 💰 性价比高
通义听悟 TTS 情感音色
情感丰富
计费:
¥0.01/千字
特性:
情感风格
支持多种情感风格的语音合成,可定制企业专属声音
✨ 核心特性:
- 支持"开心""严肃""温柔"等情感风格
- 可定制企业专属声音
- 情感表达自然
- 适合有声读物、广告等
😊 情感丰富 | 🎨 定制音色 | 📚 有声读物 | 🎯 专业场景
数字人语音驱动
视频联动
计费:
按视频生成计费
特性:
口型同步
结合视频生成,实现口型同步的数字人语音驱动
✨ 核心特性:
- 口型精准同步
- 表情自然
- 结合通义万相视频生成
- 适合数字人播报
👤 口型同步 | 🎬 视频联动 | 😊 表情自然 | 📺 播报专用
⏱️ 音频时长限制:最大支持音频时长为 4小时/文件,建议长音频分段处理以获得更好效果
🎬 视频生成模型
wan2.5-video
通义万相2.5
时长:
最长10秒
功能:
文/图生视频
💰 计费:
≈¥0.01/秒(按时长×像素×epoch)
通义万相2.5,支持文生视频、图生视频、数字人合成,单视频最长10秒
📹 文生视频 | 🖼️ 图生视频 | 👤 数字人合成 | ⏱️ 最长10秒
💡 费用 = Σ(视频时长 × 1024 × max_pixels × n_epochs) × 单价
wan2.2-video
通义万相2.2
时长:
最长5秒
🎁 免费额度多
💰 计费:
≈¥0.005/秒(按时长计费)
通义万相2.2基础版,适合快速生成短视频,免费额度较多
🎬 基础版 | ⏱️ 最长5秒 | 🎁 免费额度 | ⚡ 快速生成
🔢 向量嵌入模型
text-embedding-v4
最强嵌入
MTEB分数:
68.36
语言:
中英混合
💰 输入:
¥0.0001/千token
📤 输出:
无计费
当前最强中文/英文混合嵌入模型,MTEB得分68.36,适用于RAG、语义检索
🏆 最强嵌入 | 🌏 中英混合 | 🔍 语义检索 | 💎 RAG首选
📊 通义千问系列全系对比
📝 文本生成模型:
• qwen3.5-plus(🆕最新旗舰)- 397B MoE原生多模态,1M上下文,201种语言,成本降60%
• qwen3-max(旗舰)- 最强综合能力,252K超长上下文,复杂推理
• DeepSeek-V3(开源SOTA)- 数学与代码能力突出,性价比高
• qwen-plus(主力推荐)- 通用高性价比,1M上下文
• DeepSeek-R1(推理专用)- 逻辑推理、数学、代码生成
• qwen3-turbo(极速)- 超低成本,高并发场景
• qwen3-coder(代码专用)- 80+编程语言,工具调用
👁️ 视觉理解模型:
• qwen3-vl-max(视觉旗舰)- 多图输入、高精度OCR、图表结构化
• qwen3-vl-plus(通用推荐)- 图像描述、基础VQA、单图分析
🔢 嵌入模型:
• text-embedding-v4(最强嵌入)- MTEB 68.36,中英混合,RAG首选
• qwen3.5-plus(🆕最新旗舰)- 397B MoE原生多模态,1M上下文,201种语言,成本降60%
• qwen3-max(旗舰)- 最强综合能力,252K超长上下文,复杂推理
• DeepSeek-V3(开源SOTA)- 数学与代码能力突出,性价比高
• qwen-plus(主力推荐)- 通用高性价比,1M上下文
• DeepSeek-R1(推理专用)- 逻辑推理、数学、代码生成
• qwen3-turbo(极速)- 超低成本,高并发场景
• qwen3-coder(代码专用)- 80+编程语言,工具调用
👁️ 视觉理解模型:
• qwen3-vl-max(视觉旗舰)- 多图输入、高精度OCR、图表结构化
• qwen3-vl-plus(通用推荐)- 图像描述、基础VQA、单图分析
🔢 嵌入模型:
• text-embedding-v4(最强嵌入)- MTEB 68.36,中英混合,RAG首选
🔶
AWS Bedrock
最新模型(2026年3月版)
🔥 Anthropic Claude 4/4.5/4.6 系列
Claude Opus 4.6
🆕 最强旗舰
提供商:
Anthropic
🔥 200K / 1M (Preview)
Anthropic最强模型,将多天开发项目压缩至数小时,支持Agent Teams多代理协作、深度推理和超长上下文处理
🧠 最强推理 | 🤖 Agent Teams多代理协作 | 💻 自主编码 | 📊 1M上下文(Preview) | 📑 PPT生成
Claude Sonnet 4.6
🆕 性价比之王
提供商:
Anthropic
🔥 200K / 1M (Preview)
接近Opus级别智能,Sonnet价格。SWE-bench Verified 77.2%,计算机使用准确率94%,70%开发者更偏好此模型
⚡ Opus级智能Sonnet价格 | 💻 SWE-bench 77.2% | 🖥️ 计算机使用94% | 🎯 日常开发首选
Claude Opus 4.5
旗舰
提供商:
Anthropic
上下文:
200K
最新旗舰模型,专业软件工程任务的最佳选择,成本降低1/3
⚠️ 5倍输出token消耗率 | ✨ 混合推理模式 | 🛠️ 工具搜索和使用
Claude Sonnet 4.5
推荐
提供商:
Anthropic
上下文:
200K
快速迭代和规模化用户体验的理想选择,性能与成本的完美平衡
⚡ 快速响应 | 🎯 适合生产环境 | 💡 扩展思维功能 | 🛠️ 工具使用
Claude Haiku 4.5
极速
提供商:
Anthropic
上下文:
200K
子代理和免费层产品的轻量级模型,超低延迟响应
⚡ 超低延迟 | 💎 极低成本 | 🤖 适合子代理 | 📱 轻量部署
Claude Opus 4
强大
提供商:
Anthropic
上下文:
200K
最强大的Claude模型,具有混合推理能力,支持即时响应和深度思考
🧠 混合推理 | 💻 自主编码 | 🔧 工具使用 | 🎯 复杂任务
Claude Sonnet 4
均衡
提供商:
Anthropic
上下文:
200K
中等规模模型,适合高容量使用场景,努力参数可控
⚡ 高容量场景 | 🎛️ 努力参数可控 | 💰 性价比优秀 | 🔄 稳定输出
👁️ Amazon Nova 系列
Amazon Nova Premier
即将发布
提供商:
Amazon
级别:
企业级
AWS最强多模态模型,用于复杂视觉任务和企业级应用
🧠 高级图像分类 | 🎬 复杂视频分析 | 📄 文档VQA | 📐 技术图表解读
Amazon Nova Pro
高性能
提供商:
Amazon
模态:
多模态
高性能多模态模型,准确性、速度和成本的最佳平衡
📊 图像/视频/文本处理 | ⚡ 高性能 | 💰 性价比高 | 📄 OCR识别
Amazon Nova Lite
经济
提供商:
Amazon
模态:
多模态
超低成本多模态模型,快速处理图像、视频和文本
💎 超低成本 | 🖼️ 快速图像分类 | 🎬 基础视频分析 | 📝 OCR识别
Amazon Nova Micro
🥇 最低成本
提供商:
Amazon
类型:
纯文本
纯文本模型,提供最低延迟和成本,适合大规模部署
⚡ 最低延迟 | 💎 极致低成本 | 📱 大规模部署 | 📝 纯文本处理
Amazon Nova Reel
🎬 视频
提供商:
Amazon
类型:
视频生成
最先进的AI视频生成模型,可生成高质量短视频内容
🎬 AI视频生成 | 🎨 高质量画面 | ⚡ 快速生成 | 📱 多分辨率
Amazon Nova Canvas
🎨 图像
提供商:
Amazon
类型:
图像生成
最先进的图像生成模型,支持高质量图像创作
🎨 AI图像生成 | 🖼️ 高分辨率 | ✏️ 图像编辑 | 🎯 精准控制
👁️ Anthropic Claude 系列 - 视觉理解能力
Claude Opus 4.5 Vision
最佳视觉
提供商:
Anthropic
上下文:
200K
最佳视觉模型,支持复杂视觉解释和多步导航
🧠 深度理解 | 📊 图表解读 | 💻 截图转代码 | 🎯 复杂场景
Claude Sonnet 4.5 Vision
平衡推荐
提供商:
Anthropic
上下文:
200K
平衡性能的视觉理解,适合生产环境
🖼️ 图像理解 | 📊 视觉推理 | 📄 文档VQA | ⚡ 生产环境首选
Claude Haiku 4.5 Vision
轻量级
提供商:
Anthropic
上下文:
200K
轻量级视觉处理,适合高并发场景
⚡ 快速图像分类 | 💬 基础视觉问答 | 💎 低成本 | 📱 高并发
Claude 3.5 Sonnet Vision
强大视觉
提供商:
Anthropic
上下文:
200K
强大的图像处理能力,适合专业视觉任务
🔬 专业图像分析 | 📄 技术文档理解 | 📊 图表解读 | 🎨 设计稿分析
👁️ Meta Llama 系列
Llama 4 Scout 17B
原生多模态
提供商:
Meta
⚡ 1000万 tokens 上下文
通用多模态模型,支持超长1000万token上下文长度,文本和图像理解
🖼️ 图像字幕生成 | 🔍 视觉定位 | 💬 视觉问答 | 📏 10M上下文
Llama 4 Maverick 17B
强大
提供商:
Meta
参数:
4000亿 MoE
4000亿参数的多模态模型,支持12种语言的文本和图像处理
🌍 12种语言 | 🖼️ 多语言图像理解 | 📊 100万tokens | 🧠 视觉推理
Llama 3.2 90B Vision
企业级
提供商:
Meta
参数:
90B
企业级视觉智能模型,适合大规模视觉任务
🏢 企业级图像分析 | 📄 文档智能处理 | 📊 视觉数据提取 | 🔄 批量任务
Llama 3.2 11B Vision
中等规模
提供商:
Meta
参数:
11B
中等规模视觉理解模型,平衡性能与成本
🖼️ 通用图像理解 | 💬 视觉问答 | 🔍 场景分析 | 💎 高性价比
🧠 其他专业模型
DeepSeek-V3.1
DeepSeek
提供商:
DeepSeek
上下文:
128K
高性能推理模型,适合复杂推理任务
🧠 高性能推理 | 💻 代码生成 | 📊 数据分析 | 💎 高性价比
DeepSeek-R1
DeepSeek
提供商:
DeepSeek
上下文:
128K
推理优化模型,专注提升推理效率
🔬 推理优化 | 🧮 数学推理 | 💡 逻辑分析 | ⚡ 高效推理
Kimi K2 Thinking
Moonshot AI
提供商:
Moonshot AI
上下文:
128K
思维链推理模型,支持复杂任务的步骤化推理
🧠 思维链推理 | 📝 步骤化分析 | 💻 代码生成 | 🔧 工具使用
Qwen3-VL-235B-A22B
Qwen
提供商:
Qwen
模态:
视觉语言
视觉语言模型,支持图像和视频理解
🖼️ 图像理解 | 🎬 视频分析 | 📄 文档处理 | 🌍 多语言支持
Qwen3-Coder-480B-A35B
Qwen
提供商:
Qwen
专用:
代码生成
代码生成专用模型,支持多种编程语言
💻 代码生成 | 🔧 多语言编程 | 📝 代码补全 | 🐛 Bug修复
NVIDIA Nemotron Nano 2 9B
NVIDIA
提供商:
NVIDIA
参数:
9B
轻量级推理模型,适合边缘部署
⚡ 轻量级 | 📱 边缘部署 | 💎 极低成本 | 🔄 快速推理
🔵
Google Cloud - Vertex AI
最新模型(2026年3月版 - 含Gemini 3.0/3.1系列)
💡 成本优化:启用 Context Caching(上下文缓存) 可享 90%折扣(约$0.20/1M tokens),适合重复分析大型文档
🚀 Gemini 3.0/3.1 系列 - 最新旗舰
🥇 TOP 1
Gemini 3.1 Pro (Preview)
🆕 最强推理
提供商:
Google
🔥 100万 tokens
💰 输入:
$2.00/1M tokens
📤 输出:
$12.00/1M tokens
Gemini 3 Pro的重大升级版,ARC-AGI-2推理得分77.1%(3 Pro的2倍以上),价格不变。支持多模态输入(文/图/音/视频),输出最高64K tokens
✨ 核心能力:
- ARC-AGI-2 推理得分 77.1%(超2倍提升)
- 增强的代理工作流与工具编排
- 新增Medium思考级别(平衡成本/速度/性能)
- 100万token上下文 / 64K输出
- GitHub Copilot集成支持
🧠 推理翻倍 | 🤖 代理增强 | 💻 编程优化 | 📊 100万上下文 | 💰 价格不变
🥈 TOP 2
Gemini 3 Pro (Preview)
顶级智力
提供商:
Google
🔥 100万 tokens
💰 输入(≤200K):
$2.00/1M tokens
📤 输出(含思维链):
$12.00/1M tokens
🔄 上下文缓存:
~$0.20/1M tokens
🔍 Grounding搜索:
$35/1000次查询
最强代理能力,专为Agentic Workflow设计,具备自适应思考(Adaptive Thinking)能力,可处理多步推理和自我纠错,适合复杂编程、深度推理任务
✨ 核心能力:
- Agentic Workflow(代理工作流)
- 自适应思考(Adaptive Thinking)
- 多步推理与自我纠错
- 100万token上下文窗口
- 强大的Grounding(地面实况)能力
🧠 最强推理 | 🤖 代理工作流 | 💻 复杂编程 | 🔄 自我纠错 | 📊 100万上下文
⚠️ 长上下文定价:>200K context时输入价格约为 $4.00/1M tokens(翻倍)
💡 输出价格包含内部生成的"思维链"(Thinking Tokens)消耗
💡 输出价格包含内部生成的"思维链"(Thinking Tokens)消耗
� TOP 3
Gemini 3 Pro Image
多模态生成
提供商:
Google
模态:
文本+图像
💰 文本输入:
$2.00/1M tokens
🖼️ 图像输入:
$0.0011/张
📤 文本输出:
$12.00/1M tokens
🎨 图像输出(1024x1024):
~$0.134/张
🎨 高清4K输出:
~$0.24/张
极高保真度图像生成,原生多模态模型,支持复杂的"图生图"或"文本+图"混合输出,结合推理能力优化构图和细节
✨ 核心能力:
- 高保真图像生成(1024x1024 / 4K)
- 图文混合编辑与推理
- 图生图(Image-to-Image)
- 文本+图像混合输入输出
- 智能构图优化
🎨 极高保真 | 🖼️ 图文混合 | 🔄 图生图 | 🧠 推理优化 | 📐 智能构图
TOP 4
Gemini 3 Flash
速度旗舰
提供商:
Google
模态:
文/图/视/音
💰 输入:
预计 $0.15-0.30/1M tokens
📤 输出:
预计 $0.60-1.20/1M tokens
兼顾速度与多模态理解的旗舰模型,在处理复杂的多模态(文本、图像、视频、音频)理解任务上表现极佳,同时保持较低延迟
✨ 核心能力:
- 多模态理解(文/图/视/音)
- 低延迟快速响应
- 复杂任务处理
- 适合代理任务
⚡ 极速响应 | 🎭 多模态 | 🤖 代理任务 | 🎯 高智商
💎 Gemini 2.5 系列 - 企业级生产环境(GA)
Gemini 2.5 Pro
企业标准
提供商:
Google
🔥 100万 tokens
💰 输入:
$1.25/1M tokens
� 输出:
$10.00/1M tokens
企业级首选,平衡了顶级性能与生产环境稳定性,适合大多数需要高智商但不需要Gemini 3极致推理的场景
✨ 核心能力:
- 高性能推理与编码
- 100万token上下文
- 生产环境稳定性
- 大规模批量处理
🏢 企业首选 | 🎯 高性能 | 🛡️ 稳定可靠 | 📊 100万上下文 | ⚖️ 性价比优
💡 相比Gemini 3 Pro,输出成本低约20%,适合大规模批量处理复杂任务
Gemini 2.5 Flash
主力工作马
提供商:
Google
特性:
极速+多模态
💰 输入:
预计 $0.15-0.25/1M tokens
📤 输出:
预计 $0.60-1.00/1M tokens
主力工作马,适合大多数通用任务,延迟极低,性价比极高,支持多模态流式传输
✨ 核心能力:
- 极低延迟响应
- 多模态理解
- 流式传输
- 通用任务处理
⚡ 闪电速度 | 🎭 多模态 | 💰 性价比王 | 🔄 流式传输 | 🎯 通用首选
Gemini 2.5 Flash-Lite
极致成本
提供商:
Google
🏆 成本最低
💰 输入:
$0.10/1M tokens
📤 输出:
$0.40/1M tokens
成本杀手,Vertex AI上最便宜的模型,专门用来替代传统NLP任务(如分类、实体提取)或处理海量日志,仅需$1即可处理1000万个单词
✨ 核心能力:
- 海量数据归类
- 简单提取任务
- 日志分析
- 高吞吐量处理
💰 极致低价 | 📊 海量数据 | 🔄 高吞吐量 | 📝 简单任务 | 🏆 成本王者
💡 配合Context Caching(上下文缓存),处理长文档的成本几乎可以忽略不计
Gemini 2.5 Flash (Live API)
实时交互
提供商:
Google
特性:
双向流式
💰 计费:
与Flash相同
实时双向流式传输,专为低延迟的语音和情感对话设计,适合构建类似真人的语音助手
✨ 核心能力:
- 实时双向流式传输
- 低延迟语音交互
- 情感对话
- 语音助手构建
🎤 实时语音 | 🔄 双向流式 | ⚡ 低延迟 | 💬 情感对话 | 🤖 语音助手
🌟 Gemini 2.0 系列 - 当前主力
Gemini 2.0 Flash
正式版
提供商:
Google
模态:
文/图/音/视
💰 输入(文/图/视):
$0.15/1M tokens
💰 输入(音频):
$0.70/1M tokens
📤 输出:
$0.60/1M tokens
实时对话、低延迟应用、多模态流式传输的主力选择,原生支持实时语音交互
⚡ 极速响应 | 🎤 实时语音 | 📹 视频理解 | 💰 性价比高
Imagen 3
图像生成
提供商:
Google
类型:
文生图
💰 标准生成:
$0.03/张
⚡ 快速模式:
$0.015/张
✏️ 图片编辑:
$0.03/张
画质天花板,生成照片级逼真图像,能精准绘制图片中的文字(霓虹灯牌、T恤等)
📸 照片级画质 | ✍️ 精准文字 | 🎨 图片编辑 | 🖼️ 文生图
Google Veo (Veo 2)
视频生成
提供商:
Google
分辨率:
1080p+
💰 计费:
$0.40-$0.75/秒
📊 示例:
10秒视频 ≈ $5
Sora级视频生成,生成1080p+高清视频,画面连贯且包含同步音效
🎬 高清视频 | 🔊 同步音效 | 📹 画面连贯 | ⚡ Sora级别
⚠️ 生成高清视频成本较高,建议在生产环境谨慎开放权限
Gemini 1.5 Pro
成熟稳定
提供商:
Google
🔥 200万 tokens
💰 输入(128K内):
$1.25/1M tokens
📤 输出(128K内):
$5.00/1M tokens
长文档之王,凭借200万token上下文窗口,处理超长PDF、全代码库分析的唯一选择
📚 200万上下文 | 📄 长文档分析 | 💻 全代码库 | 🎯 成熟稳定
Claude 3.5 Sonnet
第三方王牌
提供商:
Anthropic
特性:
代码专家
💰 输入:
$3.00/1M tokens
📤 输出:
$15.00/1M tokens
Anthropic王牌模型,逻辑推理和代码能力极强,在Vertex Model Garden中极受欢迎
🧠 逻辑推理 | 💻 代码能力 | 🎯 热门选择 | 🏆 第三方最强
Gemini 2.0 Flash-Thinking
实验性
提供商:
Google
特长:
思维链
💰 计费:
实验性免费/按Pro计费
类似o1的思维链模型,专攻数学竞赛题、复杂科学研究,会"思考"后再回答
🤔 深度思考 | 🔢 数学竞赛 | 🔬 科研专用 | 🧠 思维链推理
Llama 3.2 (90B/11B)
开源
提供商:
Meta
特性:
开源生态
💰 MaaS托管:
$0.20-$0.50/1M tokens
Meta开源模型,适合需要私有化部署或极低成本微调的企业
🌟 开源 | 🔧 可微调 | 💰 低成本 | 🏢 私有化部署
Gemini 1.5 Flash-8B
价格屠夫
提供商:
Google
🏆 超低成本
💰 输入:
$0.0375/1M tokens
📤 输出:
$0.15/1M tokens
极其便宜,适合处理海量日志分析、简单数据提取,甚至比GPT-4o-mini更便宜
💰 极低成本 | ⚡ 超低延迟 | 📊 日志分析 | 🔄 高频任务
Chirp v2 (USM)
语音识别
提供商:
Google
支持:
100+语言
💰 计费:
≈$0.006/分钟
万能听译,支持100+种语言的语音识别,方言识别率极高
🎤 100+语言 | 🌏 方言识别 | 📝 语音转文字 | 🎯 高准确率
Gemini 2.0 Flash-Lite
正式版
提供商:
Google
特性:
极致成本
比Flash更轻量,专为高吞吐量API设计,极致成本优化
💰 极低成本 | ⚡ 高吞吐量 | 🔄 API优化
Gemini 1.5 Flash
成熟稳定
提供商:
Google
特性:
高性价比
1.5时代的轻量级模型,极其稳定,高性价比选择
⚖️ 性价比高 | 🛡️ 极其稳定 | ⚡ 快速响应
📊 Gemini 家族全系对比与选型指南
🚀 Gemini 3.0/3.1 系列(Preview - 最新旗舰):
• Gemini 3.1 Pro(🆕最强推理)- ARC-AGI-2 77.1%,推理能力翻倍,价格不变
• Gemini 3 Pro(顶级智力)- 最强代理能力、复杂编程、深度推理,含思维链Token
• Gemini 3 Pro Image(多模态生成)- 极高保真度图像生成、图文混合编辑
• Gemini 3 Flash(速度旗舰)- 兼顾速度与多模态理解的旗舰模型
💎 Gemini 2.5 系列(GA - 企业级生产环境):
• Gemini 2.5 Pro(企业标准)- 平衡性能与稳定性,100万上下文
• Gemini 2.5 Flash(主力工作马)- 极低延迟,通用任务首选
• Gemini 2.5 Flash-Lite(成本杀手)- 最便宜模型,海量数据处理
• Gemini 2.5 Flash with Live API(实时交互)- 双向流式,语音助手
🌟 Gemini 2.0 系列(当前主力):
• Gemini 2.0 Flash(实时对话)- 低延迟应用、多模态流式传输
• Gemini 2.0 Flash-Thinking(深度思考)- 类似o1的思维链模型
📚 Gemini 1.5 系列(成熟稳定):
• Gemini 1.5 Pro(超长上下文200万)- 长文档之王
• Gemini 1.5 Flash(稳定)- 高性价比选择
• Gemini 1.5 Flash-8B(微型)- 极低成本
🌐 开源模型:
• Gemma 3(开放权重)- 支持文本和图像,140+语言,128K上下文
• Gemma 3n(边缘优化)- 低资源设备,支持多模态
🎨 专用模型:
• Imagen 3/4(图像生成)- 照片级逼真,精准文字渲染
• Veo 3/3.1(视频生成)- 高质量视频生成,Text-to-Video
• MedGemini/MedLM(医疗)- 医疗领域专用
• Gemini 3.1 Pro(🆕最强推理)- ARC-AGI-2 77.1%,推理能力翻倍,价格不变
• Gemini 3 Pro(顶级智力)- 最强代理能力、复杂编程、深度推理,含思维链Token
• Gemini 3 Pro Image(多模态生成)- 极高保真度图像生成、图文混合编辑
• Gemini 3 Flash(速度旗舰)- 兼顾速度与多模态理解的旗舰模型
💎 Gemini 2.5 系列(GA - 企业级生产环境):
• Gemini 2.5 Pro(企业标准)- 平衡性能与稳定性,100万上下文
• Gemini 2.5 Flash(主力工作马)- 极低延迟,通用任务首选
• Gemini 2.5 Flash-Lite(成本杀手)- 最便宜模型,海量数据处理
• Gemini 2.5 Flash with Live API(实时交互)- 双向流式,语音助手
🌟 Gemini 2.0 系列(当前主力):
• Gemini 2.0 Flash(实时对话)- 低延迟应用、多模态流式传输
• Gemini 2.0 Flash-Thinking(深度思考)- 类似o1的思维链模型
📚 Gemini 1.5 系列(成熟稳定):
• Gemini 1.5 Pro(超长上下文200万)- 长文档之王
• Gemini 1.5 Flash(稳定)- 高性价比选择
• Gemini 1.5 Flash-8B(微型)- 极低成本
🌐 开源模型:
• Gemma 3(开放权重)- 支持文本和图像,140+语言,128K上下文
• Gemma 3n(边缘优化)- 低资源设备,支持多模态
🎨 专用模型:
• Imagen 3/4(图像生成)- 照片级逼真,精准文字渲染
• Veo 3/3.1(视频生成)- 高质量视频生成,Text-to-Video
• MedGemini/MedLM(医疗)- 医疗领域专用
🟢
OpenAI - ChatGPT Business
最新模型(2026年3月版)
🚫 重要:Business版本 - 不提供API Key调用!仅支持网页问答和Codex IDE插件
💻 代码生成模型 - 最新
GPT-5.3-Codex
🆕 最强编码
提供商:
OpenAI
🔥 400K tokens
💰 输入:
≈$1.75/1M tokens
📤 输出:
≈$14/1M tokens
OpenAI最强代理编码模型,融合GPT-5.2-Codex编码能力与GPT-5.2推理能力,速度提升25%,支持实时交互式编码
✨ 核心能力:
- SWE-Bench Pro 业界最高分(多语言)
- Terminal-Bench 2.0 77.3%
- 实时交互式代理编码(可中途引导)
- 400K token上下文窗口
- 首个参与自身训练的AI模型
🤖 代理编码 | 💻 SWE-Bench Pro最高 | ⚡ 速度+25% | 🔄 实时交互 | 🛠️ 多语言
GPT-5.3-Codex-Spark
🆕 极速编码
提供商:
OpenAI
特性:
1000+ tokens/秒
首个专为实时编码设计的模型,基于Cerebras WSE-3推理引擎,超1000 tokens/秒,适合交互式编码场景
⚡ 1000+ tokens/秒 | 💻 实时编码 | 🎯 低延迟 | 🔄 交互优先
🌐 文本与通用大模型 - TOP 5
🥇 TOP 1
GPT-5.2
最新旗舰
提供商:
OpenAI
特性:
高级推理
💰 输入:
≈$1.75/1M tokens
📤 输出:
≈$14/1M tokens
OpenAI最新旗舰通用大语言模型,擅长高级推理、复杂任务、代码生成、知识图谱构建
🧠 高级推理 | 💻 代码生成 | 📊 知识图谱 | 🎯 复杂任务
🥈 TOP 2
GPT-5.2 Pro
最强推理
提供商:
OpenAI
特性:
超高精度
💰 输入:
≈$21/1M tokens
📤 输出:
≈$168/1M tokens
更精准、更强推理能力的Pro版本,专为高可靠性与准确性需求场景设计
💎 超高精度 | 🎯 可靠性强 | 🔬 专业场景 | ⚡ 强推理
🥉 TOP 3
GPT-5
综合最佳
提供商:
OpenAI
定位:
平衡性能
💰 输入:
≈$1.25/1M tokens
📤 输出:
≈$10/1M tokens
强大多才的文本理解模型,适合一般推理、代码分析、内容生成等场景
⚖️ 综合平衡 | 💻 代码分析 | 📝 内容生成 | 🎯 通用推理
GPT-4.1
⚠️ 已退役
提供商:
OpenAI
模态:
文本+图像
强大且通用的多模态大模型,支持文字和图像理解,可用于视觉结合任务
GPT-5 mini / nano
轻量版
提供商:
OpenAI
💰 超低成本
💰 mini 输入:
≈$0.25/1M tokens
📤 mini 输出:
≈$2/1M tokens
💰 nano 输入:
≈$0.05/1M tokens
📤 nano 输出:
≈$0.40/1M tokens
轻量级低成本版本,适合快速响应、低预算项目、高频调用场景
⚡ 快速响应 | 💰 超低成本 | 🔄 高频调用 | 📊 轻量任务
GPT-4.1-mini / nano
⚠️ 已退役
提供商:
OpenAI
模态:
文本+图像
多模态轻量级版本,性能与价格的最佳折衷,支持图像和文本理解
多模态轻量级版本,性能与价格的最佳折衷,支持图像和文本理解
💰 性价比高 | 📸 图像理解 | ⚡ 快速 | 🔄 多模态
🖼️ 图像生成模型
GPT-image-1.5
图像旗舰
提供商:
OpenAI
类型:
文生图
💰 生成成本:
$0.01-$0.17/张(按尺寸)
📊 token计费:
$5-$10/1M tokens
图像生成旗舰模型,从文字提示生成或编辑高质量图像,支持多种尺寸和风格
🎨 文生图 | ✏️ 图像编辑 | 📐 多尺寸 | 🖼️ 高质量
GPT-image-1 / mini
图像生成
提供商:
OpenAI
类型:
文生图
基础图像生成模型,性价比高,适合快速原型和批量生成
💰 性价比 | ⚡ 快速生成 | 📦 批量处理
📹 视频生成模型
Sora-2
视频生成
提供商:
OpenAI
功能:
文/图生视频
💰 计费:
≈$0.10/秒
📊 示例:
10秒视频 ≈ $1
根据文字或图像生成动态视频+音频,基础版视频生成模型
🎬 文生视频 | 🖼️ 图生视频 | 🔊 同步音频 | ⚡ 基础版
Sora-2-Pro
高清视频
提供商:
OpenAI
质量:
专业级
💰 计费:
$0.30-$0.50/秒
📊 示例:
10秒视频 ≈ $3-$5
专业级高清视频输出,更精细的画面质量和动作连贯性
🎬 高清输出 | 💎 专业级 | 🎯 精细画质 | ⚡ Pro版本
⚠️ Pro版本成本较高,建议用于专业内容创作场景
🎧 音频与语音模型
gpt-4o-transcribe
语音转文字
提供商:
OpenAI
功能:
语音识别
💰 计费:
≈$0.006/分钟
语音转文字核心模型,支持多语言识别和说话人分离(diarize版本)
🎤 语音识别 | 🌍 多语言 | 👥 说话人分离 | 📝 转录
gpt-4o-mini-tts
文字转语音
提供商:
OpenAI
功能:
语音合成
💰 计费:
≈$0.015/分钟
文本转语音模型,高质量自然语音合成,支持多种音色
🔊 语音合成 | 🎵 自然音色 | 🌍 多语言 | ⚡ 高质量
⚙️ 实时与推理优化模型
GPT-realtime / mini
实时响应
提供商:
OpenAI
特性:
低延迟
💰 输入:
≈$4/1M tokens
📤 输出:
≈$16/1M tokens
专为低延迟实时交互设计,适合对话机器人、实时客服等场景
⚡ 超低延迟 | 💬 实时对话 | 🤖 智能客服 | 🔄 流式输出
o3 / o3-pro
推理优化
提供商:
OpenAI
特性:
推理增强
💰 o3 输入:
≈$2/1M tokens
📤 o3 输出:
≈$8/1M tokens
推理优化模型系列,专注复杂逻辑推理、数学问题、科学计算
🧠 推理优化 | 🔢 数学计算 | 🔬 科学任务 | 💡 逻辑增强
⚠️ o4-mini 已于2026年2月13日退役
📊 模型分类总览
💻 代码生成:GPT-5.3-Codex(🆕最强编码)、GPT-5.3-Codex-Spark(🆕极速编码)
🌐 文本/通用AI:GPT-5.2 系列、GPT-5 系列、GPT-realtime
⚠️ 已退役(2026.02.13):GPT-4.1 系列、GPT-4o、o4-mini
🖼️ 图像生成:GPT-image-1、GPT-image-1-mini、GPT-image-1.5
📹 视频生成:Sora-2、Sora-2-Pro
🎧 语音/音频:gpt-4o-transcribe、gpt-4o-mini-tts
⚙️ 推理/低延迟:o3、o3-pro、realtime系列(o4-mini已退役)
🌐 文本/通用AI:GPT-5.2 系列、GPT-5 系列、GPT-realtime
⚠️ 已退役(2026.02.13):GPT-4.1 系列、GPT-4o、o4-mini
🖼️ 图像生成:GPT-image-1、GPT-image-1-mini、GPT-image-1.5
📹 视频生成:Sora-2、Sora-2-Pro
🎧 语音/音频:gpt-4o-transcribe、gpt-4o-mini-tts
⚙️ 推理/低延迟:o3、o3-pro、realtime系列(o4-mini已退役)
💡 温馨提示:OpenAI官方渠道对接工作正在积极推进中,具体的模型可用性、定价策略、API接入方式等信息,请直接联系 Justin.Zhang 获取最新进展和详细咨询。以上价格基于OpenAI官方标准层计费,实际价格可能因批量折扣、企业协议等因素有所调整。