Xnurta可选择 AI 模型列表（研发版）

☁️

阿里云百炼 - 通义千问系列

最新模型（2026年3月版）

💡 优惠说明：启用 Batch批量调用 或 上下文缓存 可享 50%折扣（二者不可叠加）

📝 文本生成模型 - TOP 7

qwen3.5-plus

🆕 最新旗舰

架构: 397B MoE (17B激活)

🔥 1M tokens上下文

💰 输入: ¥0.0008/千token（≈¥0.8/百万token）

📤 输出: ¥0.002/千token

通义千问3.5旗舰版，原生多模态视觉语言模型，支持201种语言，解码速度比Qwen3-Max快8.6-19倍，成本降低60%

✨ 核心能力：

原生多模态（文本+图像+视频早期融合）
视觉代理能力（UI截图分析、自主操作）
1M token超长上下文窗口
内置自适应工具调用（搜索、代码解释器）
SWE-bench 76.4% | LiveCodeBench v6 83.6

🧠 Agentic AI | 👁️ 原生多模态 | ⚡ 8x吞吐提升 | 💰 成本降60% | 🌍 201种语言

qwen3-max

旗舰

版本: 通义千问3

🔥 最高252K上下文

💰 输入: ¥0.0032-0.0096/千token

📤 输出: ¥0.0128-0.0384/千token

通义千问3旗舰版，最强综合能力，支持复杂推理、多工具调用、超长上下文处理

⚡ 复杂推理 | 🛠️ 多工具调用 | 📊 252K超长上下文 | 💎 阶梯计价

DeepSeek-V3

开源SOTA

提供商: DeepSeek

上下文: 128K

💰 输入: ¥0.004/千token

📤 输出: ¥0.004/千token

第三方最强开源模型之一，数学与代码能力突出，输入输出同价

🧮 数学能力强 | 💻 代码生成优秀 | 🌟 开源SOTA | 💰 性价比高

qwen-plus

主力推荐

类型: 通用高性价比

上下文: 1M tokens

💰 输入: ¥0.0008-0.0048/千token

📤 输出: ¥0.002-0.048/千token

通用高性价比主力模型，平衡效果与成本，支持百万级token上下文

⚖️ 性能成本平衡 | 📚 1M超长上下文 | 🎯 通用场景首选

DeepSeek-R1

推理专用

提供商: DeepSeek

特长: 逻辑推理

💰 输入: ¥0.004/千token

📤 输出: ¥0.004/千token

推理专用模型，擅长数学、逻辑、代码生成，满血版性能接近Qwen-Max

🧠 推理优化 | 🔢 数学能力强 | 💻 代码生成 | ⚡ 逻辑推理

qwen3-turbo

极速

特性: 超快响应

🏆 超低成本

💰 输入: ¥0.001/千token

📤 输出: ¥0.002/千token

超快响应，适合简单问答、客服、摘要等轻量任务，高并发场景首选

⚡ 极速响应 | 💰 低成本 | 📞 适合客服 | 🔄 高并发

qwen3-coder

代码专用

支持: 80+编程语言

能力: 工具调用

💰 输入: ¥0.002/千token

📤 输出: ¥0.006/千token

专精编程，支持80+语言，可调用工具链、执行代码，开发者助手首选

💻 80+语言 | 🛠️ 工具调用 | ⚙️ 代码执行 | 👨‍💻 开发专用

👁️ 视觉理解模型（Visual Understanding）

qwen3-vl-max

视觉旗舰

模态: 图像+文本

多图支持: 最多8张

💰 输入: ¥0.008/千token

📤 输出: ¥0.012/千token

通义千问视觉语言旗舰，支持多图输入、高精度OCR、图表结构化、物体定位、视觉推理

✨ 核心能力：

多图输入（最多8张同时分析）
高精度OCR（含表格、公式、手写）
图表结构化（柱状图/折线图→JSON）
物体定位（返回 bounding box）
视觉推理（如"找出所有红色圆形"）

📊 图表分析 | 🔍 OCR识别 | 🖼️ 图文理解 | 💬 视觉问答 | 📍 物体定位

⚠️ 图像输入按像素折算为token，高清图 ≈ 500-2000 tokens

qwen3-vl-plus

通用推荐

类型: 通用视觉理解

💰 性价比高

💰 输入: ¥0.004/千token

📤 输出: ¥0.006/千token

通用视觉理解模型，适合图像描述、基础VQA、简单OCR、单图分析等场景

✨ 核心能力：

图像描述生成
基础VQA（视觉问答）
简单OCR识别
单图分析

📝 图像描述 | 💬 视觉问答 | 🔍 简单OCR | ⚖️ 性价比高

qwen3-vl-flash

轻量极速

特性: 快速识别

🏆 超低成本

💰 输入: ¥0.001/千token

📤 输出: ¥0.002/千token

轻量级视觉模型，适合快速图像分类、标签生成、高并发客服图片识别

✨ 核心能力：

快速图像分类
标签生成
高并发客服图片识别

⚡ 极速响应 | 💰 超低成本 | 🏷️ 标签生成 | 📞 客服场景

🎯 专用视觉能力（独立接口）

通义千问 OCR

专用OCR

计费: ¥0.005/次

专用于身份证、发票、银行卡、表格等结构化识别

✨ 支持识别：

身份证识别
发票识别
银行卡识别
表格结构化

QVQ（视觉数学解题）

数学专用

计费: ¥0.01/次

识别手写公式、几何图形并自动解答，教育场景专用

✨ 核心能力：

手写公式识别
几何图形理解
自动解题步骤
多种题型支持

文档智能（DocAI）

文档处理

计费: ¥0.02/页

PDF/扫描件全文布局还原 + 语义结构化，企业文档处理首选

✨ 核心能力：

PDF全文布局还原
扫描件识别
语义结构化
表格提取

💡 兼容性说明：所有 VL 模型均支持 OpenAI Vision API 兼容格式，可直接替换 gpt-4o 使用，无需修改代码结构。

🎧 语音理解模型（Speech Understanding）

🎤 语音识别（ASR - Automatic Speech Recognition）

通义听悟 ASR 标准版

🔊 语音合成（TTS - Text-to-Speech）

通义听悟 TTS 标准音色

🎬 视频生成模型

wan2.5-video

通义万相2.5

时长: 最长10秒

功能: 文/图生视频

💰 计费: ≈¥0.01/秒（按时长×像素×epoch）

通义万相2.5，支持文生视频、图生视频、数字人合成，单视频最长10秒

📹 文生视频 | 🖼️ 图生视频 | 👤 数字人合成 | ⏱️ 最长10秒

💡 费用 = Σ(视频时长 × 1024 × max_pixels × n_epochs) × 单价

wan2.2-video

通义万相2.2

时长: 最长5秒

🎁 免费额度多

💰 计费: ≈¥0.005/秒（按时长计费）

通义万相2.2基础版，适合快速生成短视频，免费额度较多

🎬 基础版 | ⏱️ 最长5秒 | 🎁 免费额度 | ⚡ 快速生成

🔢 向量嵌入模型

text-embedding-v4

最强嵌入

MTEB分数: 68.36

语言: 中英混合

💰 输入: ¥0.0001/千token

📤 输出: 无计费

当前最强中文/英文混合嵌入模型，MTEB得分68.36，适用于RAG、语义检索

🏆 最强嵌入 | 🌏 中英混合 | 🔍 语义检索 | 💎 RAG首选

📊 通义千问系列全系对比

📝 文本生成模型：
• qwen3.5-plus（🆕最新旗舰）- 397B MoE原生多模态，1M上下文，201种语言，成本降60%
• qwen3-max（旗舰）- 最强综合能力，252K超长上下文，复杂推理
• DeepSeek-V3（开源SOTA）- 数学与代码能力突出，性价比高
• qwen-plus（主力推荐）- 通用高性价比，1M上下文
• DeepSeek-R1（推理专用）- 逻辑推理、数学、代码生成
• qwen3-turbo（极速）- 超低成本，高并发场景
• qwen3-coder（代码专用）- 80+编程语言，工具调用

👁️ 视觉理解模型：
• qwen3-vl-max（视觉旗舰）- 多图输入、高精度OCR、图表结构化
• qwen3-vl-plus（通用推荐）- 图像描述、基础VQA、单图分析

🔢 嵌入模型：
• text-embedding-v4（最强嵌入）- MTEB 68.36，中英混合，RAG首选

🔶

AWS Bedrock

最新模型（2026年3月版）

🔥 Anthropic Claude 4/4.5/4.6 系列

Claude Opus 4.6

🆕 最强旗舰

提供商: Anthropic

🔥 200K / 1M (Preview)

💰 $5/1M 输入

📤 $25/1M 输出

Anthropic最强模型，将多天开发项目压缩至数小时，支持Agent Teams多代理协作、深度推理和超长上下文处理

🧠 最强推理 | 🤖 Agent Teams多代理协作 | 💻 自主编码 | 📊 1M上下文(Preview) | 📑 PPT生成

Claude Sonnet 4.6

🆕 性价比之王

提供商: Anthropic

🔥 200K / 1M (Preview)

💰 $3/1M 输入

📤 $15/1M 输出

接近Opus级别智能，Sonnet价格。SWE-bench Verified 77.2%，计算机使用准确率94%，70%开发者更偏好此模型

⚡ Opus级智能Sonnet价格 | 💻 SWE-bench 77.2% | 🖥️ 计算机使用94% | 🎯 日常开发首选

Claude Opus 4.5

旗舰

提供商: Anthropic

上下文: 200K

💰 $0.005/1K 输入

📤 $0.025/1K 输出

最新旗舰模型，专业软件工程任务的最佳选择，成本降低1/3

⚠️ 5倍输出token消耗率 | ✨ 混合推理模式 | 🛠️ 工具搜索和使用

Claude Sonnet 4.5

👁️ Amazon Nova 系列

Amazon Nova Premier

即将发布

提供商: Amazon

级别: 企业级

💰 价格待定

📤 即将公布

AWS最强多模态模型，用于复杂视觉任务和企业级应用

🧠 高级图像分类 | 🎬 复杂视频分析 | 📄 文档VQA | 📐 技术图表解读

Amazon Nova Pro

高性能

提供商: Amazon

模态: 多模态

💰 $0.0008/1K 输入

📤 $0.0032/1K 输出

高性能多模态模型，准确性、速度和成本的最佳平衡

📊 图像/视频/文本处理 | ⚡ 高性能 | 💰 性价比高 | 📄 OCR识别

Amazon Nova Lite

经济

提供商: Amazon

模态: 多模态

🏆 $0.00006/1K 输入

📤 $0.00024/1K 输出

超低成本多模态模型，快速处理图像、视频和文本

💎 超低成本 | 🖼️ 快速图像分类 | 🎬 基础视频分析 | 📝 OCR识别

Amazon Nova Micro

🥇 最低成本

提供商: Amazon

类型: 纯文本

💎 $0.000035/1K 输入

📤 $0.00014/1K 输出

纯文本模型，提供最低延迟和成本，适合大规模部署

⚡ 最低延迟 | 💎 极致低成本 | 📱 大规模部署 | 📝 纯文本处理

Amazon Nova Reel

🎬 视频

提供商: Amazon

类型: 视频生成

💰 按视频时长计费

📤 高质量输出

最先进的AI视频生成模型，可生成高质量短视频内容

🎬 AI视频生成 | 🎨 高质量画面 | ⚡ 快速生成 | 📱 多分辨率

Amazon Nova Canvas

🎨 图像

提供商: Amazon

类型: 图像生成

💰 按图片数量计费

📤 高分辨率

最先进的图像生成模型，支持高质量图像创作

🎨 AI图像生成 | 🖼️ 高分辨率 | ✏️ 图像编辑 | 🎯 精准控制

👁️ Anthropic Claude 系列 - 视觉理解能力

Claude Opus 4.5 Vision

最佳视觉

提供商: Anthropic

上下文: 200K

💰 $0.005/1K 输入

📤 $0.025/1K 输出

最佳视觉模型，支持复杂视觉解释和多步导航

🧠 深度理解 | 📊 图表解读 | 💻 截图转代码 | 🎯 复杂场景

Claude Sonnet 4.5 Vision

平衡推荐

提供商: Anthropic

上下文: 200K

💰 $0.003/1K 输入

📤 $0.015/1K 输出

平衡性能的视觉理解，适合生产环境

🖼️ 图像理解 | 📊 视觉推理 | 📄 文档VQA | ⚡ 生产环境首选

Claude Haiku 4.5 Vision

轻量级

提供商: Anthropic

上下文: 200K

💰 $0.0008/1K 输入

📤 $0.004/1K 输出

轻量级视觉处理，适合高并发场景

⚡ 快速图像分类 | 💬 基础视觉问答 | 💎 低成本 | 📱 高并发

Claude 3.5 Sonnet Vision

强大视觉

提供商: Anthropic

上下文: 200K

💰 $0.003/1K 输入

📤 $0.015/1K 输出

强大的图像处理能力，适合专业视觉任务

🔬 专业图像分析 | 📄 技术文档理解 | 📊 图表解读 | 🎨 设计稿分析

👁️ Meta Llama 系列

Llama 4 Scout 17B

原生多模态

提供商: Meta

⚡ 1000万 tokens 上下文

💰 $0.00017/1K 输入

📤 $0.00017/1K 输出

通用多模态模型，支持超长1000万token上下文长度，文本和图像理解

🖼️ 图像字幕生成 | 🔍 视觉定位 | 💬 视觉问答 | 📏 10M上下文

Llama 4 Maverick 17B

强大

提供商: Meta

参数: 4000亿 MoE

💰 $0.00073/1K 输入

📤 $0.00088/1K 输出

4000亿参数的多模态模型，支持12种语言的文本和图像处理

🌍 12种语言 | 🖼️ 多语言图像理解 | 📊 100万tokens | 🧠 视觉推理

Llama 3.2 90B Vision

企业级

提供商: Meta

参数: 90B

💰 $0.0024/1K 输入

📤 $0.0024/1K 输出

企业级视觉智能模型，适合大规模视觉任务

🏢 企业级图像分析 | 📄 文档智能处理 | 📊 视觉数据提取 | 🔄 批量任务

Llama 3.2 11B Vision

中等规模

提供商: Meta

参数: 11B

💰 $0.00016/1K 输入

📤 $0.00016/1K 输出

中等规模视觉理解模型，平衡性能与成本

🖼️ 通用图像理解 | 💬 视觉问答 | 🔍 场景分析 | 💎 高性价比

🧠 其他专业模型

DeepSeek-V3.1

DeepSeek

提供商: DeepSeek

上下文: 128K

💰 $0.0013/1K 输入

📤 $0.0013/1K 输出

高性能推理模型，适合复杂推理任务

🧠 高性能推理 | 💻 代码生成 | 📊 数据分析 | 💎 高性价比

DeepSeek-R1

DeepSeek

提供商: DeepSeek

上下文: 128K

💰 $0.0013/1K 输入

📤 $0.0013/1K 输出

推理优化模型，专注提升推理效率

🔬 推理优化 | 🧮 数学推理 | 💡 逻辑分析 | ⚡ 高效推理

Kimi K2 Thinking

Moonshot AI

提供商: Moonshot AI

上下文: 128K

💰 $0.0006/1K 输入

📤 $0.0025/1K 输出

思维链推理模型，支持复杂任务的步骤化推理

🧠 思维链推理 | 📝 步骤化分析 | 💻 代码生成 | 🔧 工具使用

Qwen3-VL-235B-A22B

Qwen

提供商: Qwen

模态: 视觉语言

💰 $0.00088/1K 输入

📤 $0.00088/1K 输出

视觉语言模型，支持图像和视频理解

🖼️ 图像理解 | 🎬 视频分析 | 📄 文档处理 | 🌍 多语言支持

Qwen3-Coder-480B-A35B

Qwen

提供商: Qwen

专用: 代码生成

💰 $0.00088/1K 输入

📤 $0.00088/1K 输出

代码生成专用模型，支持多种编程语言

💻 代码生成 | 🔧 多语言编程 | 📝 代码补全 | 🐛 Bug修复

NVIDIA Nemotron Nano 2 9B

NVIDIA

提供商: NVIDIA

参数: 9B

💰 $0.00013/1K 输入

📤 $0.00013/1K 输出

轻量级推理模型，适合边缘部署

⚡ 轻量级 | 📱 边缘部署 | 💎 极低成本 | 🔄 快速推理

🔵

Google Cloud - Vertex AI

最新模型（2026年3月版 - 含Gemini 3.0/3.1系列）

💡 成本优化：启用 Context Caching（上下文缓存） 可享 90%折扣（约$0.20/1M tokens），适合重复分析大型文档

🚀 Gemini 3.0/3.1 系列 - 最新旗舰

🥇 TOP 1

Gemini 3.1 Pro (Preview)

🆕 最强推理

提供商: Google

🔥 100万 tokens

💰 输入: $2.00/1M tokens

📤 输出: $12.00/1M tokens

Gemini 3 Pro的重大升级版，ARC-AGI-2推理得分77.1%（3 Pro的2倍以上），价格不变。支持多模态输入（文/图/音/视频），输出最高64K tokens

✨ 核心能力：

ARC-AGI-2 推理得分 77.1%（超2倍提升）
增强的代理工作流与工具编排
新增Medium思考级别（平衡成本/速度/性能）
100万token上下文 / 64K输出
GitHub Copilot集成支持

🧠 推理翻倍 | 🤖 代理增强 | 💻 编程优化 | 📊 100万上下文 | 💰 价格不变

🥈 TOP 2

Gemini 3 Pro (Preview)

顶级智力

提供商: Google

🔥 100万 tokens

💰 输入(≤200K): $2.00/1M tokens

📤 输出(含思维链): $12.00/1M tokens

🔄 上下文缓存: ~$0.20/1M tokens

🔍 Grounding搜索: $35/1000次查询

最强代理能力，专为Agentic Workflow设计，具备自适应思考（Adaptive Thinking）能力，可处理多步推理和自我纠错，适合复杂编程、深度推理任务

✨ 核心能力：

Agentic Workflow（代理工作流）
自适应思考（Adaptive Thinking）
多步推理与自我纠错
100万token上下文窗口
强大的Grounding（地面实况）能力

🧠 最强推理 | 🤖 代理工作流 | 💻 复杂编程 | 🔄 自我纠错 | 📊 100万上下文

⚠️ 长上下文定价：>200K context时输入价格约为 $4.00/1M tokens（翻倍）
💡 输出价格包含内部生成的"思维链"（Thinking Tokens）消耗

� TOP 3

Gemini 3 Pro Image

多模态生成

提供商: Google

模态: 文本+图像

💰 文本输入: $2.00/1M tokens

🖼️ 图像输入: $0.0011/张

📤 文本输出: $12.00/1M tokens

🎨 图像输出(1024x1024): ~$0.134/张

🎨 高清4K输出: ~$0.24/张

极高保真度图像生成，原生多模态模型，支持复杂的"图生图"或"文本+图"混合输出，结合推理能力优化构图和细节

✨ 核心能力：

高保真图像生成（1024x1024 / 4K）
图文混合编辑与推理
图生图（Image-to-Image）
文本+图像混合输入输出
智能构图优化

🎨 极高保真 | 🖼️ 图文混合 | 🔄 图生图 | 🧠 推理优化 | 📐 智能构图

TOP 4

Gemini 3 Flash

速度旗舰

提供商: Google

模态: 文/图/视/音

💰 输入: 预计 $0.15-0.30/1M tokens

📤 输出: 预计 $0.60-1.20/1M tokens

兼顾速度与多模态理解的旗舰模型，在处理复杂的多模态（文本、图像、视频、音频）理解任务上表现极佳，同时保持较低延迟

✨ 核心能力：

多模态理解（文/图/视/音）
低延迟快速响应
复杂任务处理
适合代理任务

⚡ 极速响应 | 🎭 多模态 | 🤖 代理任务 | 🎯 高智商

💎 Gemini 2.5 系列 - 企业级生产环境（GA）

Gemini 2.5 Pro

企业标准

提供商: Google

🔥 100万 tokens

💰 输入: $1.25/1M tokens

� 输出: $10.00/1M tokens

企业级首选，平衡了顶级性能与生产环境稳定性，适合大多数需要高智商但不需要Gemini 3极致推理的场景

✨ 核心能力：

高性能推理与编码
100万token上下文
生产环境稳定性
大规模批量处理

🏢 企业首选 | 🎯 高性能 | 🛡️ 稳定可靠 | 📊 100万上下文 | ⚖️ 性价比优

💡 相比Gemini 3 Pro，输出成本低约20%，适合大规模批量处理复杂任务

Gemini 2.5 Flash

主力工作马

提供商: Google

特性: 极速+多模态

💰 输入: 预计 $0.15-0.25/1M tokens

📤 输出: 预计 $0.60-1.00/1M tokens

主力工作马，适合大多数通用任务，延迟极低，性价比极高，支持多模态流式传输

✨ 核心能力：

极低延迟响应
多模态理解
流式传输
通用任务处理

⚡ 闪电速度 | 🎭 多模态 | 💰 性价比王 | 🔄 流式传输 | 🎯 通用首选

Gemini 2.5 Flash-Lite

极致成本

提供商: Google

🏆 成本最低

💰 输入: $0.10/1M tokens

📤 输出: $0.40/1M tokens

成本杀手，Vertex AI上最便宜的模型，专门用来替代传统NLP任务（如分类、实体提取）或处理海量日志，仅需$1即可处理1000万个单词

✨ 核心能力：

海量数据归类
简单提取任务
日志分析
高吞吐量处理

💰 极致低价 | 📊 海量数据 | 🔄 高吞吐量 | 📝 简单任务 | 🏆 成本王者

💡 配合Context Caching（上下文缓存），处理长文档的成本几乎可以忽略不计

Gemini 2.5 Flash (Live API)

实时交互

提供商: Google

特性: 双向流式

💰 计费: 与Flash相同

实时双向流式传输，专为低延迟的语音和情感对话设计，适合构建类似真人的语音助手

✨ 核心能力：

实时双向流式传输
低延迟语音交互
情感对话
语音助手构建

🎤 实时语音 | 🔄 双向流式 | ⚡ 低延迟 | 💬 情感对话 | 🤖 语音助手

🌟 Gemini 2.0 系列 - 当前主力

Gemini 2.0 Flash

正式版

提供商: Google

模态: 文/图/音/视

💰 输入(文/图/视): $0.15/1M tokens

💰 输入(音频): $0.70/1M tokens

📤 输出: $0.60/1M tokens

实时对话、低延迟应用、多模态流式传输的主力选择，原生支持实时语音交互

⚡ 极速响应 | 🎤 实时语音 | 📹 视频理解 | 💰 性价比高

Imagen 3

图像生成

提供商: Google

类型: 文生图

💰 标准生成: $0.03/张

⚡ 快速模式: $0.015/张

✏️ 图片编辑: $0.03/张

画质天花板，生成照片级逼真图像，能精准绘制图片中的文字（霓虹灯牌、T恤等）

📸 照片级画质 | ✍️ 精准文字 | 🎨 图片编辑 | 🖼️ 文生图

Google Veo (Veo 2)

视频生成

提供商: Google

分辨率: 1080p+

💰 计费: $0.40-$0.75/秒

📊 示例: 10秒视频 ≈ $5

Sora级视频生成，生成1080p+高清视频，画面连贯且包含同步音效

🎬 高清视频 | 🔊 同步音效 | 📹 画面连贯 | ⚡ Sora级别

⚠️ 生成高清视频成本较高，建议在生产环境谨慎开放权限

Gemini 1.5 Pro

成熟稳定

提供商: Google

🔥 200万 tokens

💰 输入(128K内): $1.25/1M tokens

📤 输出(128K内): $5.00/1M tokens

长文档之王，凭借200万token上下文窗口，处理超长PDF、全代码库分析的唯一选择

📚 200万上下文 | 📄 长文档分析 | 💻 全代码库 | 🎯 成熟稳定

Claude 3.5 Sonnet

第三方王牌

提供商: Anthropic

特性: 代码专家

💰 输入: $3.00/1M tokens

📤 输出: $15.00/1M tokens

Anthropic王牌模型，逻辑推理和代码能力极强，在Vertex Model Garden中极受欢迎

🧠 逻辑推理 | 💻 代码能力 | 🎯 热门选择 | 🏆 第三方最强

Gemini 2.0 Flash-Thinking

实验性

提供商: Google

特长: 思维链

💰 计费: 实验性免费/按Pro计费

类似o1的思维链模型，专攻数学竞赛题、复杂科学研究，会"思考"后再回答

🤔 深度思考 | 🔢 数学竞赛 | 🔬 科研专用 | 🧠 思维链推理

Llama 3.2 (90B/11B)

开源

提供商: Meta

特性: 开源生态

💰 MaaS托管: $0.20-$0.50/1M tokens

Meta开源模型，适合需要私有化部署或极低成本微调的企业

🌟 开源 | 🔧 可微调 | 💰 低成本 | 🏢 私有化部署

Gemini 1.5 Flash-8B

价格屠夫

提供商: Google

🏆 超低成本

💰 输入: $0.0375/1M tokens

📤 输出: $0.15/1M tokens

极其便宜，适合处理海量日志分析、简单数据提取，甚至比GPT-4o-mini更便宜

💰 极低成本 | ⚡ 超低延迟 | 📊 日志分析 | 🔄 高频任务

Chirp v2 (USM)

语音识别

提供商: Google

支持: 100+语言

💰 计费: ≈$0.006/分钟

万能听译，支持100+种语言的语音识别，方言识别率极高

🎤 100+语言 | 🌏 方言识别 | 📝 语音转文字 | 🎯 高准确率

Gemini 2.0 Flash-Lite

正式版

提供商: Google

特性: 极致成本

比Flash更轻量，专为高吞吐量API设计，极致成本优化

💰 极低成本 | ⚡ 高吞吐量 | 🔄 API优化

Gemini 1.5 Flash

成熟稳定

提供商: Google

特性: 高性价比

1.5时代的轻量级模型，极其稳定，高性价比选择

⚖️ 性价比高 | 🛡️ 极其稳定 | ⚡ 快速响应

📊 Gemini 家族全系对比与选型指南

🚀 Gemini 3.0/3.1 系列（Preview - 最新旗舰）：
• Gemini 3.1 Pro（🆕最强推理）- ARC-AGI-2 77.1%，推理能力翻倍，价格不变
• Gemini 3 Pro（顶级智力）- 最强代理能力、复杂编程、深度推理，含思维链Token
• Gemini 3 Pro Image（多模态生成）- 极高保真度图像生成、图文混合编辑
• Gemini 3 Flash（速度旗舰）- 兼顾速度与多模态理解的旗舰模型

💎 Gemini 2.5 系列（GA - 企业级生产环境）：
• Gemini 2.5 Pro（企业标准）- 平衡性能与稳定性，100万上下文
• Gemini 2.5 Flash（主力工作马）- 极低延迟，通用任务首选
• Gemini 2.5 Flash-Lite（成本杀手）- 最便宜模型，海量数据处理
• Gemini 2.5 Flash with Live API（实时交互）- 双向流式，语音助手

🌟 Gemini 2.0 系列（当前主力）：
• Gemini 2.0 Flash（实时对话）- 低延迟应用、多模态流式传输
• Gemini 2.0 Flash-Thinking（深度思考）- 类似o1的思维链模型

📚 Gemini 1.5 系列（成熟稳定）：
• Gemini 1.5 Pro（超长上下文200万）- 长文档之王
• Gemini 1.5 Flash（稳定）- 高性价比选择
• Gemini 1.5 Flash-8B（微型）- 极低成本

🌐 开源模型：
• Gemma 3（开放权重）- 支持文本和图像，140+语言，128K上下文
• Gemma 3n（边缘优化）- 低资源设备，支持多模态

🎨 专用模型：
• Imagen 3/4（图像生成）- 照片级逼真，精准文字渲染
• Veo 3/3.1（视频生成）- 高质量视频生成，Text-to-Video
• MedGemini/MedLM（医疗）- 医疗领域专用

🟢

OpenAI - ChatGPT Business

最新模型（2026年3月版）

🚫 重要：Business版本 - 不提供API Key调用！仅支持网页问答和Codex IDE插件

💻 代码生成模型 - 最新

GPT-5.3-Codex

🆕 最强编码

提供商: OpenAI

🔥 400K tokens

💰 输入: ≈$1.75/1M tokens

📤 输出: ≈$14/1M tokens

OpenAI最强代理编码模型，融合GPT-5.2-Codex编码能力与GPT-5.2推理能力，速度提升25%，支持实时交互式编码

✨ 核心能力：

SWE-Bench Pro 业界最高分（多语言）
Terminal-Bench 2.0 77.3%
实时交互式代理编码（可中途引导）
400K token上下文窗口
首个参与自身训练的AI模型

🤖 代理编码 | 💻 SWE-Bench Pro最高 | ⚡ 速度+25% | 🔄 实时交互 | 🛠️ 多语言

GPT-5.3-Codex-Spark

🆕 极速编码

提供商: OpenAI

特性: 1000+ tokens/秒

首个专为实时编码设计的模型，基于Cerebras WSE-3推理引擎，超1000 tokens/秒，适合交互式编码场景

⚡ 1000+ tokens/秒 | 💻 实时编码 | 🎯 低延迟 | 🔄 交互优先

🌐 文本与通用大模型 - TOP 5

🥇 TOP 1

GPT-5.2

🖼️ 图像生成模型

GPT-image-1.5

图像旗舰

提供商: OpenAI

类型: 文生图

💰 生成成本: $0.01-$0.17/张（按尺寸）

📊 token计费: $5-$10/1M tokens

图像生成旗舰模型，从文字提示生成或编辑高质量图像，支持多种尺寸和风格

🎨 文生图 | ✏️ 图像编辑 | 📐 多尺寸 | 🖼️ 高质量

GPT-image-1 / mini

图像生成

提供商: OpenAI

类型: 文生图

基础图像生成模型，性价比高，适合快速原型和批量生成

💰 性价比 | ⚡ 快速生成 | 📦 批量处理

📹 视频生成模型

Sora-2

视频生成

提供商: OpenAI

功能: 文/图生视频

💰 计费: ≈$0.10/秒

📊 示例: 10秒视频 ≈ $1

根据文字或图像生成动态视频+音频，基础版视频生成模型

🎬 文生视频 | 🖼️ 图生视频 | 🔊 同步音频 | ⚡ 基础版

Sora-2-Pro

高清视频

提供商: OpenAI

质量: 专业级

💰 计费: $0.30-$0.50/秒

📊 示例: 10秒视频 ≈ $3-$5

专业级高清视频输出，更精细的画面质量和动作连贯性

🎬 高清输出 | 💎 专业级 | 🎯 精细画质 | ⚡ Pro版本

⚠️ Pro版本成本较高，建议用于专业内容创作场景

🎧 音频与语音模型

gpt-4o-transcribe

语音转文字

提供商: OpenAI

功能: 语音识别

💰 计费: ≈$0.006/分钟

语音转文字核心模型，支持多语言识别和说话人分离（diarize版本）

🎤 语音识别 | 🌍 多语言 | 👥 说话人分离 | 📝 转录

gpt-4o-mini-tts

文字转语音

提供商: OpenAI

功能: 语音合成

💰 计费: ≈$0.015/分钟

文本转语音模型，高质量自然语音合成，支持多种音色

🔊 语音合成 | 🎵 自然音色 | 🌍 多语言 | ⚡ 高质量

⚙️ 实时与推理优化模型

GPT-realtime / mini

实时响应

提供商: OpenAI

特性: 低延迟

💰 输入: ≈$4/1M tokens

📤 输出: ≈$16/1M tokens

专为低延迟实时交互设计，适合对话机器人、实时客服等场景

⚡ 超低延迟 | 💬 实时对话 | 🤖 智能客服 | 🔄 流式输出

o3 / o3-pro

推理优化

提供商: OpenAI

特性: 推理增强

💰 o3 输入: ≈$2/1M tokens

📤 o3 输出: ≈$8/1M tokens

推理优化模型系列，专注复杂逻辑推理、数学问题、科学计算

🧠 推理优化 | 🔢 数学计算 | 🔬 科学任务 | 💡 逻辑增强

⚠️ o4-mini 已于2026年2月13日退役

📊 模型分类总览

💻 代码生成：GPT-5.3-Codex（🆕最强编码）、GPT-5.3-Codex-Spark（🆕极速编码）
🌐 文本/通用AI：GPT-5.2 系列、GPT-5 系列、GPT-realtime
⚠️ 已退役（2026.02.13）：GPT-4.1 系列、GPT-4o、o4-mini
🖼️ 图像生成：GPT-image-1、GPT-image-1-mini、GPT-image-1.5
📹 视频生成：Sora-2、Sora-2-Pro
🎧 语音/音频：gpt-4o-transcribe、gpt-4o-mini-tts
⚙️ 推理/低延迟：o3、o3-pro、realtime系列（o4-mini已退役）

💡 温馨提示：OpenAI官方渠道对接工作正在积极推进中，具体的模型可用性、定价策略、API接入方式等信息，请直接联系 Justin.Zhang 获取最新进展和详细咨询。以上价格基于OpenAI官方标准层计费，实际价格可能因批量折扣、企业协议等因素有所调整。

🚀 Xnurta可选择 AI 模型列表（研发版）

📝 文本生成模型 - TOP 7

👁️ 视觉理解模型（Visual Understanding）

🎯 专用视觉能力（独立接口）

🎧 语音理解模型（Speech Understanding）

🎤 语音识别（ASR - Automatic Speech Recognition）

🔊 语音合成（TTS - Text-to-Speech）

🎬 视频生成模型

🔢 向量嵌入模型

📊 通义千问系列全系对比

🔥 Anthropic Claude 4/4.5/4.6 系列

👁️ Amazon Nova 系列

👁️ Anthropic Claude 系列 - 视觉理解能力

👁️ Meta Llama 系列

🧠 其他专业模型

🚀 Gemini 3.0/3.1 系列 - 最新旗舰

💎 Gemini 2.5 系列 - 企业级生产环境（GA）

🌟 Gemini 2.0 系列 - 当前主力

📊 Gemini 家族全系对比与选型指南

💻 代码生成模型 - 最新

🌐 文本与通用大模型 - TOP 5

🖼️ 图像生成模型

📹 视频生成模型

🎧 音频与语音模型

⚙️ 实时与推理优化模型

📊 模型分类总览