探索 AI 模型库

汇聚全球顶尖 AI 实验室的最新大语言模型。无论是极速推理还是超长上下文，总有一款契合您的业务场景。

模型名称	上下文	计费模式	单价价格	支持特性
happyhorse-1.0 AI HappyHorse-1.0支持文生视频、图生视频、参考生视频、视频编辑，具备高度还原的动态画面生成能力，能够精准理解文本语义，输出流畅自然、细节丰富的高质量视频。定价：720P(0.9元/秒),1080P(1.6元/秒)	—	视频生成	720p含视频¥0.9000 / 秒 720p仅文本¥0.9000 / 秒 1080p含视频¥1.6000 / 秒 1080p仅文本¥1.6000 / 秒 default含视频¥1.6000 / 秒 default仅文本¥1.6000 / 秒
happyhorse-1.1 AI HappyHorse-1.1支持文生视频、图生视频、参考生视频、视频编辑，具备高度还原的动态画面生成能力，能够精准理解文本语义，输出流畅自然、细节丰富的高质量视频。定价：720P(0.9元/秒),1080P(1.2元/秒)	—	视频生成	720p含视频¥0.9000 / 秒 720p仅文本¥0.9000 / 秒 1080p含视频¥1.2000 / 秒 1080p仅文本¥1.2000 / 秒 default含视频¥1.2000 / 秒 default仅文本¥1.2000 / 秒
deepseek-v3.1 DeepSeek DeepSeek V3.1 通过显式推理（Think）、动态搜索（Search）、高效工具调用（Tool）这三驾马车，清晰地瞄准了下一代 AI 智能体的核心能力，清晰地勾勒出一条技术演进路线：一个更自主、更可靠、更能与外部世界交互的智能体（Agent）正在成型。	128K	按量计费	输入¥4.0000/ 1M Tokens 输出¥12.0000/ 1M Tokens 缓存命中- 缓存创建-	推理工具调用
deepseek-v3.2 DeepSeek DeepSeek 发布 V3.2 正式版，显著强化了 Agent 和推理能力，在主流测试中达到 GPT-5 水平并支持思考模式下的工具调用；同时推出的 Speciale 探索版在多项国际竞赛中取得金牌级表现。模型已全面开放使用。	128K	按量计费	输入¥2.0000/ 1M Tokens 输出¥3.0000/ 1M Tokens 缓存命中¥0.2000/ 1M Tokens 缓存创建-	推理工具调用开源权重
deepseek-v4-flash DeepSeek DeepSeek-V4 系列，包含两款强大的混合专家（Mixture-of-Experts, MoE）语言模型：DeepSeek-V4-Pro（总参数量 1.6T，激活参数量 49B）和 DeepSeek-V4-Flash（总参数量 284B，激活参数量 13B），两者均支持百万 token 的上下文长度。	1024K	按量计费	输入¥1.0000/ 1M Tokens 输出¥2.0000/ 1M Tokens 缓存命中¥0.0200/ 1M Tokens 缓存创建-	推理工具调用
deepseek-v4-pro DeepSeek DeepSeek-V4-Pro 的 Agent 能力显著增强。在 Agentic Coding 评测中，V4-Pro 已达到当前开源模型最佳水平，并在其他 Agent 相关评测中同样表现优异。在数学、STEM、竞赛型代码的测评中，DeepSeek-V4-Pro 超越当前所有已公开评测的开源模型，取得了比肩世界顶级闭源模型的优异成绩。DeepSeek-V4 开创了一种全新的注意力机制，在 token 维度进行压缩，结合 DSA 稀疏注意力（DeepSeek Sparse Attention），实现了全球领先的长上下文能力，并且相比于传统方法大幅降低了对计算和显存的需求。从现在开始，1M（一百万）上下文将是 DeepSeek 所有官方服务的标配。	1024K	按量计费	输入¥3.0000/ 1M Tokens 输出¥6.0000/ 1M Tokens 缓存命中¥0.0250/ 1M Tokens 缓存创建-	推理工具调用
minimax-m2.5 MiniMax Minimax M2.5专为Agent场景原生设计，编程与智能体性能（Coding & Agentic）直接对标Claude Opus 4.6，尤其在Excel高阶处理、PPT生成和深度调研等Office生产力场景达到行业领先水平（SOTA）。	204.8K	按量计费	输入¥2.1000/ 1M Tokens 输出¥8.4000/ 1M Tokens 缓存命中¥0.2100/ 1M Tokens 缓存创建¥2.6250/ 1M Tokens	推理工具调用开源权重
minimax-m2.5-highspeed MiniMax MiniMax M2.5-highspeed 是专为追求极致效率的生产力场景打造的加速版 SOTA 模型。它完美继承了 M2.5 的核心智能与强大的数字化工作能力——包括在 SWE-Bench Verified 斩获 80.2% 的编程实力、流畅操作 Office 全家桶的办公通用性，以及复杂环境下的跨软件协作能力。	200K	按量计费	输入¥4.2000/ 1M Tokens 输出¥16.8000/ 1M Tokens 缓存命中¥0.2100/ 1M Tokens 缓存创建¥2.6250/ 1M Tokens	推理工具调用
minimax-m2.7 MiniMax MiniMax-M2.7 是一款面向自主化、真实生产力与持续进化的下一代大语言模型。该模型深度参与自身演化进程，通过多智能体协同整合先进的智能体能力，能够在动态环境中完成复杂任务的规划、执行与优化。	204K	按量计费	输入¥2.1000/ 1M Tokens 输出¥8.4000/ 1M Tokens 缓存命中¥0.4200/ 1M Tokens 缓存创建¥2.6250/ 1M Tokens	推理工具调用开源权重
minimax-m2.7-highspeed MiniMax MiniMax M2.7-highspeed 是专为追求极致效率的生产力场景打造的加速版 SOTA 模型。它完美继承了 M2.7 的核心智能与强大的数字化工作能力——通过多智能体协作，主动参与自身演进，并将先进的智能体能力整合其中，使其能够在动态环境中规划、执行并改进复杂任务，能够处理诸如实时调试、根因分析、财务建模，以及跨 Word、Excel 和 PowerPoint 的完整文档生成等工作流程。	204K	按量计费	输入¥4.2000/ 1M Tokens 输出¥16.8000/ 1M Tokens 缓存命中¥0.4200/ 1M Tokens 缓存创建¥2.6250/ 1M Tokens	推理工具调用开源权重
minimax-m3 MiniMax M3 在编码与智能体评测中达到行业顶尖水平，具备自主任务拆解、工具调用与多步推理能力，写出的代码目标是直接可交付，而不是「能跑但需要人改」。基于自研 MiniMax Sparse Attention（MSA）架构，API 最高支持 1M tokens 上下文窗口，保障至少 512K tokens 可用。1M 上下文是长程 Agent、长程 Coding、长视频理解的基础设施。在 BrowseComp 智能体评测中，M3 以 83.5 分超越 Opus 4.7（79.3），展现出强大的自主浏览与信息检索能力。	1024K	阶梯计费	< 512K 入: ¥2.1000 出: ¥8.4000 缓存命中: ¥0.4200 缓存创建: ¥2.1000 >= 512.001K 入: ¥4.2000 出: ¥16.8000 缓存命中: ¥0.8400 缓存创建: ¥4.2000	推理工具调用
kimi-k2.5 Moonshot Kimi K2.5 是 Kimi 迄今最智能的模型，在 Agent、代码、视觉理解及一系列通用智能任务上取得开源 SoTA 表现。同时 Kimi K2.5 也是 Kimi 迄今最全能的模型，原生的多模态架构设计，同时支持视觉与文本输入、思考与非思考模式、对话与 Agent 任务。	256K	按量计费	输入¥4.0000/ 1M Tokens 输出¥21.0000/ 1M Tokens 缓存命中¥0.7000/ 1M Tokens 缓存创建-	推理工具调用文件处理视觉理解
kimi-k2.6 Moonshot Kimi K2.6 是 Kimi 最新最智能的模型，Kimi K2.6 的通用 Agent、代码等综合能力得到全面提升，其中在博士级难度的完整版人类最后的考试（Humanity’s Last Exam）、在考察模型真实软件工程能力的 SWE-Bench Pro、评估 Agent 深度检索能力的 DeepSearchQA 等基准测试中均取得行业领先的成绩，同时支持思考与非思考模式，对话与 Agent 任务。	256K	按量计费	输入¥6.5000/ 1M Tokens 输出¥27.0000/ 1M Tokens 缓存命中¥1.1000/ 1M Tokens 缓存创建-	推理工具调用
kimi-k2.7-code Moonshot 一站式大模型服务，实时定价与特性对比	N/A	按量计费	输入¥6.5000/ 1M Tokens 输出¥27.0000/ 1M Tokens 缓存命中¥1.3000/ 1M Tokens 缓存创建-
kimi-k2.7-code-highspeed Moonshot 一站式大模型服务，实时定价与特性对比	N/A	按量计费	输入¥13.0000/ 1M Tokens 输出¥54.0000/ 1M Tokens 缓存命中¥2.6000/ 1M Tokens 缓存创建-
doubao-seed-1.6-flash 字节跳动 Doubao-Seed-1.6-flash 推理速度极致的多模态深度思考模型，TPOT低至10ms；同时支持文本和视觉理解，文本理解能力超过上一代lite，视觉理解比肩友商pro系列模型。支持 256k 上下文窗口，输出长度支持最大 16k tokens。	256K	按量计费	输入¥0.1500/ 1M Tokens 输出¥1.5000/ 1M Tokens 缓存命中- 缓存创建-	推理工具调用视觉理解
doubao-seed-2.0-code 字节跳动 Doubao Seed 2.0 Code 面向真实编程环境优化的 Coding 模型，能稳定调用 Claude Code 等常见 IDE 中的工具。模型特别优化了前端能力，在使用常见的前端框架时能有良好表现。模型支持使用 Skills，可以配合多种自定义技能使用。	256K	按量计费	输入¥3.2000/ 1M Tokens 输出¥12.0000/ 1M Tokens 缓存命中- 缓存创建-	推理工具调用文件处理视觉理解
doubao-seed-2.0-pro 字节跳动 Doubao Seed 2.0 Pro 旗舰级全能通用模型，面向 Agent 时代的复杂推理与长链路任务执行场景。强调多模态理解、长上下文推理、结构化生成与工具增强执行。复杂指令与多约束执行能力突出，可稳定应对多步复杂规划、复杂图文推理、视频内容理解与高难度分析等场景。	256K	按量计费	输入¥3.2000/ 1M Tokens 输出¥16.0000/ 1M Tokens 缓存命中- 缓存创建-	推理工具调用文件处理视觉理解
doubao-seedream-5-0-260128 字节跳动 Doubao-Seedream-5.0-lite是字节跳动发布的最新图像创作模型。该模型首次搭载联网检索功能，能融合实时网络信息，提升生图时效性。同时，模型的聪明度进一步升级，能够精准解析复杂指令和视觉内容。此文生图 0.22元/张 \| 图生图 0.22元/张	N/A	按次计费	基础¥0.2200/ 次
glm-5 智谱 GLM-5 是智谱新一代的旗舰基座模型，面向 Agentic Engineering 打造，能够在复杂系统工程与长程 Agent 任务中提供可靠生产力。在 Coding 与 Agent 能力上，GLM-5 取得开源 SOTA 表现，在真实编程场景的使用体感逼近 Claude Opus 4.5，擅长复杂系统工程与长程 Agent 任务，是通用 Agent 助手的理想基座。	204.8K	阶梯计费	< 32K 入: ¥4.0000 出: ¥18.0000 缓存命中: ¥1.0000 缓存创建: ¥4.0000 >= 32.001K 入: ¥6.0000 出: ¥22.0000 缓存命中: ¥1.5000 缓存创建: ¥6.0000	推理工具调用开源权重
glm-5.1 智谱智谱最新旗舰模型，在长程自主执行、复杂工程优化与真实开发场景中展示出更强能力，综合能力对标Claude Opus 4.6	200K	阶梯计费	< 32K 入: ¥6.0000 出: ¥24.0000 缓存命中: ¥1.3000 缓存创建: ¥6.0000 >= 32.001K 入: ¥8.0000 出: ¥28.0000 缓存命中: ¥2.0000 缓存创建: ¥8.0000	推理工具调用
glm-5.2 智谱 GLM-5.2 是面向长任务时代的旗舰模型。支持真正可用的 1M 上下文，实测可承载项目级工程上下文，长程任务执行更稳定、工程规范遵循更可靠，开发场景成功率进一步提升。一次任务即可完成“从需求到多端可部署产物”的完整开发链路。	1024K	按量计费	输入¥8.0000/ 1M Tokens 输出¥28.0000/ 1M Tokens 缓存命中¥2.0000/ 1M Tokens 缓存创建-	推理工具调用
qwen3-embedding-8b 阿里巴巴 Qwen3-Embedding-8B 是 Qwen3 嵌入模型系列的最新专有模型，专为文本嵌入和排序任务设计。该模型基于 Qwen3 系列的密集基础模型，具有 80 亿参数规模，支持长达 32K 的上下文长度，可生成最高 4096 维的嵌入向量。该模型继承了基础模型卓越的多语言能力，支持超过 100 种语言，具备长文本理解和推理能力。在 MTEB 多语言排行榜上排名第一（截至 2025 年 6 月 5 日，得分 70.58），在文本检索、代码检索、文本分类、文本聚类和双语挖掘等多项任务中表现出色。模型支持用户自定义输出维度（32 到 4096）和指令感知功能，可根据特定任务、语言或场景进行优化	32K	按量计费	输入¥0.5000/ 1M Tokens 输出¥0.0000/ 1M Tokens 缓存命中- 缓存创建-
qwen3.5-397b-a17b 阿里巴巴 Qwen3.5系列397B-A17B原生视觉语言模型，基于混合架构设计，融合了线性注意力机制与稀疏混合专家模型，实现了更高的推理效率。在语言理解、逻辑推理、代码生成、智能体任务、图像理解、视频理解、图形用户界面（GUI）等多种任务中，均展现出与当前顶尖前沿模型相媲美的卓越性能。具备强大的代码生成与智能体能力，对于各类智能体场景具有良好的泛化性。	256K	按量计费	输入¥3.0000/ 1M Tokens 输出¥18.0000/ 1M Tokens 缓存命中- 缓存创建-	推理工具调用开源权重视觉理解
qwen3.5-plus 阿里巴巴 Qwen3.5原生视觉语言系列Plus模型，基于混合架构设计，融合了线性注意力机制与稀疏混合专家模型，实现了更高的推理效率。在多项任务评测中，3.5系列均展现出与当前顶尖前沿模型相媲美的卓越性能，模型效果在纯文本与多模态方面相较3系列均实现飞跃式进步。	1M	阶梯计费	< 128K 入: ¥0.8000 出: ¥4.8000 缓存命中: ¥0.0800 缓存创建: ¥1.0000 128.001K - 256K 入: ¥2.0000 出: ¥12.0000 缓存命中: ¥0.2000 缓存创建: ¥2.5000 >= 256.001K 入: ¥4.0000 出: ¥24.0000 缓存命中: ¥0.4000 缓存创建: ¥5.0000	推理工具调用文件处理视觉理解
qwen3.6-plus 阿里巴巴 Qwen3.6原生视觉语言系列Plus模型，展现出与当前顶尖前沿模型相媲美的卓越性能，模型效果相较3.5系列显著提升。模型在Agentic coding、前端编程、Vibe coding等代码能力、多模态万物识别、OCR、物体定位等能力上显著增强。	1024K	阶梯计费	< 256K 入: ¥2.0000 出: ¥12.0000 缓存命中: ¥0.2000 缓存创建: ¥2.5000 >= 256.001K 入: ¥8.0000 出: ¥48.0000 缓存命中: ¥0.8000 缓存创建: ¥10.0000	推理工具调用
qwen3.7-max 阿里巴巴 Qwen3.7系列中规模最大、综合能力最强的Max模型，当前开放纯文本模型能力供体验。Qwen3.7是面向智能体时代的新一代旗舰模型，核心优势在于智能体能力的广度与深度：在编程、办公与生产力、长周期自主执行方面均能出色胜任各项任务。	1024K	按量计费	输入¥12.0000/ 1M Tokens 输出¥36.0000/ 1M Tokens 缓存命中¥2.4000/ 1M Tokens 缓存创建¥15.0000/ 1M Tokens	推理工具调用