定价与倍率

计费公式

$$ \text{扣费 (USD)} = \frac{\text{ModelRatio} \times (\text{input_tokens} + \text{CompletionRatio} \times \text{output_tokens})}{500{,}000} \times \text{GroupRatio} $$

500,000 是内部单位换算（500,000 quota = $1）
ModelRatio 决定"这个模型多贵"
CompletionRatio 决定"输出 token 相对 input 的贵度倍数"
GroupRatio 决定"分组折扣"

各模型倍率

模型	ModelRatio	CompletionRatio	折算 $/M input	折算 $/M output
`deepseek-v4-flash`	0.075	2	$0.15	$0.30
`deepseek-v4-pro`	0.22	2	$0.44	$0.88
`claude-opus-4-6`	2.5	默认 4	$5.00	$20.00
`claude-opus-4-7`	2.5	默认 4	$5.00	$20.00
`claude-opus-4-8`	2.5	5	$5.00	$25.00
`claude-sonnet-4-6`	1.5	5	$3.00	$15.00
`gpt-5.5`	2.5	6	$5.00	$30.00

TIP

$/M = 每一百万 tokens 的价格（USD）。这是原价，还要乘 GroupRatio。

各分组倍率

分组	GroupRatio	说明
`deepseek`	1.0	DeepSeek 原价
`Claude-Stable`	0.4	Claude 系 4 折
`Claude-ESpeed`	0.4	Claude 系 4 折 + 全带缓存
`GPT`	0.4	GPT 系 4 折
`default`	1.0	默认组（一般 Key 不会用）

举例算一算

Q1: 用 claude-opus-4-8 在 Claude-ESpeed 分组，input 1000 tokens + output 500 tokens

$$ \text{quota} = 2.5 \times (1000 + 5 \times 500) = 2.5 \times 3500 = 8750 $$ $$ \text{USD} = \frac{8750}{500{,}000} = $0.0175 $$ $$ \text{实扣} = 0.0175 \times 0.4 = $0.007 \approx \text{¥}0.051 $$

Q2: 用 gpt-5.5，input 2000 + output 1000

$$ \text{quota} = 2.5 \times (2000 + 6 \times 1000) = 20000 $$ $$ \text{实扣} = \frac{20000}{500{,}000} \times 0.4 = $0.016 $$

Q3: 用 deepseek-v4-flash，input 5000 + output 500

$$ \text{quota} = 0.075 \times (5000 + 2 \times 500) = 450 $$ $$ \text{实扣} = \frac{450}{500{,}000} \times 1.0 = $0.0009 \approx \text{¥}0.007 $$

结论：DeepSeek Flash 便宜到几乎白送；Claude Opus × ESpeed 组是 Claude 系性价比之选；GPT-5.5 输出很贵，谨慎设 max_tokens。

缓存能省多少？

Claude-ESpeed 分组的所有渠道支持 prompt caching：如果同一段 prompt（系统提示、长文档等）在 5 分钟内被重复调用，命中缓存部分的 input tokens 只算 10-25% 的价钱（具体折扣由上游决定）。

场景举例：

你用 Claude Code 反复问同一份代码库的问题
你的 Bot 有一段很长的 system prompt，每次对话都带
Cline / Cursor 每次都发整个上下文

这些场景 必用 ESpeed，长期节省显著（可以省 30-70% input 费用）。

判断缓存有没有生效：看返回的 usage.prompt_tokens_details.cached_tokens，非零就是命中了。

常见误解

「模型 A 比模型 B 便宜就选 A」 → 便宜的模型可能需要更多 tokens 才能得到同样质量的输出，实际总费用可能反而更高。多测。
「temperature=0 更便宜」 → 温度不影响价格，只影响输出确定性。
「max_tokens 设很大更贵」 → 不是。max_tokens 只是上限，实际按真实输出算。
「reasoning_tokens 是什么，为啥算钱」 → DeepSeek Pro / GPT-5.5 会先"思考"再输出，思考过程也算 output tokens，会算钱。

定价何时会变

平台会尽量提前公告：

每周有变化 → 邮件/QQ 群/控制台公告
计划维护 → 提前 24 小时通知
紧急调价（上游倒了 / 官方涨价 / 汇率剧变）→ 生效后 6 小时内公告

定价页面（本页）会保持随时最新。跟踪变化用 changelog 或订阅公告。

定价与倍率 ​

计费公式 ​

各模型倍率 ​

各分组倍率 ​

举例算一算 ​

缓存能省多少？ ​

常见误解 ​

定价何时会变 ​

相关 ​