定价与倍率
计费公式
$$ \text{扣费 (USD)} = \frac{\text{ModelRatio} \times (\text{input_tokens} + \text{CompletionRatio} \times \text{output_tokens})}{500{,}000} \times \text{GroupRatio} $$
500,000是内部单位换算(500,000 quota = $1)ModelRatio决定"这个模型多贵"CompletionRatio决定"输出 token 相对 input 的贵度倍数"GroupRatio决定"分组折扣"
各模型倍率
| 模型 | ModelRatio | CompletionRatio | 折算 $/M input | 折算 $/M output |
|---|---|---|---|---|
deepseek-v4-flash | 0.075 | 2 | $0.15 | $0.30 |
deepseek-v4-pro | 0.22 | 2 | $0.44 | $0.88 |
claude-opus-4-6 | 2.5 | 默认 4 | $5.00 | $20.00 |
claude-opus-4-7 | 2.5 | 默认 4 | $5.00 | $20.00 |
claude-opus-4-8 | 2.5 | 5 | $5.00 | $25.00 |
claude-sonnet-4-6 | 1.5 | 5 | $3.00 | $15.00 |
gpt-5.5 | 2.5 | 6 | $5.00 | $30.00 |
TIP
$/M = 每一百万 tokens 的价格(USD)。这是原价,还要乘 GroupRatio。
各分组倍率
| 分组 | GroupRatio | 说明 |
|---|---|---|
deepseek | 1.0 | DeepSeek 原价 |
Claude-Stable | 0.4 | Claude 系 4 折 |
Claude-ESpeed | 0.4 | Claude 系 4 折 + 全带缓存 |
GPT | 0.4 | GPT 系 4 折 |
default | 1.0 | 默认组(一般 Key 不会用) |
举例算一算
Q1: 用 claude-opus-4-8 在 Claude-ESpeed 分组,input 1000 tokens + output 500 tokens
$$ \text{quota} = 2.5 \times (1000 + 5 \times 500) = 2.5 \times 3500 = 8750 $$ $$ \text{USD} = \frac{8750}{500{,}000} = $0.0175 $$ $$ \text{实扣} = 0.0175 \times 0.4 = $0.007 \approx \text{¥}0.051 $$
Q2: 用 gpt-5.5,input 2000 + output 1000
$$ \text{quota} = 2.5 \times (2000 + 6 \times 1000) = 20000 $$ $$ \text{实扣} = \frac{20000}{500{,}000} \times 0.4 = $0.016 $$
Q3: 用 deepseek-v4-flash,input 5000 + output 500
$$ \text{quota} = 0.075 \times (5000 + 2 \times 500) = 450 $$ $$ \text{实扣} = \frac{450}{500{,}000} \times 1.0 = $0.0009 \approx \text{¥}0.007 $$
结论:DeepSeek Flash 便宜到几乎白送;Claude Opus × ESpeed 组是 Claude 系性价比之选;GPT-5.5 输出很贵,谨慎设 max_tokens。
缓存能省多少?
Claude-ESpeed 分组的所有渠道支持 prompt caching:如果同一段 prompt(系统提示、长文档等)在 5 分钟内被重复调用,命中缓存部分的 input tokens 只算 10-25% 的价钱(具体折扣由上游决定)。
场景举例:
- 你用 Claude Code 反复问同一份代码库的问题
- 你的 Bot 有一段很长的 system prompt,每次对话都带
- Cline / Cursor 每次都发整个上下文
这些场景 必用 ESpeed,长期节省显著(可以省 30-70% input 费用)。
判断缓存有没有生效:看返回的 usage.prompt_tokens_details.cached_tokens,非零就是命中了。
常见误解
- 「模型 A 比模型 B 便宜就选 A」 → 便宜的模型可能需要更多 tokens 才能得到同样质量的输出,实际总费用可能反而更高。多测。
- 「temperature=0 更便宜」 → 温度不影响价格,只影响输出确定性。
- 「max_tokens 设很大更贵」 → 不是。
max_tokens只是上限,实际按真实输出算。 - 「reasoning_tokens 是什么,为啥算钱」 → DeepSeek Pro / GPT-5.5 会先"思考"再输出,思考过程也算 output tokens,会算钱。
定价何时会变
平台会尽量提前公告:
- 每周有变化 → 邮件/QQ 群/控制台公告
- 计划维护 → 提前 24 小时通知
- 紧急调价(上游倒了 / 官方涨价 / 汇率剧变)→ 生效后 6 小时内公告
定价页面(本页)会保持随时最新。跟踪变化用 changelog 或订阅公告。