深入理解Token计费机制与多轮对话成本
Token 是大语言模型处理和生成文本的基本计量单位。它不是简单的单词,而是一段文本片段。
在英文中,1个Token大约等于:
在中文中,1个Token大约等于:
主流大模型采用按Token数量计费的模式,分为两种类型:
| 模型 | 输入价格 | 输出价格 | 上下文窗口 |
|---|---|---|---|
| GPT-4o | $2.50 / 1M tokens | $10.00 / 1M tokens | 128K |
| GPT-4o-mini | $0.15 / 1M tokens | $0.60 / 1M tokens | 128K |
| GPT-4 Turbo | $10.00 / 1M tokens | $30.00 / 1M tokens | 128K |
| GPT-3.5 Turbo | $0.50 / 1M tokens | $1.50 / 1M tokens | 16K |
| 厂商 | 模型 | 输入价格 | 输出价格 |
|---|---|---|---|
| 阿里云 | Qwen Turbo | ¥1.00 / 1M tokens | ¥3.00 / 1M tokens |
| 百度 | ERNIE 4.0 | ¥20.00 / 1M tokens | ¥60.00 / 1M tokens |
| 智谱 | GLM-4 | ¥1.00 / 1M tokens | ¥1.00 / 1M tokens |
| DeepSeek | DeepSeek-V3 | ¥1.00 / 1M tokens | ¥2.00 / 1M tokens |
多轮对话的计费有一个关键概念:上下文Token。每次请求时,之前所有的对话历史都会作为输入的一部分发送给模型。