什麼是 Token?為什麼要省?
Token 是 AI 模型處理文字的基本單位。大約 1 個中文字 = 2-3 個 tokens,1 個英文單字 = 1-2 個 tokens。使用 Claude API 時,你需要為輸入(input)和輸出(output)的 token 數量付費。
💰 Claude API 定價參考(2026)
| 模型 | 輸入 | 輸出 |
| Claude Opus 4 | $15/MTok | $75/MTok |
| Claude Sonnet 4 | $3/MTok | $15/MTok |
| Claude Haiku 3.5 | $0.80/MTok | $4/MTok |
MTok = 百萬 tokens。輸出通常比輸入貴 3-5 倍!
7 招有效減少 Token 用量
第 1 招:選對模型,省最多
不是所有任務都需要最強的模型:
- Haiku:分類、摘要、簡單問答、格式轉換 → 成本最低
- Sonnet:程式撰寫、內容創作、資料分析 → 性價比最高
- Opus:複雜推理、研究分析、高品質寫作 → 品質最好
💡 實戰建議:先用 Haiku 做初步篩選和分類,再用 Sonnet 處理需要品質的任務。光是這一招就能省 70% 以上的費用。
第 2 招:精簡 System Prompt
System prompt 在每次 API 呼叫都會消耗 tokens。很多人的 system prompt 寫得又臭又長:
❌ 浪費版(500+ tokens):
「你是一位非常專業的、有豐富經驗的、在業界備受推崇的資深軟體工程師,你擁有超過二十年的程式開發經驗,精通各種程式語言包括但不限於 Python、JavaScript、Java、C++、Go、Rust...」
✅ 精簡版(50 tokens):
「資深軟體工程師。回覆要求:精簡、附程式碼範例、標注時間複雜度。」
💡 每天 1000 次呼叫,光是精簡 system prompt 一年就能省下數百美元。
第 3 招:控制輸出長度
輸出 token 的價格是輸入的 3-5 倍,控制輸出長度是最有效的省錢方式:
- 使用
max_tokens參數限制回覆長度 - 在 prompt 中明確要求「100 字以內回覆」或「用 3 個 bullet points 回答」
- 要求 JSON 格式回覆,避免冗長的自然語言
❌ 「請詳細解釋 REST API 的設計原則」→ 可能產生 2000+ tokens
✅ 「用 5 條規則摘要 REST API 設計原則,每條 20 字以內」→ 約 200 tokens
第 4 招:善用 Prompt Caching
Claude API 支援 Prompt Caching,重複的 prompt 前綴只收 10% 的費用:
- 把不變的 system prompt 和文件放在前面
- 變動的使用者輸入放在最後
- 快取有效時間為 5 分鐘,適合連續對話或批次處理
💡 如果你有一份大文件需要回答多個問題,Prompt Caching 能省下 90% 的重複輸入費用。
第 5 招:批次處理(Batches API)
不需要即時回覆的任務,使用 Batches API 可享 50% 折扣:
- 批次翻譯大量文件
- 夜間處理資料分析
- 定期生成報告
- 大量內容分類或標記
Batches API 會在 24 小時內處理完成,適合非即時性的工作。
第 6 招:對話歷史管理
多輪對話中,每次都會重送所有歷史訊息。對話越長,token 消耗越驚人:
- 摘要策略:對話超過 10 輪時,用 Haiku 把前面的對話摘要成精華
- 滑動窗口:只保留最近 5-10 輪對話,搭配摘要
- 關鍵資訊提取:從歷史對話中只保留關鍵決策和結論
💡 一個 20 輪對話,如果不做管理,第 20 輪的輸入可能包含前 19 輪的所有內容,token 暴增 10 倍以上。
第 7 招:預處理和後處理
不要把所有工作都丟給 AI:
- 預處理:用正則表達式、字串處理先清理輸入(去除無關內容、HTML 標籤)
- 分段處理:大文件先用程式切成重要段落,只送需要 AI 處理的部分
- 快取結果:相同或相似的查詢,用 Redis/資料庫快取 AI 回覆
- 後處理:格式調整、排版等用程式處理,不要浪費 AI token
實際省錢案例
案例:客服聊天機器人
優化前:全部使用 Sonnet,system prompt 800 tokens,無對話管理
→ 月費用:$500
優化後:
- 先用 Haiku 分類問題(省 80%)
- 精簡 system prompt 到 100 tokens(省 87%)
- 啟用 Prompt Caching(再省 90%)
- 對話超過 8 輪自動摘要(省 60%)
→ 月費用:$85(省了 83%)
Fokus pada pengorganisasian
- 選對模型是最大的省錢關鍵:簡單任務用 Haiku,複雜才用 Opus
- 輸出 token 比輸入貴 3-5 倍,控制回覆長度效果最好
- Prompt Caching 讓重複內容只收 10% 費用,Batches API 享 50% 折扣
- 多輪對話一定要做歷史管理,否則 token 會指數級暴增
- 用程式做預處理和快取,不要把所有工作都交給 AI