Claude Token 省錢攻略：7 招有效減少 Token 用量

什麼是 Token？為什麼要省？

Token 是 AI 模型處理文字的基本單位。大約 1 個中文字 = 2-3 個 tokens，1 個英文單字 = 1-2 個 tokens。使用 Claude API 時，你需要為輸入（input）和輸出（output）的 token 數量付費。

💰 Claude API 定價參考（2026）

模型	輸入	輸出
Claude Opus 4	$15/MTok	$75/MTok
Claude Sonnet 4	$3/MTok	$15/MTok
Claude Haiku 3.5	$0.80/MTok	$4/MTok

MTok = 百萬 tokens。輸出通常比輸入貴 3-5 倍！

7 招有效減少 Token 用量

第 1 招：選對模型，省最多

不是所有任務都需要最強的模型：

Haiku：分類、摘要、簡單問答、格式轉換 → 成本最低
Sonnet：程式撰寫、內容創作、資料分析 → 性價比最高
Opus：複雜推理、研究分析、高品質寫作 → 品質最好

💡 實戰建議：先用 Haiku 做初步篩選和分類，再用 Sonnet 處理需要品質的任務。光是這一招就能省 70% 以上的費用。

第 2 招：精簡 System Prompt

System prompt 在每次 API 呼叫都會消耗 tokens。很多人的 system prompt 寫得又臭又長：

❌ 浪費版（500+ tokens）：

「你是一位非常專業的、有豐富經驗的、在業界備受推崇的資深軟體工程師，你擁有超過二十年的程式開發經驗，精通各種程式語言包括但不限於 Python、JavaScript、Java、C++、Go、Rust...」

✅ 精簡版（50 tokens）：

「資深軟體工程師。回覆要求：精簡、附程式碼範例、標注時間複雜度。」

💡 每天 1000 次呼叫，光是精簡 system prompt 一年就能省下數百美元。

第 3 招：控制輸出長度

輸出 token 的價格是輸入的 3-5 倍，控制輸出長度是最有效的省錢方式：

使用 max_tokens 參數限制回覆長度
在 prompt 中明確要求「100 字以內回覆」或「用 3 個 bullet points 回答」
要求 JSON 格式回覆，避免冗長的自然語言

❌ 「請詳細解釋 REST API 的設計原則」→ 可能產生 2000+ tokens
✅ 「用 5 條規則摘要 REST API 設計原則，每條 20 字以內」→ 約 200 tokens

第 4 招：善用 Prompt Caching

Claude API 支援 Prompt Caching，重複的 prompt 前綴只收 10% 的費用：

把不變的 system prompt 和文件放在前面
變動的使用者輸入放在最後
快取有效時間為 5 分鐘，適合連續對話或批次處理

💡 如果你有一份大文件需要回答多個問題，Prompt Caching 能省下 90% 的重複輸入費用。

第 5 招：批次處理（Batches API）

不需要即時回覆的任務，使用 Batches API 可享 50% 折扣：

批次翻譯大量文件
夜間處理資料分析
定期生成報告
大量內容分類或標記

Batches API 會在 24 小時內處理完成，適合非即時性的工作。

第 6 招：對話歷史管理

多輪對話中，每次都會重送所有歷史訊息。對話越長，token 消耗越驚人：

摘要策略：對話超過 10 輪時，用 Haiku 把前面的對話摘要成精華
滑動窗口：只保留最近 5-10 輪對話，搭配摘要
關鍵資訊提取：從歷史對話中只保留關鍵決策和結論

💡 一個 20 輪對話，如果不做管理，第 20 輪的輸入可能包含前 19 輪的所有內容，token 暴增 10 倍以上。

第 7 招：預處理和後處理

不要把所有工作都丟給 AI：

預處理：用正則表達式、字串處理先清理輸入（去除無關內容、HTML 標籤）
分段處理：大文件先用程式切成重要段落，只送需要 AI 處理的部分
快取結果：相同或相似的查詢，用 Redis/資料庫快取 AI 回覆
後處理：格式調整、排版等用程式處理，不要浪費 AI token

實際省錢案例

案例：客服聊天機器人

優化前：全部使用 Sonnet，system prompt 800 tokens，無對話管理
→ 月費用：$500

優化後：

先用 Haiku 分類問題（省 80%）
精簡 system prompt 到 100 tokens（省 87%）
啟用 Prompt Caching（再省 90%）
對話超過 8 輪自動摘要（省 60%）

→ 月費用：$85（省了 83%）