Claude Token 省錢攻略:7 招有效減少 Token 用量

API 費用太高?學會這些技巧讓你的 Token 花在刀口上

← 返回 技能學習

什麼是 Token?為什麼要省?

Token 是 AI 模型處理文字的基本單位。大約 1 個中文字 = 2-3 個 tokens,1 個英文單字 = 1-2 個 tokens。使用 Claude API 時,你需要為輸入(input)和輸出(output)的 token 數量付費。

💰 Claude API 定價參考(2026)

模型 輸入 輸出
Claude Opus 4$15/MTok$75/MTok
Claude Sonnet 4$3/MTok$15/MTok
Claude Haiku 3.5$0.80/MTok$4/MTok

MTok = 百萬 tokens。輸出通常比輸入貴 3-5 倍!

7 招有效減少 Token 用量

第 1 招:選對模型,省最多

不是所有任務都需要最強的模型:

  • Haiku:分類、摘要、簡單問答、格式轉換 → 成本最低
  • Sonnet:程式撰寫、內容創作、資料分析 → 性價比最高
  • Opus:複雜推理、研究分析、高品質寫作 → 品質最好

💡 實戰建議:先用 Haiku 做初步篩選和分類,再用 Sonnet 處理需要品質的任務。光是這一招就能省 70% 以上的費用。

第 2 招:精簡 System Prompt

System prompt 在每次 API 呼叫都會消耗 tokens。很多人的 system prompt 寫得又臭又長:

浪費版(500+ tokens):

「你是一位非常專業的、有豐富經驗的、在業界備受推崇的資深軟體工程師,你擁有超過二十年的程式開發經驗,精通各種程式語言包括但不限於 Python、JavaScript、Java、C++、Go、Rust...」

精簡版(50 tokens):

「資深軟體工程師。回覆要求:精簡、附程式碼範例、標注時間複雜度。」

💡 每天 1000 次呼叫,光是精簡 system prompt 一年就能省下數百美元。

第 3 招:控制輸出長度

輸出 token 的價格是輸入的 3-5 倍,控制輸出長度是最有效的省錢方式:

  • 使用 max_tokens 參數限制回覆長度
  • 在 prompt 中明確要求「100 字以內回覆」或「用 3 個 bullet points 回答」
  • 要求 JSON 格式回覆,避免冗長的自然語言

❌ 「請詳細解釋 REST API 的設計原則」→ 可能產生 2000+ tokens
✅ 「用 5 條規則摘要 REST API 設計原則,每條 20 字以內」→ 約 200 tokens

第 4 招:善用 Prompt Caching

Claude API 支援 Prompt Caching,重複的 prompt 前綴只收 10% 的費用:

  • 把不變的 system prompt 和文件放在前面
  • 變動的使用者輸入放在最後
  • 快取有效時間為 5 分鐘,適合連續對話或批次處理

💡 如果你有一份大文件需要回答多個問題,Prompt Caching 能省下 90% 的重複輸入費用。

第 5 招:批次處理(Batches API)

不需要即時回覆的任務,使用 Batches API 可享 50% 折扣

  • 批次翻譯大量文件
  • 夜間處理資料分析
  • 定期生成報告
  • 大量內容分類或標記

Batches API 會在 24 小時內處理完成,適合非即時性的工作。

第 6 招:對話歷史管理

多輪對話中,每次都會重送所有歷史訊息。對話越長,token 消耗越驚人:

  • 摘要策略:對話超過 10 輪時,用 Haiku 把前面的對話摘要成精華
  • 滑動窗口:只保留最近 5-10 輪對話,搭配摘要
  • 關鍵資訊提取:從歷史對話中只保留關鍵決策和結論

💡 一個 20 輪對話,如果不做管理,第 20 輪的輸入可能包含前 19 輪的所有內容,token 暴增 10 倍以上。

第 7 招:預處理和後處理

不要把所有工作都丟給 AI:

  • 預處理:用正則表達式、字串處理先清理輸入(去除無關內容、HTML 標籤)
  • 分段處理:大文件先用程式切成重要段落,只送需要 AI 處理的部分
  • 快取結果:相同或相似的查詢,用 Redis/資料庫快取 AI 回覆
  • 後處理:格式調整、排版等用程式處理,不要浪費 AI token

實際省錢案例

案例:客服聊天機器人

優化前:全部使用 Sonnet,system prompt 800 tokens,無對話管理
→ 月費用:$500

優化後

  • 先用 Haiku 分類問題(省 80%)
  • 精簡 system prompt 到 100 tokens(省 87%)
  • 啟用 Prompt Caching(再省 90%)
  • 對話超過 8 輪自動摘要(省 60%)

→ 月費用:$85(省了 83%)

重點整理

  • 選對模型是最大的省錢關鍵:簡單任務用 Haiku,複雜才用 Opus
  • 輸出 token 比輸入貴 3-5 倍,控制回覆長度效果最好
  • Prompt Caching 讓重複內容只收 10% 費用,Batches API 享 50% 折扣
  • 多輪對話一定要做歷史管理,否則 token 會指數級暴增
  • 用程式做預處理和快取,不要把所有工作都交給 AI

Retour