ClaudeLearn/Prompt Caching
01 / 11
לבנות · מודול 30

Prompt Caching -
90% פחות עלות.

פיצ'ר אחד יכול לחתוך את חשבון ה-API לחצי או יותר. מתי caching עובד, ואיך מנצלים אותו נכון.

11 שקופיות  ·  caching  ·  ~9 דקות
הבעיה

אותו הקשר
חוזר על עצמו.

בכל פנייה, אתם שולחים את ה-system prompt, את ההוראות, את המסמכים. ככה משלמים על אותו תוכן שוב ושוב. בלי caching.

צ'אטבוט ממוצע ישלם 80-90% מהעלות שלו על תוכן שלא משתנה.

איך זה עובד

סימון, שמירה, אחזור.

  • סימון. אתם מסמנים בפנייה איזה חלק יציב (system prompt, מסמכים) עם cache_control.
  • שמירה. בפנייה הראשונה אנתרופיק שומרת את התוכן המסומן במטמון לזמן מוגדר.
  • אחזור. בפניות הבאות שמשתמשות באותו תוכן, המטמון נטען - והעלות יורדת ב-90%.
השוואת מחיר

מחיר הקלט המקורי לעומת מטמון.

קלט רגיל

3 דולר / מיליון טוקנים (Sonnet)

זה התעריף הסטנדרטי.
קלט מהמטמון

0.30 דולר / מיליון טוקנים

90% חיסכון על אותו תוכן.

כתיבת המטמון בפעם הראשונה עולה קצת יותר (1.25 דולר / מיליון) - אבל מהפנייה השנייה זה כבר חיסכון נטו.

איך מסמנים

שורת קוד אחת.

{ "system": [{ "type": "text", "text": "אתה עוזר אסטרטגי...", "cache_control": {"type": "ephemeral"} }], "messages": [...] }

סוג ephemeral שומר את המטמון ל-5 דקות. אם הפנייה הבאה תגיע בתוך 5 דקות, מנצלים.

איפה מסמנים

ארבעה מקומות שמתאימים.

  • system prompt - הוראות יציבות שמשמשות כל פנייה
  • tool definitions - תיאורי כלים שלא משתנים
  • מסמכי הקשר - PDF, מדריך, טבלת נתונים שמצורפת לכל פנייה
  • היסטוריית שיחה - בשיחה ארוכה, החלקים הראשונים יציבים. שווה לסמן.
מינימום טוקנים

1,024 או 2,048 - תלוי במודל.

caching עובד רק על תכנים בגודל מינימלי - 1,024 טוקנים ב-Haiku, 2,048 ב-Sonnet ו-Opus. תוכן קצר יותר לא נשמר במטמון - העלות לא מצדיקה.

חישוב חיסכון

דוגמה מספרית.

אפליקציה עם system prompt של 3,000 טוקנים, 1,000 פניות ביום, Sonnet:

  • בלי caching: 3,000 × 1,000 × 3 דולר ÷ 1,000,000 = 9 דולר ביום
  • עם caching (כתיבה ראשונית): 3,000 × 1.25 ÷ 1,000,000 = 0.004 דולר
  • עם caching (999 פניות אחרות): 3,000 × 999 × 0.30 ÷ 1,000,000 = 0.90 דולר ביום

חיסכון של 8 דולר ביום, או 240 דולר בחודש - על שינוי שלוקח 30 שניות לפתח.

מתי לא לסמן

שלוש סיטואציות שבהן caching לא יעזור.

  • תוכן שמשתנה כל פנייה. אם ה-system prompt מותאם אישית למשתמש, אין מטמון לחזור אליו.
  • תוכן קצר מהמינימום. 500 טוקנים? לא יישמר. אין משמעות לסמן.
  • פניות נדירות. אם בין פנייה לפנייה עוברת שעה, המטמון פג והעלות עולה.
אנטי-פטרנים

טעויות יקרות בעבודה עם caching.

  • לסמן תוכן שמשתנה. כל פעם שמשתנה תו אחד, המטמון נופל. כסף לחינם.
  • לסמן את כל הפנייה. מסמנים רק את החלק היציב, לא הקלט החדש.
  • להסתמך בלי לוודא. המטמון לא תמיד נטען. בכל פנייה - בדקו ב-response את cache_read_input_tokens.
המשכים טבעיים

caching זאת התחלה.
יש עוד דרכים להוזיל עלויות.

ClaudeLearn · סוף מודול 30 · חזרה לקטלוג

← → מקשי חצים  ·  רווח להמשך