פיצ'ר אחד יכול לחתוך את חשבון ה-API לחצי או יותר. מתי caching עובד, ואיך מנצלים אותו נכון.
בכל פנייה, אתם שולחים את ה-system prompt, את ההוראות, את המסמכים. ככה משלמים על אותו תוכן שוב ושוב. בלי caching.
צ'אטבוט ממוצע ישלם 80-90% מהעלות שלו על תוכן שלא משתנה.
cache_control.כתיבת המטמון בפעם הראשונה עולה קצת יותר (1.25 דולר / מיליון) - אבל מהפנייה השנייה זה כבר חיסכון נטו.
סוג ephemeral שומר את המטמון ל-5 דקות. אם הפנייה הבאה תגיע בתוך 5 דקות, מנצלים.
caching עובד רק על תכנים בגודל מינימלי - 1,024 טוקנים ב-Haiku, 2,048 ב-Sonnet ו-Opus. תוכן קצר יותר לא נשמר במטמון - העלות לא מצדיקה.
אפליקציה עם system prompt של 3,000 טוקנים, 1,000 פניות ביום, Sonnet:
חיסכון של 8 דולר ביום, או 240 דולר בחודש - על שינוי שלוקח 30 שניות לפתח.
cache_read_input_tokens.חישוב עלות מציאותי, עם דוגמאות מהשטח.
כל הפרמטרים של ה-API, מסודרים לחיפוש מהיר.
ClaudeLearn · סוף מודול 30 · חזרה לקטלוג