מאמר

Batch API ו-Vision API

עיבוד אלפי בקשות בבת אחת (Batch) ותמונות (Vision) - שני כלים שחוסכים זמן וכסף.

שני כלים, שתי בעיות שונות

Batch API ו-Vision API הן שתי יכולות נפרדות שמתאימות לבעיות שונות, אבל יש להן מכנה משותף: שתיהן חוסכות הרבה כשמשתמשים נכון, ושתיהן מבוזבזות כשמשתמשים בהן כברירת מחדל.

המאמר מסביר את שתי היכולות, מתי לבחור בכל אחת, ובמה נכשלים מפתחים שמתחילים לעבוד עם API ראשון.

Batch API - עיבוד מרוכז

Batch API מאפשר לכם להגיש אלפי בקשות בבת אחת, ולקבל את התשובות תוך 24 שעות. הוא לא נועד לצ'אט חי - הוא נועד למשימות שאינן דחופות, אבל גדולות.

הסיבה לקיומו: מחיר. כשאתם מגישים בקשות באצווה, אנתרופיק יכולה לתזמן אותן בשעות שפל, ולכן המחיר נופל ב-50% לעומת בקשות רגילות. עבור עיבוד של 100,000 מסמכים - זה ההבדל בין 200 דולר ל-100.

מתי Batch מתאים

  • תיוג מסיבי. 50,000 ביקורות מוצר, סיווג סנטימנט.
  • סיכומים. ארכיון מאמרים, וכל אחד דורש סיכום בנפרד.
  • חילוץ נתונים. חוזים, חשבוניות, מסמכים מובנים - להוציא שדות ספציפיים.
  • בניית מערך הדרכה. אם אתם מאמנים מודל קטן יותר, Batch יוצר את ה-labels.
לא לצ'אט

Batch API לא מתאים לכל מקרה שדורש תשובה תוך דקות. אם משתמש מחכה לתשובה, השתמשו בקריאה רגילה. Batch הוא רק לעבודות רקע.

איך זה עובד

שלושה שלבים:

  1. מכינים קובץ JSONL ובכל שורה - בקשה אחת ב-format רגיל של ה-API, עם custom_id ייחודי.
  2. שולחים POST ל-/v1/messages/batches. מקבלים בחזרהid של ה-batch.
  3. ממתינים. אפשר לבדוק סטטוס דרך GET. כשמסתיים, מורידים את הפלט בקובץ JSONL נפרד.

Vision API - תמונות כקלט

Vision API מאפשר לקלוד לקרוא תמונות. לא רק להראות אותן - לקרוא, לתאר, לזהות אובייקטים, להוציא טקסט (OCR), ולהשוות.

בניגוד למה שנראה, זאת לא תכונה נפרדת. כל מודלי קלוד 3+ תומכים ב-vision באופן מובנה. אתם פשוט שולחים את התמונה כחלק מההודעה - כ-base64 או כ-URL.

שימושים נפוצים

  • OCR איכותי. טקסט בתמונה, מסמכים סרוקים, שלטים. לרוב טוב יותר מ-OCR מסורתי.
  • תיאור תמונה. לצרכי נגישות, או לקטלוג ארכיון של תמונות לא מתויגות.
  • ניתוח גרפים וטבלאות. תרשים מאקסל, גרף ממאמר - קלוד יקרא וינתח.
  • השוואה.“זה אותו דף לפני ואחרי שינוי - מה השתנה?” - שתי תמונות בו-זמנית.
טריק

לסריקת מסמכים, שווה לצרף גם את התמונה וגם טקסט מפורש אם יש. קלוד ישתמש בשניהם. תמונה לבד עובדת, אבל פחות מדויק מ-PDF דיגיטלי.

מגבלות שכדאי להכיר

Vision טוב, אבל לא מושלם. שלוש מגבלות שכדאי לזכור:

  • איכות התמונה חשובה. תמונה מטושטשת = פלט מטושטש. אם זה OCR קריטי, וודאו שהאיכות גבוהה.
  • טקסט בשפות לא מערביות. טוב בעברית, ערבית, סינית - אבל פחות טוב מאשר באנגלית. תוצאה: לעיתים שגיאות בתמלול.
  • גודל וזמן. תמונות גדולות (10MB+) יקרות יותר בטוקנים. אם אפשר לכווץ לפני שליחה, עשו זאת.

שילוב של שניהם

במקרים מסוימים, Batch + Vision שווה הרבה: עיבוד מאות תמונות בו-זמנית, במחיר חצי. דוגמה: 1,000 שקפים של מצגת ישנה, ובקשה ל-OCR מלא של כולם. במקום פנייה אחר פנייה, מעבירים את כולם ל-Batch.

המסקנה

שני הכלים שווים את הזמן ללמוד. הם פותרים בעיות שאחרת היו דורשות ספריות עצמאיות, שירותים חיצוניים, או חודש פיתוח. ההשקעה הראשונית של חצי יום ללמוד את ה-API משלמת עצמה בפרויקט הראשון שמשתמש באחד מהם.