למה התשובה שמופיעה טוקן-אחר-טוקן מרגישה אחרת. ואיך לממש את זה בקוד שלכם.
בלי streaming: מחכים 8 שניות לתשובה ריקה ואז מקבלים פסקה גדולה. עם streaming: התשובה מתחילה להופיע אחרי 200ms.
המוח האנושי חסר סבלנות. המתנה של 5 שניות מול מסך ריק מרגישה יותר מ-15 שניות של תשובה שמתפתחת.
במקום לחכות שכל הפלט ייווצר ולהחזיר אותו בבת אחת, ה-API שולח כל טוקן מיד שהוא נוצר. הלקוח מקבל זרם של אירועים, ומצרף אותם בזמן אמת על המסך.
הגדרה אחת - stream: true - וה-API מתחיל להחזיר Server-Sent Events במקום JSON אחיד.
message_start - תחילת ההודעה, עם metadatacontent_block_start - תחילת בלוק תוכן (טקסט, או tool_use)content_block_delta - חלק חדש של תוכן (זה הטוקן שמופיע)content_block_stop - סיום הבלוק הנוכחיmessage_stop - סיום ההודעה, עם usage statsהקריאה הבסיסית לפני שמוסיפים streaming.
איך לבנות אפליקציה שלא נופלת תחת עומס.
ClaudeLearn · סוף מודול 32 · חזרה לקטלוג