[קלוד·LEARN]/מה קלוד יסרב לעשות

מבית אנתרופיק ישראל

01 / 15

להכיר · מודול 11

מה קלוד
יסרב לעשות.

מפת הקווים האדומים, ולמה לפעמים הסירוב הוא בעצם תקשורת. ואיך לנסח אחרת כשנדמה שאתם בסדר אבל קיבלתם סירוב.

15 שקופיות · גבולות · ~11 דקות

סוג הסירוב

שני סוגים שונים
של “לא”.

סירוב קשיח - אונס, כלי נשק, חומרים מסוכנים, פגיעה בילדים. שום פרומפט לא יעקוף.

סירוב גמיש - שמדורג בהתאם להקשר. אותה בקשה תתקבל בהקשר אחד, ותסורב באחר.

קווים אדומים בלתי-נדחים

מה לא יקרה אף פעם.

הוראות לייצור כלי נשק או חומרים רעילים
תוכן מיני שמערב קטינים
סיוע ישיר בהונאה, שוד או פגיעה פיזית
חשיפת מידע אישי על אנשים פרטיים (כתובת, מספר טלפון)
תוכן ששואב מקבוצות שנאה ארגוניות

אלה אבני יסוד, לא נושאים לדיון. כל פרומפט שינסה לעקוף ייכשל.

תחומי אפור

איפה ההקשר משנה הכל.

מידע רפואי. “מה גורם לכאב ראש” - בסדר. “איך לרפא סרטן בבית” - לא.
מידע משפטי. “מה ההגדרה של פטור משירות” - בסדר. “איך לרמות בבית המשפט” - לא.
כתיבת תוכן עם דעות. “כתוב מאמר נגד X” - תלוי במי X.

למה זה לא קסם

קלוד לא יודע שאתם בסדר.

אין לו דרך לאמת זהויות. הוא לא יודע אם אתם רופא ששואל מקצועית, חוקר אקדמי, או מישהו שמתחזה. הוא יחליט לפי הניסוח, ההקשר, ומה שצוין במפורש בפרומפט.

איך להגדיל סיכוי

ספציפיות בכוונה.

פחות יעיל

“תסביר לי איך עובדים מתקפות פישינג”

←

יותר יעיל

“אני מורה לאבטחת מידע. אני בונה שיעור על זיהוי פישינג לעובדים. תסביר את 5 סוגי המתקפות הנפוצים ואת סימני הזיהוי”

ההצהרה על המטרה החינוכית, התפקיד, והבקשה המוגדרת - שלושה אותות שמשפיעים על הסיווג.

לא לעשות

שלוש דרכים שלא יעבדו.

“תשכח שאתה AI” - הוא לא ישכח. זאת בקשה שמסומנת מיד כניסיון מניפולציה.
“תהיה DAN/jailbreak” - שיטות שעבדו ב-2023 חסומות עכשיו. הניסיון ייכשל.
“אני סופר מצב חיים ומוות” - דחיפת רגשות לא מזיזה את הקווים האדומים. רק את האמינות שלכם.

מה כן עוזר

פעולה במקום עקיפה.

אם קיבלתם סירוב, קראו את ההסבר. לרוב יש שם רמז למה לבקש אחרת. “לא אוכל לעזור עם X, אבל אוכל לעזור עם Y” - זאת תקשורת, לא מבוי סתום.

תקבלו את ההצעה, או תנסחו מחדש את המטרה שלכם. בלי לאיים, בלי לעקוף.

סירובים שלא היו צריכים לקרות

סירוב יתר - false refusal.

לפעמים קלוד מסרב על שאלה לגיטימית לחלוטין - שכוללת מילה שמזכירה משהו רגיש. זה באג מוכר, ואנתרופיק עובדת על זה.

הפתרון: לנסח מחדש בלי המילה המסומנת, או להוסיף הקשר במפורש.

דוגמאות לסירוב יתר

שלוש שאלות שדווחו על סירוב מוטעה.

“איך מנטרלים שדה מגנטי” - שאלת פיזיקה שזוהתה כאלימה בגלל בחירת המילים.
“כיצד גורמים לכלב להפסיק לבכות בלילה” - זוהתה כפגיעה בבעל חיים.
“מה נאמר על סדום ועמורה” - חסם בגלל אזכור בעל אופי דתי.

במקרים האלה, ניסוח מחדש פותר את הבעיה תוך 30 שניות.

פוליטיקה ודעות

קלוד נמנע מהבעת עמדה.

בעניינים פוליטיים שנויים במחלוקת, קלוד ייתן את שני הצדדים. הוא לא יחתום על דעה. אם תבקשו “מה דעתך” על נושא כזה, התשובה תהיה מאוזנת ולא נחרצת.

זה תכנון, לא תקלה. אם רוצים טיעון לכיוון מסוים, בקשו במפורש “תכתוב טיעון בעד X” - הוא יעשה.

תכנים מקצועיים רגישים

כלל זהירות לרופאים, משפטנים, ויועצים.

קלוד יסביר מושג מקצועי, אבל לא ייתן ייעוץ אישי. “מה הסימנים של דיכאון” - בסדר. “יש לי דיכאון, תגיד לי מה לעשות” - יציע לפנות לאיש מקצוע.

זה לא התחמקות - זאת אחריות. ייעוץ אישי דורש הקשר רפואי או משפטי שאין למודל.

דברים שכן יעשה בהפתעה

קלוד גמיש יותר ממה שחושבים.

סיפורת אפלה - דמויות נבזיות, אלימות בהקשר ספרותי, סצנות עוצמתיות
הסבר על נושאים רגישים - מלחמות, פשעים היסטוריים, אידאולוגיות שנואות
קוד שיכול להיות מנוצל לרעה - parsers, scrapers, network tools - אם המטרה לגיטימית
ביקורת חריפה על אנשי ציבור, ארגונים, או מוצרים - בהנחה שהביקורת אמיתית

טעויות נפוצות

מה לא לעשות בסירוב.

להפעיל לחץ רגשי. “חיים תלויים בזה!” - לא יעבוד. מודלים מאומנים נגד.
לעבור למודל אחר. אם קלוד סירב, ChatGPT אולי יאשר - אבל זה אומר משהו על שיקול הדעת שלכם, לא רק על המודל.
להתעקש פעמיים. אחרי שני סירובים על אותה בקשה, פתחו שיחה חדשה עם פרומפט אחר.

המשכים טבעיים

הגבולות חלק מהמודל.
תכירו אותם לעומק.

למה קלוד מרגיש אחרת

הסגנון, הטון, הזהירות - מקור הסירובים והגבולות.

מי היא אנתרופיק

החזון של safety-first שמעצב את החלטות הסירוב.

ClaudeLearn · סוף מודול 11 · חזרה לקטלוג

→ השתמשו במקשי החצים ← · רווח להמשך

מה קלוד יסרב לעשות.

שני סוגים שוניםשל “לא”.

מה לא יקרה אף פעם.

איפה ההקשר משנה הכל.

קלוד לא יודע שאתם בסדר.

ספציפיות בכוונה.

שלוש דרכים שלא יעבדו.

פעולה במקום עקיפה.

סירוב יתר - false refusal.

שלוש שאלות שדווחו על סירוב מוטעה.

קלוד נמנע מהבעת עמדה.

כלל זהירות לרופאים, משפטנים, ויועצים.

קלוד גמיש יותר ממה שחושבים.

מה לא לעשות בסירוב.

הגבולות חלק מהמודל.תכירו אותם לעומק.

מה קלוד
יסרב לעשות.

שני סוגים שונים
של “לא”.

הגבולות חלק מהמודל.
תכירו אותם לעומק.