איור של שלושה רובוטים עומדים על ריצת מרוץ, כל אחד בסמל של חברת AI: Anthropic, OpenAI ו-Google, עם דגל 'AI Race' מעליהם.
איור של שלושה רובוטים עומדים על ריצת מרוץ, כל אחד בסמל של חברת AI: Anthropic, OpenAI ו-Google, עם דגל 'AI Race' מעליהם.

השיפור בזיהוי חוסר ודאות יכול להיות חשוב למפתחים, במיוחד לחבר או קולגה שעוקבים אחרי התפתחויות בתחום הבינה המלאכותית.

קלוד 4.8 נגד ChatGPT וג'מיני מהלך הסיפור ועובדות מרכזיות

חברת Anthropic enthused את Claude Opus 4.8, מודל בינה מלאכותית חדש שנועד להתחרות ישירות עם OpenAI's ChatGPT ו-Google's Gemini. השדרוג ממוקד לא רק בביצועים, אלא בעיקר באמינות – עם יכולת לזהות מקרים שבהם המידע אינו ודאי ולסמן למשתמש שהמענה מצריך אימות. זה נועד להתמודד עם תופעת ה-hallucinations, שבהם מודלי AI מציגים טעויות כעובדות בביטחון מלא.

במבחן SWE Bench Pro, שנחשב למדד חשוב בתחום פיתוח תוכנה, השיג Claude Opus 4.8 ציון של 69.2%, מה שמציב אותו לפני מודלים מתקדמים של מתחרים. בנוסף, המודל כולל תכונה חדשה בשם Effort Control, המאפשרת למשתמש לבחור את רמת העומס החישובי לפי המשימה – מענה מהיר וזול למשימות פשוטות, או עיבוד עמוק יותר למשימות מורכבות.

המודל תומך גם ב-Dynamic Workflows, שמאפשר להפעלת מספר תתי-סוכנים במקביל כדי לפרק משימות גדולות לשלבים קטנים ולעבדן במקביל. זה עשוי לצמצם משמעותית את זמני עיבוד בפרויקטים טכניים. Anthropic מדגישה שהשדרוגים מגיעים ללא שינוי במחיר, ומרמזת על הרחבה קרובה של גישה למודלי Mythos, שנועדו למשימות ארגוניות רגישות וניתוחים מורכבים.

עובדות

  • Anthropic שיקה את Claude Opus 4.8 ב-31 במאי 2026.
  • המודל השיג ציון של 69.2% במבחן SWE Bench Pro, מעל מתחריו.
  • המודל יודע לסמן כשיש חוסר ודאות, כדי להפחית טעויות.
  • תכונת Effort Control מאפשרת לשלוט ברמת העומס החישובי לפי המשימה.
  • Dynamic Workflows מאפשרת עיבוד מקבילי של משימות מורכבות.
  • השדרוג מגיע ללא שינוי במחיר השימוש.

הסבר חדשות חזותי של Canto. כלי AI עשויים לסייע בהפקה. מדיניות עריכה