מדדי AI תחת אש: משחקי 'פוקימון' חושפים סדקים בהשוואות מודלים - מה המחלוקת?

מי היה חושב שזה אפילונכללים גם ב- AI Benchmarking? יצרני Chatbot משתמשים ב"פוקימון "למבחן כדי לראות את ההתקדמות של ה- AI במשחק.

פוסט ויראלי שפורסם לאחרונה ב- X טען כי Gemini AI של גוגל ביצע את דגם ה- Claude של אנתרופיק בעת ששיחק את הטרילוגיה המקורית של משחק פוקימון. על פי הדיווחים, מזל תאומים התקדם לעיר לבנדר בזרם מתעוות, בעוד קלוד עדיין נאבק בהר מון החל מפברואר. אבל יש עוד בסיפור.

דחיפה המותאמת אישית של Google Gemini מרימה גבות

אמיר בלאם/מבט

בעוד הטענה הוויראלית עוררה התרגשות, היא השאירה בנוחות את הפרט המכריע: מזל תאומים היה ברגל למעלה. לְפִיRedditמשתמשים, המפתח המנהל את זרם Gemini יישם מפת מיני מותאמת אישית. תוספת חכמה זו אפשרה ל- ChatBot לזהות אלמנטים חשובים למשחקים כמו עצים Cuttable מבלי להסתמך אך ורק על ניתוח צילום מסך.

לְמַרְבֶּה הַצַעַר,נפל מכיוון שאין לה תאוצות דומות. בהיעדר עזרים כאלה, התפתחות המשחק של קלוד הייתה כוללת עניין של פענוח תמונות גולמיות - משימה מאתגרת בהרבה.

TechCrunchמדווח כי סטייה זו מצביעה על בעיה הולכת וגוברת במדד AI: סביבות בדיקה לא אמינות המעוותות מדדי ביצועים.

מדוע 'פוקימון' משמשת במדדי AI

בעוד ש"פוקימון "אינו מדד רציני לבדיקת AI, זהו דוגמה כיף-גם אם פגומה להפגנת ביצועי AI וביצירת בחירות. עם זאת, זה גם מציין עד כמה תוצאות מידה רגישות מאוד הן לשינוי יישום.

לדוגמה, דגם הסונטה של ​​Claude 3.7 של Anthropicרָשׁוּםשני ציונים משתנים במדד מאומת SWE-Bench, המעריך את יכולת הקידוד. ללא עזרה לשיפורים, הוא קלע 62.3%. אבל עם מערכת "פיגום" בהתאמה אישית שנבנתה על ידי אנתרופי, היא זינקה ל -70.3%.

"אני מסכים, וכמות ההתקדמות המתבצעת כאן מראה כי זיכרון עניין. אני יודע שרוב בני האדם לא היו מסוגלים לשנן כל פיקסל בכל עיר/עיר/מסלול/מערה שהם נמצאים בזמן שהם משחקים את המשחק, אך בדרך כלל בני אדם יכולים בדרך כלל לזכור את הפריסה הכללית של האזור הנוכחי, הם בוחנים את הקצר. כתב.

"כן, סגל מיפוי הוא 100% פונקציה הכרחית כדי להתמצא בעולם. תמיד חשב שזה הנושא הגדול ביותר שהיה ל- DeepMind עם התקדמות בבוג'ום הגדול ביותר שלה: נקמת מונטזומה", הסכים משתמש רדדיט אחר.

הנושא הגדול יותר: השוואות AI עכורות

על מדדים להציע מגרש משחק מובהק ורמה עליו ניתן לשפוט בין התפתחות AI. אך ככל שמפתחים כוללים קטעים קנייניים או מתאימים את הדגמים שלהם למבחן מסוים, הפיכת השוואה בין תפוחים לתפוחים הופכת למאתגרת יותר.

ברור שמדדי הדוכנים הללו מטשטשים את ההבחנה בין ביצועי מודל אמיתיים לאופטימיזציה מתוחכמת. צפוי כי יותר עסקים ייאלצו לפתח שיטות מידוד פתוחות יותר, סטנדרטיות - או להסתכן בהטעיית צרכנים, משקיעים וחוקרים כאחד.

Ⓒ 2024 TechTimes.com כל הזכויות שמורות. אל תשחזר ללא אישור.