דגם ה- AI האחרון של ספינת הדגל, מאבריק, עשה גלים לאחר שנחיתה את המקום השני ב- LM Arena, פלטפורמה בה חולדות אנושיות מעריכות את התגובות של דגמי AI לאיכות הדרגה.
עם זאת, המחלוקת פגעה, לאחר שחוקרי AI מצאו כי גרסתו של מאבריק המועסקת במוצץ אינה הזמינה לציבור למפתחים.
איך הדירוג של Maverick AI מרים גבות
נראה כי הביצועים המרשימים של מאבריק ב- LM Arena, היו מאשרים תחילה את קביעותיו של מטא לדחוף את גבולות ה- AI השיחה החדיש ביותר. עם זאת, חפירה נוספת נחשפה כי המודל שנבדק לא היה המהדורה הכללית, על פיTechCrunch.
במקום זאת, מטה הדגישה בהודעה הרשמית משלה כי הגרסה שהיא התגלגלה ל- LM Arena הייתה "גרסת צ'אט ניסיונית" - נקודה שלא הפניקה תשומת לב במפורש לתוך ציוני המידוד.
לבד מטאאתר שיחה, טבלת השוואה מאמתת כי מבחן ה- LM Arena נערך עם "Llama 4 Maverick המותאם לשיחה." גרסה זו אמורה להיות כוונון מיוחד שמטרתו לשפר את הדיאלוג, מה שעלול להעניק תועלת בלתי הוגנת למהדורות הפחות אופטימליות או "וניל" של יוצרי AI אחרים.
באופן מסורתי, LM Arena, לא מושלם, למרות שהיא עשויה להיות, תפקדה כקירוב של קרקע ניטרלית כדי לשים מודלים של שפה גדולה זה בזה על ידי קריטריונים אנושיים. הרוב הגדול של חברות AI המשתתפות פרסמו גרסאות ללא שינוי של דגמים שפורסמו בפומבי או שהיו פתוחים כאשר בוצעו שינויים.
לעומת זאת, השיטה של מטא ספגה ביקורת על היותה אטומה. בכך שלא חושפים את המודל המותאם ובמקום זאת לספק מודל ציבורי פחות מכוון, מפתחים נותרים עם ציפייה לביצועים שווא, מה שהופך אותו לבלבל לגבי מה שמאבק יכול ממש להשיג במסגרות מעשיות.
חוקרי AI קוראים להבדלים
מומחים ב- xדיווחכי גרסת ה- LM Arena של Maverick פועלת באופן שונה באופן משמעותי מאשר המקבילה להורדה. חלקם ציינו את השימוש המופרז באמוג'י, בעוד שאחרים הבחינו בתשובות ארוכות ומלוטשות מדי, פעולות שלא נמצאו במהדורת ברירת המחדל.
הבדל זה מוביל לשאלה חשובה בהאם לחברות יש את הזכות לכוונן את הדגמים באופן ספציפי למדדים ולשמור על גרסאות אלה מוסתרות מהציבור?
Meta ו- Chatbot Arena שותקים כרגע
בזמן שההתנגשות מתקיימת, אחרים קוראים לשקיפות הן מטא והן מהצ'ט -בוט ארנה, הישות שמנהלת את LM Arena. נכון לכתיבה, אף אחד מהצדדים לא הגיב לנושא.
זה מעט עניין במחקר AI: הציווי של מדדים סטנדרטיים ופתוחים המודדים ביצועים בעולם האמיתי, ולא תוצאות שנבחרו בדובדבן. מכיוון ש- AI באה להשפיע על הכל, החל מתמיכת לקוחות לייצור תוכן, ייצוג אמיתי חשוב מתמיד.
Ⓒ 2024 TechTimes.com כל הזכויות שמורות. אל תשחזר ללא אישור.