גוגל מצטרפת למודל ה-Vision-Language עם PaliGemma 2, אבל איך זה יעזור לטעינת הבינה המלאכותית שלה?

ישנם סוגים שונים של דגמי AI זמינים בשוק לבחירת המשתמשים, וזה יהיה תלוי במידה רבה בסוג השירות שהם צריכים מטכנולוגיית למידת המכונה, וכןכעת עקבה אחרי הטכנולוגיה הקודמת שלה עם PaliGemma 2. AI חדש זה הוא מודל שפת ראייה פתוחה (VLM) שנועד להבין תמונות וצורות אחרות של מדיה שאינה טקסטואלית.

החברה מגבירה את הגישה הרב-גונית שלה לבינה מלאכותית, במיוחד מכיוון שהיא כבר העניקה לעולם את ה-Gemini AI הנודע שהוא מודל רב-מודאלי שיכול לקבל סוגים שונים של קלט.

גוגל חושפת את PaliGemma 2, מודל שפת החזון החדש שלה

גוגל חשפה את דגם הבינה המלאכותית האחרון שלהם לעולם, והוא נקראPaliGemma 2שהוא חלק ממודלים של Gemma של החברה המתמקדים בחוויות נוספות בנושא בינה מלאכותית שבמרכזה ראייה. במקור, גוגל הכריזה על דגם ה-I/O 2024 האחרון של Gemma במאי, והוא מתרכז במודל שפת ראייה (VLM) שמתמחה בהבנת רמזים חזותיים למשתמשים.

PaliGemma 2 הוא האחרון של החברה לאחר השקת PaliGemma במאי האחרון, ואז, הוא כבר היה מסוגל לספק כתוביות קצרות לתמונות וסרטונים קצרים, תוך שימוש ב-AI כדי להבין טוב יותר תמונות, זיהוי אובייקטים ופילוח, כמו גם "שאלה חזותית עונה."

עם זאת, עם השקת PaliGemma2, גוגל יכולה כעת לספק "כיתוב ארוך" עבור התמונות והסרטונים האמורים, כזו שמציעה מידע מפורט יותר לגבי תמונה ספציפית, הזמינה בגדלים שונים.

גוגל אמרה שהיא מציעה כיום גדלי דגמים הכוללים פרמטרים של 3B, 10B ו-28B, כולל רזולוציות של 224px, 448px ו-896px. PaliGemma 2 יכול גם לתאר תמונה של פעולות, רגשות ונרטיבים שנמצאים בסצנה.

כיצד PaliGemma 2 יכול לעזור לטכנולוגיית הבינה המלאכותית האחרונה של גוגל?

גוגל ממנפת כעת את PaliGemma 2 VLM הפתוח שלה למפתחים, הזמינה דרך Kaggle, Hugging Face ו-Olama לשימוש ביישומים שונים כדי לשפר את היכולות שלהם בתוכן מבוסס חזון.

ה- PaliGemma 2 האחרון מסוגל גם ליכולות ראייה מורכבות וטכניות יותר שבהן הוא יכול לזהות נוסחאות כימיות, תווים מוזיקליים, דוחות רנטגן בחזה, חשיבה מרחבית ועוד כדי להרחיב יותר את הבינה המלאכותית.

לפי גוגל, מפתחים קיימים שכבר השתמשו ב-PaliGemma המקורית עשויים להשתמש בגרסה זו של הדור הבא כדי לשדרג את היכולות והתכונות של היישומים שלהם, עם "שיפורי ביצועים מיידיים ברוב המשימות ללא שינויי קוד גדולים".

גוגל עשתה הכל עבור AI ב-2024

לגוגל הייתה שנת 2024 ענקית שהתמקדה בהרחבת יותר מהצעות הבינה המלאכותית שלה, כאשר הדגמים שלה מציעים תכונות משמעותיות למשתמשים, החל מהמוקדמות שלה.בדצמבר 2023. החברה הרחיבה יותר מהתכונות והטכנולוגיות הזמינות של מודל השפה שלה, ומציעה כעת סוגים שונים של דגמיה, כמו גם האחרון הוא Gemini 2.0.

אחד השינויים הגדולים ביותר מגוגל השנה היה תכונת הבינה המלאכותית המוכרזת של I/O 2024 של החברה שזמינה במוצר החיפוש שלה, הידוע יותר בשם. עם זאת, המוצרים האחרים מגוגל כמו חבילת Workspace, YouTube, Pixel ועוד היו כולם נהנים מהפיתוחים האחרונים של החברה בבינה מלאכותית.

לא רק זה, Google DeepMind גם הגבירה מספר פיתוחים של AI, בהם היא יכולה כעת ללמד רובוטים מספר פונקציות, תוך שילוב מודלים של ראייה כדי לעזור להרחיב את יכולות המכונות האוטונומיות.