عامل جدید هوش مصنوعی گوگل دیپمایند مانند انسان یاد میگیرد، سازگار میشود و بازی میکند

به طور خلاصه
- این سیستم از مدل جیمینی گوگل برای استدلال درباره اهداف، توضیح برنامههایش و عمل در بازیهای ناآشنا استفاده کرد.
- SIMA 2 از طریق بازی خودراهبر مهارتهای جدیدی آموخت و با دنیاهایی که لحظاتی قبل توسط Genie 3 ساخته شده بودند سازگار شد.
- دیپمایند یک پیشنمایش تحقیقاتی محدود برای توسعهدهندگان و دانشگاهیان برنامهریزی کرد.
گوگل دیپمایند روز پنجشنبه SIMA 2 را معرفی کرد — یک عامل هوش مصنوعی جدید که شرکت ادعا میکند مانند یک “همراه” درون دنیاهای مجازی رفتار میکند. با راهاندازی SIMA 2، دیپمایند قصد دارد فراتر از اقدامات ساده روی صفحه حرکت کند و به سمت هوش مصنوعی که میتواند برنامهریزی کند، خود را توضیح دهد و از طریق تجربه یاد بگیرد، پیش برود.
این شرکت در وبسایت خود گفت: “این یک گام مهم در جهت هوش مصنوعی عمومی (AGI) است، با پیامدهای مهم برای آینده رباتیک و تجسم هوش مصنوعی به طور کلی.”
نسخه اول SIMA (عامل مقیاسپذیر و قابل آموزش چندجهانی) که در مارس 2024 منتشر شد، با تماشای صفحه و استفاده از کنترلهای مجازی صفحه کلید و ماوس، صدها مهارت اولیه را آموخت. گوگل گفت که نسخه جدید SIMA با اجازه دادن به هوش مصنوعی برای فکر کردن به خودش، یک قدم فراتر میگذارد.
گوگل دیپمایند در X نوشت: “SIMA 2 تواناترین عامل هوش مصنوعی ما برای دنیاهای سهبعدی مجازی است. با قدرت جیمینی، فراتر از پیروی از دستورالعملهای اولیه میرود تا در محیطهای تعاملی فکر کند، بفهمد و اقدامات را انجام دهد – به این معنی که میتوانید از طریق متن، صدا یا حتی تصاویر با آن صحبت کنید.”
گوگل گفت با استفاده از مدل هوش مصنوعی جیمینی، SIMA میتواند اهداف سطح بالا را تفسیر کند، مراحلی که قصد انجام آن را دارد توضیح دهد و درون بازیها با سطحی از استدلال که سیستم اصلی قادر به دستیابی به آن نبود، همکاری کند.
دیپمایند گزارش داد که تعمیم قویتری در محیطهای مجازی وجود دارد و SIMA 2 وظایف طولانیتر و پیچیدهتری را تکمیل کرد که شامل درخواستهای منطقی، طرحهایی که روی صفحه کشیده شده بودند و ایموجیها میشد.
گوگل نوشت: “در نتیجه این توانایی، عملکرد SIMA 2 به طور قابل توجهی به عملکرد یک بازیکن انسانی در طیف گستردهای از وظایف نزدیکتر است”، و خاطرنشان کرد که SIMA 2 نرخ تکمیل وظیفه 65% داشت، در مقایسه با 31% توسط SIMA 1.
این سیستم همچنین دستورالعملها را تفسیر کرد و در دنیاهای سهبعدی کاملاً جدیدی که توسط پروژه دیگری از دیپمایند به نام جینی ۳ تولید شده بودند، عمل کرد. جینی ۳ که سال گذشته منتشر شد، محیطهای تعاملی را از یک تصویر واحد یا دستور متنی ایجاد میکند. سیمای ۲ در دنیاهایی که تا لحظاتی قبل از آزمایش با آنها مواجه نشده بود، جهتگیری کرد، اهداف را درک کرد و اقدامات معناداری انجام داد.
“سیمای ۲ اکنون در اجرای دستورالعملهای دقیق، حتی در دنیاهایی که قبلاً ندیده است، بسیار بهتر عمل میکند.” “این سیستم میتواند مفاهیم یادگرفتهشده مانند ‘معدنکاری’ در یک بازی را به ‘برداشت محصول’ در بازی دیگر منتقل کند – و بین وظایف مشابه ارتباط برقرار نماید.”
پس از یادگیری از نمایشهای انسانی، محققان اعلام کردند که این عامل به بازی خودهدایتشده روی آورد و از روش سعی و خطا و بازخورد تولیدشده توسط جمینی برای ایجاد دادههای تجربی جدید استفاده کرد، از جمله یک حلقه آموزشی که در آن سیمای ۲ وظایفی را تولید میکرد، آنها را امتحان میکرد و سپس دادههای مسیر حرکت خود را به نسخه بعدی مدل بازمیگرداند.
در حالی که گوگل از سیمای ۲ به عنوان گامی به جلو برای هوش مصنوعی استقبال کرد، این پژوهش همچنین شکافهایی را شناسایی کرد که هنوز نیاز به رسیدگی دارند، از جمله مشکل در انجام وظایف بسیار طولانی و چندمرحلهای، کار در یک پنجره حافظه محدود، و مواجهه با چالشهای تفسیر بصری که در سیستمهای هوش مصنوعی سهبعدی رایج است.
با این وجود، دیپمایند اعلام کرد که این پلتفرم به عنوان یک بستر آزمایشی برای مهارتهایی عمل کرده که در نهایت میتوانند به حوزه رباتیک و ناوبری منتقل شوند.
“پژوهش سیمای ۲ ما مسیری قوی به سمت کاربردها در رباتیک و گامی دیگر به سمت هوش مصنوعی عمومی در دنیای واقعی ارائه میدهد.”