فکر میکردید پوکمون معیار دشواری برای هوش مصنوعی باشد؟ گروهی از پژوهشگران معتقدند که سوپر ماریو بروس حتی چالشبرانگیزتر است.
آزمایشگاه هوش مصنوعی هائو، یک سازمان پژوهشی در دانشگاه کالیفرنیا سندیگو، روز جمعه هوش مصنوعی را در بازیهای زنده سوپر ماریو بروس به کار گرفت. مدل Claude 3.7 از شرکت Anthropic بهترین عملکرد را نشان داد و پس از آن Claude 3.5 قرار گرفت. مدلهای Gemini 1.5 Pro از گوگل و GPT-4o از OpenAI با دشواریهایی مواجه شدند.
البته باید روشن شود که این نسخه دقیقاً همان سوپر ماریو بروس اصلی منتشرشده در سال ۱۹۸۵ نبود. بازی در یک شبیهساز اجرا شد و با چارچوبی به نام GamingAgent ادغام گردید تا هوش مصنوعی بتواند کنترل ماریو را در دست بگیرد.

GamingAgent، که توسط آزمایشگاه هائو بهصورت داخلی توسعه یافته است، دستورالعملهای سادهای مانند «اگر مانع یا دشمنی نزدیک باشد، برای جاخالی دادن به چپ حرکت کن یا بپر» و همچنین تصاویر درونبازی را به هوش مصنوعی ارائه میداد. سپس هوش مصنوعی ورودیهایی بهصورت کد پایتون تولید میکرد تا ماریو را کنترل کند.
با این حال، هائو میگوید که این بازی هر مدل را مجبور کرد تا «یاد بگیرد» چگونه مانورهای پیچیده را برنامهریزی کند و استراتژیهای بازی را توسعه دهد. جالب آنکه، آزمایشگاه دریافت مدلهای استدلالی مانند o1 از OpenAI، که مسائل را گامبهگام «فکر» میکنند تا به راهحل برسند، در مقایسه با مدلهای «غیراستدلالی» عملکرد ضعیفتری داشتند، با وجود آنکه معمولاً در اکثر معیارها قویتر هستند.
یکی از دلایل اصلی مشکل مدلهای استدلالی در بازیهای بلادرنگ مانند این، به گفته پژوهشگران، این است که تصمیمگیری برای اقدامات در آنها زمانبر است — معمولاً چند ثانیه —. در سوپر ماریو بروس، زمانبندی همهچیز است. یک ثانیه میتواند تفاوت بین پرشی ایمن و سقوط به مرگ را رقم بزند.
بازیها دهههاست که برای سنجش هوش مصنوعی به کار میروند. اما برخی کارشناسان درباره عاقلانه بودن برقراری ارتباط بین مهارتهای بازی هوش مصنوعی و پیشرفت تکنولوژیک تردید دارند. برخلاف دنیای واقعی، بازیها معمولاً انتزاعی و نسبتاً ساده هستند و حجم دادهای نامحدود برای آموزش هوش مصنوعی فراهم میکنند.
معیارهای نمایشی اخیر در بازیها به آنچه آندری کارپاتی، دانشمند پژوهشی و یکی از بنیانگذاران OpenAI، «بحران ارزیابی» نامیده اشاره دارد.
او در پستی در X نوشت: «واقعاً نمیدانم الان باید به کدام معیارهای [هوش مصنوعی] نگاه کنم. بهطور خلاصه، واکنش من این است که واقعاً نمیدانم این مدلها الان چقدر خوب هستند.»
حداقل میتوانیم تماشا کنیم که هوش مصنوعی چگونه ماریو را بازی میکند.