خبر کوتاه
بحث‌ها بر سر محک‌زنی هوش مصنوعی به پوکمون رسیده است
زمان مطالعه: 2 دقیقه
بحث‌ها بر سر محک‌زنی هوش مصنوعی به پوکمون رسیده است
بحث‌ها بر سر محک‌زنی هوش مصنوعی به پوکمون رسیده است
خبر کوتاه
بحث‌ها بر سر محک‌زنی هوش مصنوعی به پوکمون رسیده است
زمان مطالعه: 2 دقیقه

حتی پوکمون هم از جنجال‌های محک‌زنی هوش مصنوعی در امان نیست.

هفته گذشته، یک پست در X وایرال شد و ادعا کرد که جدیدترین مدل Gemini گوگل از مدل پرچمدار Claude آنتروپیک در سه‌گانه بازی ویدیویی اصلی پوکمون پیشی گرفته است. طبق گزارش‌ها، Gemini در یک استریم Twitch یک توسعه‌دهنده به Lavender Town رسیده بود؛ Claude تا اواخر فوریه در Mount Moon گیر کرده بود.

تصویر توییت

اما آنچه این پست به آن اشاره نکرد این بود که Gemini یک مزیت داشت.

همانطور که کاربران در Reddit اشاره کردند، توسعه‌دهنده‌ای که استریم Gemini را نگهداری می‌کند، یک minimap سفارشی ساخته بود که به مدل کمک می‌کند “تایل‌ها” را در بازی مانند درختان قابل برش شناسایی کند. این امر نیاز Gemini به تجزیه و تحلیل اسکرین‌شات‌ها قبل از تصمیم‌گیری در مورد گیم‌پلی را کاهش می‌دهد.

اکنون، پوکمون در بهترین حالت یک محک‌زنی نیمه‌جدی هوش مصنوعی است – تعداد کمی استدلال می‌کنند که این یک آزمایش بسیار آموزنده از قابلیت‌های یک مدل است. اما این یک مثال آموزنده از چگونگی تأثیرگذاری پیاده‌سازی‌های مختلف یک محک‌زنی بر نتایج است.

برای مثال، آنتروپیک دو امتیاز برای مدل اخیر Anthropic 3.7 Sonnet خود در محک‌زنی SWE-bench Verified، که برای ارزیابی توانایی‌های کدنویسی یک مدل طراحی شده است، گزارش کرد. Claude 3.7 Sonnet در SWE-bench Verified دقت ۶۲.۳% و با یک “داربست سفارشی” که آنتروپیک توسعه داده بود، دقت ۷۰.۳% را به دست آورد.

اخیراً، متا نسخه‌ای از یکی از مدل‌های جدیدتر خود، Llama 4 Maverick، را برای عملکرد خوب در یک محک‌زنی خاص، LM Arena، تنظیم دقیق کرد. نسخه اصلی این مدل در همان ارزیابی به طور قابل توجهی بدتر عمل می‌کند.

با توجه به اینکه محک‌زنی‌های هوش مصنوعی – از جمله پوکمون – از ابتدا معیارهای ناقصی هستند، پیاده‌سازی‌های سفارشی و غیراستاندارد تهدید می‌کنند که اوضاع را حتی بیشتر مبهم کنند. به عبارت دیگر، به نظر نمی‌رسد که مقایسه مدل‌ها با عرضه آن‌ها آسان‌تر شود.

منبع: تک‌کرانچ

اشتراک گذاری:

آخرین مقالات پیشنهادی

دیدگاه‌ها

اشتراک در
اطلاع از
guest
0 Comments
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
دیتانید تو مراحل مختلف تحلیل داده می‌تونه به شما کمک کنه:
  1. امکان‌سنجی خواسته‌ها و تطبیق نیازمندی‌ها
  2. استخراج و تمیز کردن دادگان
  3. طراحی مدل‌های مناسب
  4. آموزش مدل براساس داده‌های به‌دست آمده
  5. استقرار مدل

آخرین اخبار

اخبار مشابه

روش جدید قابلیت اطمینان گزارش‌های تشخیصی رادیولوژیست‌ها را ارزیابی و بهبود می‌بخشد
به دلیل ابهام ذاتی در تصاویر پزشکی مانند اشعه ایکس، رادیولوژیست‌ها اغلب هنگام توصیف وجود یک آسیب‌شناسی خاص، مانند ذات‌الریه، از کلماتی مانند "ممکن ..
فناوری Web3 به ایجاد اطمینان و اعتماد در هوش مصنوعی کمک می‌کند
وعده هوش مصنوعی این است که زندگی همه ما را آسان‌تر خواهد کرد. و با این سهولت بزرگ، پتانسیل سود جدی نیز به همراه می‌آید. سازمان ملل متحد تخمین ...
نینا شیک(نویسنده): تأثیر هوش مصنوعی مولد بر تجارت، سیاست و جامعه
نینا شیک، سخنران و کارشناس برجسته در زمینه هوش مصنوعی مولد است که به دلیل کار پیشگامانه‌اش در تقاطع فناوری، جامعه و ژئوپلیتیک مشهور است...