خبر
آیا xAI در مورد بنچمارک‌های Grok 3 دروغ گفته است؟
زمان مطالعه: 2 دقیقه
آیا xAI در مورد بنچمارک‌های Grok 3 دروغ گفته است؟
آیا xAI در مورد بنچمارک‌های Grok 3 دروغ گفته است؟
خبر
آیا xAI در مورد بنچمارک‌های Grok 3 دروغ گفته است؟
زمان مطالعه: 2 دقیقه

بحث‌ها درباره بنچمارک‌های هوش مصنوعی و نحوه گزارش‌دهی آنها توسط آزمایشگاه‌های هوش مصنوعی، به تدریج به عرصه عمومی کشیده شده است.

این هفته، یکی از کارکنان OpenAI، شرکت هوش مصنوعی ایلان ماسک، xAI، را به انتشار نتایج گمراه‌کننده بنچمارک برای مدل هوش مصنوعی جدید خود، Grok 3، متهم کرد. ایگور بابوشکین، یکی از بنیان‌گذاران xAI، اصرار داشت که شرکت در این مورد حق دارد.

حقیقت در جایی میان این دو طرف است.

در یک پست در وبلاگ xAI، این شرکت نموداری منتشر کرد که عملکرد Grok 3 را در آزمون AIME 2025 نشان می‌داد. AIME مجموعه‌ای از سوالات ریاضی چالش‌برانگیز از یک آزمون ریاضی دعوتی اخیر است. برخی از کارشناسان اعتبار AIME را به عنوان یک بنچمارک برای هوش مصنوعی زیر سوال برده‌اند، با این حال، نسخه‌های مختلف AIME، از جمله AIME 2025، به طور معمول برای بررسی توانایی‌های ریاضی مدل‌ها استفاده می‌شوند.

نمودار xAI نشان داد که دو نسخه از Grok 3، یعنی Grok 3 Reasoning Beta و Grok 3 mini Reasoning، در آزمون AIME 2025 از بهترین مدل موجود OpenAI، یعنی o3-mini-high، پیشی گرفته‌اند. اما کارکنان OpenAI در X به سرعت اشاره کردند که نمودار xAI امتیاز AIME 2025 مدل o3-mini-high را در حالت “cons@64” شامل نکرده است.

شاید از خود بپرسید “cons@64” چیست؟ این اصطلاح مخفف “consensus@64” است و به این معنی است که مدل ۶۴ بار تلاش می‌کند تا به هر سوال در یک بنچمارک پاسخ دهد و پاسخ‌هایی که بیشتر تکرار می‌شوند به عنوان پاسخ نهایی در نظر گرفته می‌شود. همانطور که تصور می‌کنید، cons@64 معمولاً باعث می‌شود که امتیاز بنچمارک مدل‌ها به طور قابل توجهی افزایش یابد، و حذف آن از نمودار می‌تواند باعث شود که به نظر برسد یک مدل از مدل دیگری پیشی گرفته است، در حالی که در واقع چنین نیست.

امتیازهای Grok 3 Reasoning Beta و Grok 3 mini Reasoning برای AIME 2025 در حالت “@۱” (یعنی اولین امتیازی که مدل‌ها در بنچمارک به دست آورده‌اند) پایین‌تر از امتیاز o3-mini-high است. همچنین Grok 3 Reasoning Beta کمی از مدل o1 OpenAI در حالت “medium” محاسباتی عقب‌تر است. با این حال، xAI همچنان Grok 3 را به عنوان “هوشمندترین هوش مصنوعی جهان” تبلیغ می‌کند.

بابوشکین در X ادعا کرد که OpenAI در گذشته نمودارهای بنچمارک مشابهی منتشر کرده که گمراه‌کننده بوده‌اند، هرچند این نمودارها عملکرد مدل‌های خود OpenAI را مقایسه می‌کردند. یک طرف بی‌طرف در این مناظره نموداری “دقیق‌تر” آماده کرد که عملکرد تقریبا تمام مدل‌ها را در حالت cons@64 نشان می‌دهد.

توییت ناتان لمبرت

اما همانطور که محقق هوش مصنوعی، ناتان لمبرت، در یک پست اشاره کرد، شاید مهم‌ترین معیار همچنان یک معما باشد: هزینه محاسباتی (و مالی) که هر مدل برای دستیابی به بهترین امتیاز خود متحمل شده است. این موضوع نشان می‌دهد که بیشتر بنچمارک‌های هوش مصنوعی چه مقدار اطلاعات کمی درباره محدودیت‌ها و نقاط قوت مدل‌ها ارائه می‌دهند.

منبع: تک‌کرانچ

اشتراک گذاری:

آخرین مقالات پیشنهادی

دیدگاه‌ها

اشتراک در
اطلاع از
guest


0 Comments
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
دیتانید تو مراحل مختلف تحلیل داده می‌تونه به شما کمک کنه:
  1. امکان‌سنجی خواسته‌ها و تطبیق نیازمندی‌ها
  2. استخراج و تمیز کردن دادگان
  3. طراحی مدل‌های مناسب
  4. آموزش مدل براساس داده‌های به‌دست آمده
  5. استقرار مدل

آخرین اخبار

اخبار مشابه

ادغام xAI و X معامله خوبی است - اگر روی امپراتوری ماسک شرط می‌بندید
زمانی که ایلان ماسک اعلام کرد استارت‌آپ هوش مصنوعی او، xAI، شرکت رسانه‌های اجتماعی‌اش، X (که قبلاً توییتر نامیده می‌شد) را در یک معامله تماماً ...
نهاد ناظر داده ایرلند استفاده X از داده‌های کاربران اروپایی برای آموزش Grok را بررسی می‌کند
نهاد ناظر داده ایرلند، کمیسیون حفاظت از داده‌ها (DPC)، روز جمعه اعلام کرد که تحقیقاتی را در مورد استفاده X متعلق به ایلان ماسک از داده‌های شخصی ...
چرا گروک ایلان ماسک در هند غوغا به پا کرده است؟
یک پرسش هفته گذشته از یک حساب کاربری در X (توییتر سابق) به نام توکا کافی بود تا چت‌بات داخلی ایلان ماسک به نام گروک 3 را به یک طوفان وایرال در ...