آیا xAI در مورد بنچمارک‌های Grok 3 دروغ گفته است؟

خبر

زمان مطالعه: 2 دقیقه

علیرضا رحیمی
5 اسفند 1403
11:43

آیا xAI در مورد بنچمارک‌های Grok 3 دروغ گفته است؟

خبر

آیا xAI در مورد بنچمارک‌های Grok 3 دروغ گفته است؟

زمان مطالعه: 2 دقیقه

علیرضا رحیمی
5 اسفند 1403
11:43

بحث‌ها درباره بنچمارک‌های هوش مصنوعی و نحوه گزارش‌دهی آنها توسط آزمایشگاه‌های هوش مصنوعی، به تدریج به عرصه عمومی کشیده شده است.

این هفته، یکی از کارکنان OpenAI، شرکت هوش مصنوعی ایلان ماسک، xAI، را به انتشار نتایج گمراه‌کننده بنچمارک برای مدل هوش مصنوعی جدید خود، Grok 3، متهم کرد. ایگور بابوشکین، یکی از بنیان‌گذاران xAI، اصرار داشت که شرکت در این مورد حق دارد.

حقیقت در جایی میان این دو طرف است.

در یک پست در وبلاگ xAI، این شرکت نموداری منتشر کرد که عملکرد Grok 3 را در آزمون AIME 2025 نشان می‌داد. AIME مجموعه‌ای از سوالات ریاضی چالش‌برانگیز از یک آزمون ریاضی دعوتی اخیر است. برخی از کارشناسان اعتبار AIME را به عنوان یک بنچمارک برای هوش مصنوعی زیر سوال برده‌اند، با این حال، نسخه‌های مختلف AIME، از جمله AIME 2025، به طور معمول برای بررسی توانایی‌های ریاضی مدل‌ها استفاده می‌شوند.

نمودار xAI نشان داد که دو نسخه از Grok 3، یعنی Grok 3 Reasoning Beta و Grok 3 mini Reasoning، در آزمون AIME 2025 از بهترین مدل موجود OpenAI، یعنی o3-mini-high، پیشی گرفته‌اند. اما کارکنان OpenAI در X به سرعت اشاره کردند که نمودار xAI امتیاز AIME 2025 مدل o3-mini-high را در حالت “cons@64” شامل نکرده است.

شاید از خود بپرسید “cons@64” چیست؟ این اصطلاح مخفف “consensus@64” است و به این معنی است که مدل ۶۴ بار تلاش می‌کند تا به هر سوال در یک بنچمارک پاسخ دهد و پاسخ‌هایی که بیشتر تکرار می‌شوند به عنوان پاسخ نهایی در نظر گرفته می‌شود. همانطور که تصور می‌کنید، cons@64 معمولاً باعث می‌شود که امتیاز بنچمارک مدل‌ها به طور قابل توجهی افزایش یابد، و حذف آن از نمودار می‌تواند باعث شود که به نظر برسد یک مدل از مدل دیگری پیشی گرفته است، در حالی که در واقع چنین نیست.

امتیازهای Grok 3 Reasoning Beta و Grok 3 mini Reasoning برای AIME 2025 در حالت “@۱” (یعنی اولین امتیازی که مدل‌ها در بنچمارک به دست آورده‌اند) پایین‌تر از امتیاز o3-mini-high است. همچنین Grok 3 Reasoning Beta کمی از مدل o1 OpenAI در حالت “medium” محاسباتی عقب‌تر است. با این حال، xAI همچنان Grok 3 را به عنوان “هوشمندترین هوش مصنوعی جهان” تبلیغ می‌کند.

بابوشکین در X ادعا کرد که OpenAI در گذشته نمودارهای بنچمارک مشابهی منتشر کرده که گمراه‌کننده بوده‌اند، هرچند این نمودارها عملکرد مدل‌های خود OpenAI را مقایسه می‌کردند. یک طرف بی‌طرف در این مناظره نموداری “دقیق‌تر” آماده کرد که عملکرد تقریبا تمام مدل‌ها را در حالت cons@64 نشان می‌دهد.

اما همانطور که محقق هوش مصنوعی، ناتان لمبرت، در یک پست اشاره کرد، شاید مهم‌ترین معیار همچنان یک معما باشد: هزینه محاسباتی (و مالی) که هر مدل برای دستیابی به بهترین امتیاز خود متحمل شده است. این موضوع نشان می‌دهد که بیشتر بنچمارک‌های هوش مصنوعی چه مقدار اطلاعات کمی درباره محدودیت‌ها و نقاط قوت مدل‌ها ارائه می‌دهند.

منبع: تک‌کرانچ

Grok 3 xAI، xAI، بنچمارک‌های هوش مصنوعی، هزینه محاسباتی مدل‌ها، هوش مصنوعی ایلان ماسک

اشتراک گذاری:

آخرین مقالات پیشنهادی

انواع یادگیری در شبکه‌های عصبی ژرف

مقدمه‌ای بر زندگی مصنوعی برای دوست‌داران هوش‌مصنوعی

قسمت دوم: چگونه کار می‌کنند؟ (فناوری‌های زیربنایی ماشین‌های خودران)

قسمت اول: ماشین‌های خودران، سفری به آینده‌ای بدون راننده

علیرضا رحیمی

دانشجوی دکتری کامپیوتر - هوش مصنوعی هستم. تخصص من در توسعه مدل‌های یادگیری ماشین و بهینه‌سازی جریان‌های کاری داده‌ها برای استخراج بینش‌های ارزشمند از داده‌های پیچیده است. علاقه‌مند به استفاده از هوش مصنوعی و مهندسی داده برای ایجاد راه‌حل‌های مقیاس‌پذیر جهت بهبود هوش تجاری و تصمیم‌گیری هستم.

مشاهده کلیه مقالات