خبر
Meta مدل‌های شاخص هوش مصنوعی جدید خود، Llama 4 را منتشر کرد
زمان مطالعه: 5 دقیقه
Meta مدل‌های شاخص هوش مصنوعی جدید خود، Llama 4 را منتشر کرد
Meta مدل‌های شاخص هوش مصنوعی جدید خود، Llama 4 را منتشر کرد
خبر
Meta مدل‌های شاخص هوش مصنوعی جدید خود، Llama 4 را منتشر کرد
زمان مطالعه: 5 دقیقه

متا در روز شنبه مجموعه‌ای جدید از مدل‌های هوش مصنوعی به نام Llama 4 را در خانواده Llama خود منتشر کرده است.

در مجموع چهار مدل جدید وجود دارد: Llama 4 Scout، Llama 4 Maverick و Llama 4 Behemoth. متا می‌گوید همه آن‌ها بر روی “مقادیر زیادی متن، تصویر و داده‌های ویدیویی بدون برچسب” آموزش داده شده‌اند تا “درک بصری گسترده‌ای” به آن‌ها ببخشند.

گزارش شده است که موفقیت مدل‌های باز آزمایشگاه هوش مصنوعی چینی DeepSeek، که عملکردی همتراز یا بهتر از مدل‌های شاخص قبلی Llama متا دارند، توسعه Llama را به شدت تسریع کرده است. گفته می‌شود که متا اتاق‌های جنگی تشکیل داده تا نحوه کاهش هزینه اجرا و استقرار مدل‌هایی مانند R1 و V3 توسط DeepSeek را رمزگشایی کند.

Scout و Maverick به طور آزادانه در Llama.com و از شرکای متا، از جمله پلتفرم توسعه هوش مصنوعی Hugging Face در دسترس هستند، در حالی که Behemoth هنوز در حال آموزش است. متا می‌گوید که Meta AI، دستیار مبتنی بر هوش مصنوعی آن در برنامه‌هایی از جمله WhatsApp، Messenger و Instagram، در ۴۰ کشور برای استفاده از Llama 4 به‌روزرسانی شده است. ویژگی‌های چندوجهی در حال حاضر فقط در ایالات متحده و به زبان انگلیسی محدود شده است.

برخی از توسعه‌دهندگان ممکن است با مجوز Llama 4 مشکل داشته باشند.

کاربران و شرکت‌های “مستقر” یا دارای “محل اصلی کسب و کار” در اتحادیه اروپا از استفاده یا توزیع این مدل‌ها منع شده‌اند، که احتمالاً نتیجه الزامات حاکمیتی تحمیل شده توسط قوانین هوش مصنوعی و حفظ حریم خصوصی داده‌های این منطقه است. (متا در گذشته این قوانین را بیش از حد سنگین خوانده است.) علاوه بر این، مانند نسخه‌های قبلی Llama، شرکت‌هایی با بیش از ۷۰۰ میلیون کاربر فعال ماهانه باید مجوز ویژه ای را از متا درخواست کنند، که متا می‌تواند به صلاحدید خود آن را اعطا یا رد کند.

متا در یک پست وبلاگی نوشت: “این مدل‌های Llama 4 آغازگر عصر جدیدی برای اکوسیستم Llama هستند. این تازه شروع کار برای مجموعه Llama 4 است.”

مدل‌های Llama 4
منبع تصویر: متا

متا می‌گوید که Llama 4 اولین گروه از مدل‌های آن است که از معماری ترکیب متخصصان (MoE) استفاده می‌کند، که از نظر محاسباتی برای آموزش و پاسخ به پرسش‌ها کارآمدتر است. معماری‌های MoE اساساً وظایف پردازش داده را به زیروظایف تقسیم می‌کنند و سپس آن‌ها را به مدل‌های “متخصص” کوچکتر و تخصصی واگذار می‌کنند.

به عنوان مثال، Maverick در مجموع ۴۰۰ میلیارد پارامتر دارد، اما تنها ۱۷ میلیارد پارامتر فعال در بین ۱۲۸ “متخصص” دارد. (پارامترها تقریباً با مهارت‌های حل مسئله یک مدل مطابقت دارند.) Scout دارای ۱۷ میلیارد پارامتر فعال، ۱۶ متخصص و ۱۰۹ میلیارد پارامتر کل است.

بر اساس آزمایش‌های داخلی متا، Maverick، که این شرکت می‌گوید برای موارد استفاده “دستیار عمومی و چت” مانند نوشتن خلاقانه بهترین است، از مدل‌هایی مانند GPT-4o OpenAI و Gemini 2.0 گوگل در برخی از معیارهای کدنویسی، استدلال، چندزبانه، متن طولانی و تصویر پیشی می‌گیرد. با این حال، Maverick به اندازه مدل‌های جدیدتر و توانمندتر مانند Gemini 2.5 Pro گوگل، Claude 3.7 Sonnet آنتروپیک و GPT-4.5 OpenAI عملکرد خوبی ندارد.

نقاط قوت Scout در وظایفی مانند خلاصه‌سازی اسناد و استدلال بر روی پایگاه‌های کد بزرگ نهفته است. به طور منحصر به فرد، دارای یک پنجره زمینه بسیار بزرگ است: ۱۰ میلیون توکن. (“توکن‌ها” نشان دهنده قطعات متن خام هستند – به عنوان مثال، کلمه “فوق العاده” به “فوق”، “العا” و “ده” تقسیم می‌شود.) به زبان ساده، Scout می‌تواند تصاویر و تا میلیون‌ها کلمه را دریافت کند و به آن امکان می‌دهد اسناد بسیار طولانی را پردازش و با آن‌ها کار کند.

بر اساس محاسبات متا، Scout می‌تواند بر روی یک واحد پردازش گرافیکی Nvidia H100 اجرا شود، در حالی که Maverick به یک سیستم Nvidia H100 DGX یا معادل آن نیاز دارد.

Behemoth منتشر نشده متا به سخت افزار قوی‌تری نیز نیاز خواهد داشت. به گفته این شرکت، Behemoth دارای ۲۸۸ میلیارد پارامتر فعال، ۱۶ متخصص و نزدیک به دو تریلیون پارامتر کل است. بنچمارک‌های داخلی متا نشان می‌دهد که Behemoth در چندین ارزیابی که مهارت‌های STEM مانند حل مسئله ریاضی را اندازه‌گیری می‌کنند، از GPT-4.5، Claude 3.7 Sonnet و Gemini 2.0 Pro (اما نه ۲.۵ Pro) عملکرد بهتری دارد.

شایان ذکر است که هیچ یک از مدل‌های Llama 4 یک مدل “استدلالی” مناسب در حد o1 و o3-mini OpenAI نیستند. مدل‌های استدلالی پاسخ‌های خود را بررسی می‌کنند و به طور کلی به سؤالات با اطمینان بیشتری پاسخ می‌دهند، اما در نتیجه، زمان بیشتری نسبت به مدل‌های سنتی “غیر استدلالی” برای ارائه پاسخ صرف می‌کنند.

ساختار مدل
منبع تصویر: متا

جالب اینجاست که متا می‌گوید تمام مدل‌های Llama 4 خود را طوری تنظیم کرده است که کمتر از قبل از پاسخ دادن به سؤالات “بحث‌برانگیز” خودداری کنند. به گفته این شرکت، Llama 4 به موضوعات سیاسی و اجتماعی “مورد بحث” که مدل‌های قبلی Llama به آن‌ها پاسخ نمی‌دادند، پاسخ می‌دهد. علاوه بر این، این شرکت می‌گوید Llama 4 در مورد اینکه به کدام درخواست‌ها اصلاً پاسخ نخواهد داد، “به طور چشمگیری متعادل‌تر” است.

سخنگوی متا به TechCrunch گفت: “[شما] می‌توانید روی [Llama 4] حساب کنید تا پاسخ‌های مفید و واقعی را بدون قضاوت ارائه دهد. [ما] به بهبود پاسخگویی Llama ادامه می‌دهیم تا به سؤالات بیشتری پاسخ دهد، بتواند به دیدگاه‌های مختلف پاسخ دهد […] و از دیدگاه‌های خاصی نسبت به دیگران طرفداری نکند.”

این تغییرات در حالی صورت می‌گیرد که برخی از متحدان کاخ سفید، چت‌بات‌های هوش مصنوعی را به دلیل بیش از حد “بیدار” بودن از نظر سیاسی متهم می‌کنند.

بسیاری از نزدیکان رئیس جمهور دونالد ترامپ، از جمله میلیاردر ایلان ماسک و “تزار” ارزهای دیجیتال و هوش مصنوعی دیوید ساکس، ادعا کرده‌اند که چت‌بات‌های هوش مصنوعی محبوب دیدگاه‌های محافظه‌کارانه را سانسور می‌کنند. ساکس در گذشته ChatGPT OpenAI را به عنوان “برنامه‌ریزی شده برای بیدار بودن” و نادرست در مورد موضوعات سیاسی مورد انتقاد قرار داده است.

در واقعیت، تعصب در هوش مصنوعی یک مشکل فنی لاینحل است. شرکت هوش مصنوعی خود ماسک، xAI، برای ایجاد یک چت‌بات که از برخی دیدگاه‌های سیاسی نسبت به دیگران حمایت نکند، با مشکل مواجه شده است.

این امر شرکت‌هایی از جمله OpenAI را از تنظیم مدل‌های هوش مصنوعی خود برای پاسخ دادن به سؤالات بیشتر از آنچه قبلاً پاسخ می‌دادند، به ویژه سؤالات مربوط به موضوعات بحث‌برانگیز، باز نداشته است.

منبع: تک‌کرانچ

اشتراک گذاری:

آخرین مقالات پیشنهادی

دیدگاه‌ها

اشتراک در
اطلاع از
guest
0 Comments
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
دیتانید تو مراحل مختلف تحلیل داده می‌تونه به شما کمک کنه:
  1. امکان‌سنجی خواسته‌ها و تطبیق نیازمندی‌ها
  2. استخراج و تمیز کردن دادگان
  3. طراحی مدل‌های مناسب
  4. آموزش مدل براساس داده‌های به‌دست آمده
  5. استقرار مدل

آخرین اخبار

اخبار مشابه

روش جدید قابلیت اطمینان گزارش‌های تشخیصی رادیولوژیست‌ها را ارزیابی و بهبود می‌بخشد
به دلیل ابهام ذاتی در تصاویر پزشکی مانند اشعه ایکس، رادیولوژیست‌ها اغلب هنگام توصیف وجود یک آسیب‌شناسی خاص، مانند ذات‌الریه، از کلماتی مانند "ممکن ..
فناوری Web3 به ایجاد اطمینان و اعتماد در هوش مصنوعی کمک می‌کند
وعده هوش مصنوعی این است که زندگی همه ما را آسان‌تر خواهد کرد. و با این سهولت بزرگ، پتانسیل سود جدی نیز به همراه می‌آید. سازمان ملل متحد تخمین ...
نینا شیک(نویسنده): تأثیر هوش مصنوعی مولد بر تجارت، سیاست و جامعه
نینا شیک، سخنران و کارشناس برجسته در زمینه هوش مصنوعی مولد است که به دلیل کار پیشگامانه‌اش در تقاطع فناوری، جامعه و ژئوپلیتیک مشهور است...