خبر
علی‌بابا Qwen QwQ-32B: نمایش مقیاس‌پذیر یادگیری تقویتی
زمان مطالعه: 3 دقیقه
علی‌بابا Qwen QwQ-32B: نمایش مقیاس‌پذیر یادگیری تقویتی
علی‌بابا Qwen QwQ-32B: نمایش مقیاس‌پذیر یادگیری تقویتی
خبر
علی‌بابا Qwen QwQ-32B: نمایش مقیاس‌پذیر یادگیری تقویتی
زمان مطالعه: 3 دقیقه

تیم کیوئن در علی‌بابا از Qwen QwQ-32B رونمایی کرده است، مدلی هوش مصنوعی با ۳۲ میلیارد پارامتر که عملکردی رقابتی با DeepSeek-R1 بسیار بزرگ‌تر را به نمایش می‌گذارد. این دستاورد، پتانسیل مقیاس‌پذیری یادگیری تقویتی (RL) بر روی مدل‌های پایه قوی را برجسته می‌کند.

تیم کیوئن با موفقیت قابلیت‌های عاملی را در مدل استدلالی ادغام کرده و این امکان را فراهم آورده که مدل به‌طور انتقادی فکر کند، از ابزارها استفاده کند و استدلال خود را بر اساس بازخورد محیطی تطبیق دهد.

تیم اظهار داشت: «مقیاس‌پذیری یادگیری تقویتی پتانسیل بهبود عملکرد مدل را فراتر از روش‌های متداول پیش‌آموزش و پس‌آموزش دارد. مطالعات اخیر نشان داده‌اند که یادگیری تقویتی می‌تواند قابلیت‌های استدلالی مدل‌ها را به‌طور قابل‌توجهی ارتقا دهد.»

Qwen QwQ-32B عملکردی مشابه DeepSeek-R1 با ۶۷۱ میلیارد پارامتر (که ۳۷ میلیارد آن فعال است) ارائه می‌دهد، که گواهی بر اثربخشی یادگیری تقویتی هنگامی است که بر مدل‌های پایه قوی که با دانش گسترده جهانی پیش‌آموزش دیده‌اند، اعمال شود. این نتیجه قابل‌توجه، توانایی یادگیری تقویتی را برای پر کردن شکاف بین اندازه مدل و عملکرد نشان می‌دهد.

این مدل در مجموعه‌ای از معیارها از جمله AIME24، LiveCodeBench، LiveBench، IFEval و BFCL ارزیابی شده است که برای سنجش استدلال ریاضی، مهارت کدنویسی و توانایی‌های حل مسئله عمومی طراحی شده‌اند.

نتایج، عملکرد Qwen QwQ-32B را در مقایسه با دیگر مدل‌های پیشرو، از جمله DeepSeek-R1-Distilled-Qwen-32B، DeepSeek-R1-Distilled-Llama-70B، o1-mini و DeepSeek-R1 اصلی نشان می‌دهد.

نتایج معیارها:

  • AIME24: Qwen QwQ-32B امتیاز ۷۹.۵ را کسب کرد، اندکی کمتر از ۷۹.۸ DeepSeek-R1-6718، اما به‌طور قابل‌توجهی بالاتر از ۶۳.۶ OpenAI-o1-mini و مدل‌های تقطیرشده.
  • LiveCodeBench: Qwen QwQ-32B امتیاز ۶۳.۴ را به دست آورد، که نزدیک به ۶۵.۹ DeepSeek-R1-6718 بود و از مدل‌های تقطیرشده و ۵۳.۸ OpenAI-o1-mini پیشی گرفت.
  • LiveBench: Qwen QwQ-32B امتیاز ۷۳.۱ را کسب کرد، در حالی که DeepSeek-R1-6718 به ۷۱.۶ رسید و از مدل‌های تقطیرشده و ۵۷.۵ OpenAI-o1-mini بهتر عمل کرد.
  • IFEval: Qwen QwQ-32B امتیاز ۸۳.۹ را به دست آورد، بسیار نزدیک به ۸۳.۳ DeepSeek-R1-6718، و از مدل‌های تقطیرشده و ۵۹.۱ OpenAI-o1-mini پیشی گرفت.
  • BFCL: Qwen QwQ-32B امتیاز ۶۶.۴ را کسب کرد، در حالی که DeepSeek-R1-6718 به ۶۲.۸ رسید و از مدل‌های تقطیرشده و ۴۹.۳ OpenAI-o1-mini عملکرد بهتری داشت.

رویکرد تیم کیوئن شامل یک نقطه شروع سرد و فرآیند یادگیری تقویتی چندمرحله‌ای مبتنی بر پاداش‌های نتیجه‌محور بود. مرحله اول بر مقیاس‌پذیری یادگیری تقویتی برای وظایف ریاضی و کدنویسی متمرکز بود و از تأییدکننده‌های دقت و سرورهای اجرای کد استفاده کرد. مرحله دوم به قابلیت‌های عمومی گسترش یافت و پاداش‌هایی از مدل‌های پاداش عمومی و تأییدکننده‌های مبتنی بر قوانین را در بر گرفت.

تیم توضیح داد: «ما دریافتیم که این مرحله از آموزش یادگیری تقویتی با تعداد کمی گام می‌تواند عملکرد سایر قابلیت‌های عمومی مانند پیروی از دستورالعمل‌ها، هم‌راستایی با ترجیحات انسانی و عملکرد عامل را افزایش دهد، بدون افت قابل‌توجه در ریاضیات و کدنویسی.»

Qwen QwQ-32B با وزن باز و تحت مجوز آپاچی ۲.۰ در Hugging Face و ModelScope در دسترس است و همچنین از طریق Qwen Chat قابل دسترسی است. تیم کیوئن این را گامی اولیه در مقیاس‌پذیری یادگیری تقویتی برای تقویت قابلیت‌های استدلالی می‌داند و قصد دارد ادغام عوامل با یادگیری تقویتی را برای استدلال بلندمدت بیشتر کاوش کند.

تیم اظهار داشت: «در حالی که به سمت توسعه نسل بعدی کیوئن پیش می‌رویم، اطمینان داریم که ترکیب مدل‌های پایه قوی‌تر با یادگیری تقویتی پشتیبانی‌شده توسط منابع محاسباتی مقیاس‌پذیر، ما را به دستیابی به هوش مصنوعی عمومی (AGI) نزدیک‌تر خواهد کرد.»

منبع: اخبار هوش مصنوعی

اشتراک گذاری:

آخرین مقالات پیشنهادی

دیدگاه‌ها

اشتراک در
اطلاع از
guest
0 Comments
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
دیتانید تو مراحل مختلف تحلیل داده می‌تونه به شما کمک کنه:
  1. امکان‌سنجی خواسته‌ها و تطبیق نیازمندی‌ها
  2. استخراج و تمیز کردن دادگان
  3. طراحی مدل‌های مناسب
  4. آموزش مدل براساس داده‌های به‌دست آمده
  5. استقرار مدل

آخرین اخبار

اخبار مشابه

روش جدید قابلیت اطمینان گزارش‌های تشخیصی رادیولوژیست‌ها را ارزیابی و بهبود می‌بخشد
به دلیل ابهام ذاتی در تصاویر پزشکی مانند اشعه ایکس، رادیولوژیست‌ها اغلب هنگام توصیف وجود یک آسیب‌شناسی خاص، مانند ذات‌الریه، از کلماتی مانند "ممکن ..
فناوری Web3 به ایجاد اطمینان و اعتماد در هوش مصنوعی کمک می‌کند
وعده هوش مصنوعی این است که زندگی همه ما را آسان‌تر خواهد کرد. و با این سهولت بزرگ، پتانسیل سود جدی نیز به همراه می‌آید. سازمان ملل متحد تخمین ...
نینا شیک(نویسنده): تأثیر هوش مصنوعی مولد بر تجارت، سیاست و جامعه
نینا شیک، سخنران و کارشناس برجسته در زمینه هوش مصنوعی مولد است که به دلیل کار پیشگامانه‌اش در تقاطع فناوری، جامعه و ژئوپلیتیک مشهور است...