تیم کیوئن در علیبابا از Qwen QwQ-32B رونمایی کرده است، مدلی هوش مصنوعی با ۳۲ میلیارد پارامتر که عملکردی رقابتی با DeepSeek-R1 بسیار بزرگتر را به نمایش میگذارد. این دستاورد، پتانسیل مقیاسپذیری یادگیری تقویتی (RL) بر روی مدلهای پایه قوی را برجسته میکند.
تیم کیوئن با موفقیت قابلیتهای عاملی را در مدل استدلالی ادغام کرده و این امکان را فراهم آورده که مدل بهطور انتقادی فکر کند، از ابزارها استفاده کند و استدلال خود را بر اساس بازخورد محیطی تطبیق دهد.
تیم اظهار داشت: «مقیاسپذیری یادگیری تقویتی پتانسیل بهبود عملکرد مدل را فراتر از روشهای متداول پیشآموزش و پسآموزش دارد. مطالعات اخیر نشان دادهاند که یادگیری تقویتی میتواند قابلیتهای استدلالی مدلها را بهطور قابلتوجهی ارتقا دهد.»
Qwen QwQ-32B عملکردی مشابه DeepSeek-R1 با ۶۷۱ میلیارد پارامتر (که ۳۷ میلیارد آن فعال است) ارائه میدهد، که گواهی بر اثربخشی یادگیری تقویتی هنگامی است که بر مدلهای پایه قوی که با دانش گسترده جهانی پیشآموزش دیدهاند، اعمال شود. این نتیجه قابلتوجه، توانایی یادگیری تقویتی را برای پر کردن شکاف بین اندازه مدل و عملکرد نشان میدهد.
این مدل در مجموعهای از معیارها از جمله AIME24، LiveCodeBench، LiveBench، IFEval و BFCL ارزیابی شده است که برای سنجش استدلال ریاضی، مهارت کدنویسی و تواناییهای حل مسئله عمومی طراحی شدهاند.
نتایج، عملکرد Qwen QwQ-32B را در مقایسه با دیگر مدلهای پیشرو، از جمله DeepSeek-R1-Distilled-Qwen-32B، DeepSeek-R1-Distilled-Llama-70B، o1-mini و DeepSeek-R1 اصلی نشان میدهد.
نتایج معیارها:
- AIME24: Qwen QwQ-32B امتیاز ۷۹.۵ را کسب کرد، اندکی کمتر از ۷۹.۸ DeepSeek-R1-6718، اما بهطور قابلتوجهی بالاتر از ۶۳.۶ OpenAI-o1-mini و مدلهای تقطیرشده.
- LiveCodeBench: Qwen QwQ-32B امتیاز ۶۳.۴ را به دست آورد، که نزدیک به ۶۵.۹ DeepSeek-R1-6718 بود و از مدلهای تقطیرشده و ۵۳.۸ OpenAI-o1-mini پیشی گرفت.
- LiveBench: Qwen QwQ-32B امتیاز ۷۳.۱ را کسب کرد، در حالی که DeepSeek-R1-6718 به ۷۱.۶ رسید و از مدلهای تقطیرشده و ۵۷.۵ OpenAI-o1-mini بهتر عمل کرد.
- IFEval: Qwen QwQ-32B امتیاز ۸۳.۹ را به دست آورد، بسیار نزدیک به ۸۳.۳ DeepSeek-R1-6718، و از مدلهای تقطیرشده و ۵۹.۱ OpenAI-o1-mini پیشی گرفت.
- BFCL: Qwen QwQ-32B امتیاز ۶۶.۴ را کسب کرد، در حالی که DeepSeek-R1-6718 به ۶۲.۸ رسید و از مدلهای تقطیرشده و ۴۹.۳ OpenAI-o1-mini عملکرد بهتری داشت.
رویکرد تیم کیوئن شامل یک نقطه شروع سرد و فرآیند یادگیری تقویتی چندمرحلهای مبتنی بر پاداشهای نتیجهمحور بود. مرحله اول بر مقیاسپذیری یادگیری تقویتی برای وظایف ریاضی و کدنویسی متمرکز بود و از تأییدکنندههای دقت و سرورهای اجرای کد استفاده کرد. مرحله دوم به قابلیتهای عمومی گسترش یافت و پاداشهایی از مدلهای پاداش عمومی و تأییدکنندههای مبتنی بر قوانین را در بر گرفت.
تیم توضیح داد: «ما دریافتیم که این مرحله از آموزش یادگیری تقویتی با تعداد کمی گام میتواند عملکرد سایر قابلیتهای عمومی مانند پیروی از دستورالعملها، همراستایی با ترجیحات انسانی و عملکرد عامل را افزایش دهد، بدون افت قابلتوجه در ریاضیات و کدنویسی.»
Qwen QwQ-32B با وزن باز و تحت مجوز آپاچی ۲.۰ در Hugging Face و ModelScope در دسترس است و همچنین از طریق Qwen Chat قابل دسترسی است. تیم کیوئن این را گامی اولیه در مقیاسپذیری یادگیری تقویتی برای تقویت قابلیتهای استدلالی میداند و قصد دارد ادغام عوامل با یادگیری تقویتی را برای استدلال بلندمدت بیشتر کاوش کند.
تیم اظهار داشت: «در حالی که به سمت توسعه نسل بعدی کیوئن پیش میرویم، اطمینان داریم که ترکیب مدلهای پایه قویتر با یادگیری تقویتی پشتیبانیشده توسط منابع محاسباتی مقیاسپذیر، ما را به دستیابی به هوش مصنوعی عمومی (AGI) نزدیکتر خواهد کرد.»
منبع: اخبار هوش مصنوعی