استارتآپ هوش مصنوعی چینی DeepSeek مشکلی را حل کرده است که چندین سال محققان هوش مصنوعی را ناامید کرده بود. پیشرفت این شرکت در مدلهای پاداش هوش مصنوعی میتواند به طور چشمگیری نحوه استدلال و پاسخگویی سیستمهای هوش مصنوعی به سؤالات را بهبود بخشد.
DeepSeek با همکاری محققان دانشگاه تسینگهوا، تکنیکی را ایجاد کرده است که در یک مقاله تحقیقاتی با عنوان “مقیاسبندی زمان استنتاج برای مدلسازی پاداش عمومی” شرح داده شده است. این مقاله توضیح میدهد که چگونه یک رویکرد جدید از روشهای موجود بهتر عمل میکند و چگونه این تیم در مقایسه با مدلهای پاداش عمومی قوی “عملکرد رقابتی” به دست آورده است.
این نوآوری بر بهبود نحوه یادگیری سیستمهای هوش مصنوعی از ترجیحات انسانی تمرکز دارد – جنبه مهمی در ایجاد هوش مصنوعی مفیدتر و همسوتر.
مدلهای پاداش هوش مصنوعی چیستند و چرا اهمیت دارند؟
مدلهای پاداش هوش مصنوعی اجزای مهمی در یادگیری تقویتی برای مدلهای زبان بزرگ هستند. آنها سیگنالهای بازخوردی را ارائه میدهند که به هدایت رفتار هوش مصنوعی به سمت نتایج مطلوب کمک میکنند. به زبان سادهتر، مدلهای پاداش مانند معلمان دیجیتالی هستند که به هوش مصنوعی کمک میکنند تا درک کند انسانها از پاسخهای آنها چه میخواهند.
مقاله DeepSeek بیان میکند: “مدلسازی پاداش فرآیندی است که یک LLM را به سمت ترجیحات انسانی هدایت میکند.” مدلسازی پاداش زمانی اهمیت پیدا میکند که سیستمهای هوش مصنوعی پیچیدهتر میشوند و در سناریوهایی فراتر از وظایف ساده پاسخگویی به سؤالات مستقر میشوند.
نوآوری DeepSeek به چالش به دست آوردن سیگنالهای پاداش دقیق برای LLMها در حوزههای مختلف میپردازد. در حالی که مدلهای پاداش فعلی برای سؤالات قابل تأیید یا قوانین مصنوعی به خوبی کار میکنند، در حوزههای عمومی که معیارها متنوعتر و پیچیدهتر هستند، دچار مشکل میشوند.
رویکرد دوگانه: روش DeepSeek چگونه کار میکند
رویکرد DeepSeek دو روش را ترکیب میکند:
- مدلسازی پاداش مولد (GRM): این رویکرد انعطافپذیری در انواع ورودیهای مختلف را امکانپذیر میکند و امکان مقیاسبندی در زمان استنتاج را فراهم میسازد. برخلاف رویکردهای قبلی اسکالر یا نیمهاسکالر، GRM نمایش غنیتری از پاداشها را از طریق زبان ارائه میدهد.
- تنظیم انتقادی خود-اصولی (SPCT): یک روش یادگیری که رفتارهای تولید پاداش مقیاسپذیر را در GRMها از طریق یادگیری تقویتی آنلاین، که اصولی را به طور تطبیقی تولید میکند، پرورش میدهد.
یکی از نویسندگان این مقاله از دانشگاه تسینگهوا و DeepSeek-AI، زیجون لیو، توضیح داد که ترکیب این روشها به “اصول اجازه میدهد بر اساس پرس و جو و پاسخهای ورودی تولید شوند و فرآیند تولید پاداش را به طور تطبیقی همسو کنند.”
این رویکرد به ویژه به دلیل پتانسیل آن برای “مقیاسبندی زمان استنتاج” ارزشمند است – بهبود عملکرد با افزایش منابع محاسباتی در طول استنتاج به جای فقط در طول آموزش.
محققان دریافتند که روشهای آنها میتواند با افزایش نمونهبرداری نتایج بهتری به دست آورد و به مدلها اجازه دهد با محاسبات بیشتر پاداشهای بهتری تولید کنند.
پیامدهای صنعت هوش مصنوعی
نوآوری DeepSeek در زمان مهمی در توسعه هوش مصنوعی رخ میدهد. این مقاله بیان میکند که “یادگیری تقویتی (RL) به طور گسترده در پسآموزش برای مدلهای زبان بزرگ […] در مقیاس بزرگ پذیرفته شده است” که منجر به “بهبودهای چشمگیر در همسویی با ارزشهای انسانی، استدلال بلندمدت و انطباق با محیط برای LLMها شده است.”
رویکرد جدید به مدلسازی پاداش میتواند پیامدهای متعددی داشته باشد:
- بازخورد دقیقتر هوش مصنوعی: با ایجاد مدلهای پاداش بهتر، سیستمهای هوش مصنوعی میتوانند بازخورد دقیقتری در مورد خروجیهای خود دریافت کنند و منجر به بهبود پاسخها در طول زمان شوند.
- افزایش قابلیت انطباق: توانایی مقیاسبندی عملکرد مدل در طول استنتاج به این معنی است که سیستمهای هوش مصنوعی میتوانند با محدودیتها و الزامات محاسباتی مختلف سازگار شوند.
- کاربرد گستردهتر: با بهبود مدلسازی پاداش برای حوزههای عمومی، سیستمها میتوانند در طیف وسیعتری از وظایف عملکرد بهتری داشته باشند.
- استفاده کارآمدتر از منابع: این تحقیق نشان میدهد که مقیاسبندی زمان استنتاج با روش DeepSeek میتواند از مقیاسبندی اندازه مدل در زمان آموزش بهتر عمل کند و به طور بالقوه به مدلهای کوچکتر اجازه میدهد با منابع زمان استنتاج مناسب، عملکردی مشابه مدلهای بزرگتر داشته باشند.
نفوذ رو به رشد DeepSeek
آخرین تحول به جایگاه رو به رشد DeepSeek در هوش مصنوعی جهانی میافزاید. این شرکت که در سال ۲۰۲۳ توسط کارآفرین لیانگ ونفنگ تأسیس شد و در هانگژو مستقر است، با مدلهای پایه V3 و استدلال R1 خود موجی به راه انداخته است.
این شرکت اخیراً مدل V3 خود (DeepSeek-V3-0324) را ارتقا داده است، که به گفته این شرکت “قابلیتهای استدلال پیشرفته، توسعه وب فرانتاند بهینه شده و مهارت نوشتاری چینی ارتقا یافته” را ارائه میدهد. DeepSeek به هوش مصنوعی متنباز متعهد بوده و در ماه فوریه پنج مخزن کد را منتشر کرده است که به توسعهدهندگان امکان بررسی و مشارکت در توسعه را میدهد.
در حالی که گمانهزنیها در مورد انتشار احتمالی DeepSeek-R2 (جانشین R1) ادامه دارد – رویترز در مورد تاریخهای انتشار احتمالی گمانهزنی کرده است – DeepSeek در کانالهای رسمی خود اظهار نظری نکرده است.
آینده مدلهای پاداش هوش مصنوعی چیست؟
به گفته محققان، DeepSeek قصد دارد مدلهای GRM را متنباز کند، اگرچه جدول زمانی مشخصی ارائه نشده است. متنباز کردن با امکان آزمایش گستردهتر با مدلهای پاداش، پیشرفت در این زمینه را تسریع خواهد کرد.
از آنجایی که یادگیری تقویتی همچنان نقش مهمی در توسعه هوش مصنوعی ایفا میکند، پیشرفتها در مدلسازی پاداش مانند آنچه در کار DeepSeek و دانشگاه تسینگهوا دیده میشود، احتمالاً بر تواناییها و رفتار سیستمهای هوش مصنوعی تأثیر خواهد گذاشت.
کار بر روی مدلهای پاداش هوش مصنوعی نشان میدهد که نوآوریها در نحوه و زمان یادگیری مدلها میتواند به اندازه افزایش اندازه آنها مهم باشد. DeepSeek با تمرکز بر کیفیت بازخورد و مقیاسپذیری، یکی از چالشهای اساسی در ایجاد هوش مصنوعی را که ترجیحات انسانی را بهتر درک و با آن همسو میکند، برطرف میکند.
منبع: اخبار هوش مصنوعی