توانایی تولید سریع تصاویر با کیفیت بالا برای تولید محیطهای شبیهسازی شده واقعگرایانه که میتوان از آنها برای آموزش خودروهای خودران برای اجتناب از خطرات غیرقابل پیشبینی استفاده کرد، بسیار مهم است و آنها را در خیابانهای واقعی ایمنتر میکند.
اما تکنیکهای هوش مصنوعی مولد که به طور فزایندهای برای تولید چنین تصاویری استفاده میشوند، دارای معایبی هستند. یک نوع محبوب از مدلها، به نام مدل انتشار، میتواند تصاویر فوقالعاده واقعگرایانهای ایجاد کند، اما برای بسیاری از کاربردها بسیار کند و از نظر محاسباتی سنگین است. از طرف دیگر، مدلهای خودرگرسیو که قدرت LLMهایی مانند ChatGPT را تامین میکنند، بسیار سریعتر هستند، اما تصاویری با کیفیت پایینتر تولید میکنند که اغلب پر از خطا هستند.
محققان MIT و NVIDIA رویکرد جدیدی را توسعه دادهاند که بهترینهای هر دو روش را گرد هم میآورد. ابزار تولید تصویر ترکیبی آنها از یک مدل خودرگرسیو برای گرفتن سریع تصویر کلی و سپس یک مدل انتشار کوچک برای بهبود جزئیات تصویر استفاده میکند.
ابزار آنها، معروف به HART (مخفف Hybrid Autoregressive Transformer)، میتواند تصاویری تولید کند که با کیفیت مدلهای انتشار پیشرفته مطابقت داشته یا از آن فراتر رود، اما این کار را حدود نه برابر سریعتر انجام میدهد.
فرآیند تولید منابع محاسباتی کمتری نسبت به مدلهای انتشار معمولی مصرف میکند و HART را قادر میسازد تا به صورت محلی روی یک لپتاپ یا تلفن هوشمند تجاری اجرا شود. کاربر فقط باید یک دستور زبان طبیعی را در رابط HART وارد کند تا یک تصویر تولید شود.
HART میتواند طیف گستردهای از کاربردها را داشته باشد، مانند کمک به محققان در آموزش رباتها برای انجام وظایف پیچیده دنیای واقعی و کمک به طراحان در تولید صحنههای چشمگیر برای بازیهای ویدیویی.
هائوتیان تانگ، دانشجوی کارشناسی ارشد سال ۲۰۲۲ و دکترای سال ۲۰۲۵، نویسنده اصلی مقاله جدیدی در مورد HART، میگوید: “اگر شما در حال نقاشی یک منظره هستید و فقط یک بار کل بوم را رنگ میکنید، ممکن است خیلی خوب به نظر نرسد. اما اگر تصویر کلی را بکشید و سپس تصویر را با ضربات قلمموی کوچکتر اصلاح کنید، نقاشی شما میتواند بسیار بهتر به نظر برسد. این ایده اصلی HART است.”
یچنگ وو، دانشجوی مقطع کارشناسی دانشگاه تسینگهوا، نویسنده اصلی دیگر این مقاله است. سونگ هان، استاد دانشیار گروه مهندسی برق و علوم کامپیوتر (EECS) در MIT، عضو آزمایشگاه هوش مصنوعی MIT-IBM واتسون و دانشمند برجسته NVIDIA، نویسنده ارشد این مقاله است. افراد دیگری از MIT، دانشگاه تسینگهوا و NVIDIA نیز در این تحقیق مشارکت داشتهاند. این تحقیق در کنفرانس بینالمللی یادگیری بازنماییها ارائه خواهد شد.
بهترینهای هر دو دنیا
مدلهای انتشار محبوب، مانند Stable Diffusion و DALL-E، به تولید تصاویر بسیار دقیق معروف هستند. این مدلها تصاویر را از طریق یک فرآیند تکراری تولید میکنند که در آن مقداری نویز تصادفی را روی هر پیکسل پیشبینی میکنند، نویز را کم میکنند و سپس فرآیند پیشبینی و “نویززدایی” را چندین بار تکرار میکنند تا یک تصویر جدید کاملاً بدون نویز تولید کنند.
از آنجایی که مدل انتشار در هر مرحله تمام پیکسلهای یک تصویر را نویززدایی میکند، و ممکن است ۳۰ مرحله یا بیشتر وجود داشته باشد، این فرآیند کند و از نظر محاسباتی پرهزینه است. اما از آنجایی که مدل چندین فرصت برای تصحیح جزئیاتی که اشتباه متوجه شده است دارد، تصاویر با کیفیت بالایی دارند.
مدلهای خودرگرسیو، که معمولاً برای پیشبینی متن استفاده میشوند، میتوانند با پیشبینی متوالی تکههایی از یک تصویر، چند پیکسل در یک زمان، تصاویر تولید کنند. آنها نمیتوانند به عقب برگردند و اشتباهات خود را تصحیح کنند، اما فرآیند پیشبینی متوالی بسیار سریعتر از انتشار است.
این مدلها از بازنماییهایی به نام توکن برای پیشبینی استفاده میکنند. یک مدل خودرگرسیو از یک خودرمزگذار برای فشردهسازی پیکسلهای خام تصویر به توکنهای گسسته و همچنین بازسازی تصویر از توکنهای پیشبینی شده استفاده میکند. در حالی که این سرعت مدل را افزایش میدهد، از دست دادن اطلاعاتی که در طول فشردهسازی رخ میدهد، هنگام تولید یک تصویر جدید توسط مدل، باعث ایجاد خطا میشود.
با HART، محققان یک رویکرد ترکیبی توسعه دادهاند که از یک مدل خودرگرسیو برای پیشبینی توکنهای تصویر فشرده و گسسته، و سپس یک مدل انتشار کوچک برای پیشبینی توکنهای باقیمانده استفاده میکند. توکنهای باقیمانده با گرفتن جزئیاتی که توسط توکنهای گسسته حذف شدهاند، از دست دادن اطلاعات مدل را جبران میکنند.
تانگ میگوید: “ما میتوانیم به افزایش عظیمی در کیفیت بازسازی دست یابیم. توکنهای باقیمانده ما جزئیات فرکانس بالا، مانند لبههای یک شیء، یا مو، چشمها یا دهان یک شخص را یاد میگیرند. اینها مکانهایی هستند که توکنهای گسسته میتوانند در آنها اشتباه کنند.”
از آنجایی که مدل انتشار فقط جزئیات باقیمانده را پس از انجام کار توسط مدل خودرگرسیو پیشبینی میکند، میتواند این کار را در هشت مرحله انجام دهد، به جای ۳۰ مرحله یا بیشتر که یک مدل انتشار استاندارد برای تولید کل تصویر به آن نیاز دارد. این سربار حداقلی مدل انتشار اضافی به HART اجازه میدهد تا مزیت سرعت مدل خودرگرسیو را حفظ کند و در عین حال توانایی آن را در تولید جزئیات پیچیده تصویر به طور قابل توجهی افزایش دهد.
او میافزاید: “مدل انتشار کار آسانتری برای انجام دارد، که منجر به کارایی بیشتر میشود.”
عملکرد بهتر از مدلهای بزرگتر
در طول توسعه HART، محققان در ادغام مؤثر مدل انتشار برای بهبود مدل خودرگرسیو با چالشهایی روبرو شدند. آنها دریافتند که ادغام مدل انتشار در مراحل اولیه فرآیند خودرگرسیو منجر به تجمع خطاها میشود. در عوض، طراحی نهایی آنها برای اعمال مدل انتشار فقط برای پیشبینی توکنهای باقیمانده به عنوان آخرین مرحله، کیفیت تولید را به طور قابل توجهی بهبود بخشید.
روش آنها، که از ترکیبی از یک مدل ترانسفورمر خودرگرسیو با ۷۰۰ میلیون پارامتر و یک مدل انتشار سبک با ۳۷ میلیون پارامتر استفاده میکند، میتواند تصاویری با همان کیفیت تصاویر تولید شده توسط یک مدل انتشار با ۲ میلیارد پارامتر تولید کند، اما این کار را حدود نه برابر سریعتر انجام میدهد. این روش حدود ۳۱ درصد محاسبات کمتری نسبت به مدلهای پیشرفته استفاده میکند.
علاوه بر این، از آنجایی که HART برای انجام بخش عمده کار از یک مدل خودرگرسیو استفاده میکند – همان نوع مدلی که قدرت LLMها را تامین میکند – برای ادغام با کلاس جدید مدلهای مولد یکپارچه دید-زبانی سازگارتر است. در آینده، میتوان با یک مدل مولد یکپارچه دید-زبانی تعامل داشت، شاید با درخواست نشان دادن مراحل میانی مورد نیاز برای مونتاژ یک قطعه مبلمان.
او میگوید: “LLMها رابط خوبی برای انواع مدلها، مانند مدلهای چندوجهی و مدلهایی که میتوانند استدلال کنند، هستند. این راهی برای پیش بردن هوش به مرزهای جدید است. یک مدل تولید تصویر کارآمد بسیاری از امکانات را باز خواهد کرد.”
در آینده، محققان میخواهند این مسیر را دنبال کرده و مدلهای دید-زبانی را بر اساس معماری HART بسازند. از آنجایی که HART مقیاسپذیر و قابل تعمیم به چندین وجه است، آنها همچنین میخواهند آن را برای تولید ویدیو و وظایف پیشبینی صدا اعمال کنند.
این تحقیق تا حدی توسط آزمایشگاه هوش مصنوعی MIT-IBM واتسون، مرکز علوم MIT و آمازون، برنامه سختافزار هوش مصنوعی MIT و بنیاد ملی علوم ایالات متحده تامین شده است. زیرساخت GPU برای آموزش این مدل توسط NVIDIA اهدا شده است.
منبع: اخبار MIT