آموزشی، داستان
ابزار هوش مصنوعی تصاویری با کیفیت بالا سریع‌تر از رویکردهای پیشرفته تولید می‌کند
زمان مطالعه: 6 دقیقه
ابزار هوش مصنوعی تصاویری با کیفیت بالا سریع‌تر از رویکردهای پیشرفته تولید می‌کند
ابزار هوش مصنوعی تصاویری با کیفیت بالا سریع‌تر از رویکردهای پیشرفته تولید می‌کند
آموزشی، داستان
ابزار هوش مصنوعی تصاویری با کیفیت بالا سریع‌تر از رویکردهای پیشرفته تولید می‌کند
زمان مطالعه: 6 دقیقه

توانایی تولید سریع تصاویر با کیفیت بالا برای تولید محیط‌های شبیه‌سازی شده واقع‌گرایانه که می‌توان از آن‌ها برای آموزش خودروهای خودران برای اجتناب از خطرات غیرقابل پیش‌بینی استفاده کرد، بسیار مهم است و آن‌ها را در خیابان‌های واقعی ایمن‌تر می‌کند.

اما تکنیک‌های هوش مصنوعی مولد که به طور فزاینده‌ای برای تولید چنین تصاویری استفاده می‌شوند، دارای معایبی هستند. یک نوع محبوب از مدل‌ها، به نام مدل انتشار، می‌تواند تصاویر فوق‌العاده واقع‌گرایانه‌ای ایجاد کند، اما برای بسیاری از کاربردها بسیار کند و از نظر محاسباتی سنگین است. از طرف دیگر، مدل‌های خودرگرسیو که قدرت LLMهایی مانند ChatGPT را تامین می‌کنند، بسیار سریع‌تر هستند، اما تصاویری با کیفیت پایین‌تر تولید می‌کنند که اغلب پر از خطا هستند.

محققان MIT و NVIDIA رویکرد جدیدی را توسعه داده‌اند که بهترین‌های هر دو روش را گرد هم می‌آورد. ابزار تولید تصویر ترکیبی آن‌ها از یک مدل خودرگرسیو برای گرفتن سریع تصویر کلی و سپس یک مدل انتشار کوچک برای بهبود جزئیات تصویر استفاده می‌کند.

ابزار آن‌ها، معروف به HART (مخفف Hybrid Autoregressive Transformer)، می‌تواند تصاویری تولید کند که با کیفیت مدل‌های انتشار پیشرفته مطابقت داشته یا از آن فراتر رود، اما این کار را حدود نه برابر سریع‌تر انجام می‌دهد.

فرآیند تولید منابع محاسباتی کمتری نسبت به مدل‌های انتشار معمولی مصرف می‌کند و HART را قادر می‌سازد تا به صورت محلی روی یک لپ‌تاپ یا تلفن هوشمند تجاری اجرا شود. کاربر فقط باید یک دستور زبان طبیعی را در رابط HART وارد کند تا یک تصویر تولید شود.

HART می‌تواند طیف گسترده‌ای از کاربردها را داشته باشد، مانند کمک به محققان در آموزش ربات‌ها برای انجام وظایف پیچیده دنیای واقعی و کمک به طراحان در تولید صحنه‌های چشمگیر برای بازی‌های ویدیویی.

هائوتیان تانگ، دانشجوی کارشناسی ارشد سال ۲۰۲۲ و دکترای سال ۲۰۲۵، نویسنده اصلی مقاله جدیدی در مورد HART، می‌گوید: “اگر شما در حال نقاشی یک منظره هستید و فقط یک بار کل بوم را رنگ می‌کنید، ممکن است خیلی خوب به نظر نرسد. اما اگر تصویر کلی را بکشید و سپس تصویر را با ضربات قلم‌موی کوچکتر اصلاح کنید، نقاشی شما می‌تواند بسیار بهتر به نظر برسد. این ایده اصلی HART است.”

یچنگ وو، دانشجوی مقطع کارشناسی دانشگاه تسینگهوا، نویسنده اصلی دیگر این مقاله است. سونگ هان، استاد دانشیار گروه مهندسی برق و علوم کامپیوتر (EECS) در MIT، عضو آزمایشگاه هوش مصنوعی MIT-IBM واتسون و دانشمند برجسته NVIDIA، نویسنده ارشد این مقاله است. افراد دیگری از MIT، دانشگاه تسینگهوا و NVIDIA نیز در این تحقیق مشارکت داشته‌اند. این تحقیق در کنفرانس بین‌المللی یادگیری بازنمایی‌ها ارائه خواهد شد.

بهترین‌های هر دو دنیا

مدل‌های انتشار محبوب، مانند Stable Diffusion و DALL-E، به تولید تصاویر بسیار دقیق معروف هستند. این مدل‌ها تصاویر را از طریق یک فرآیند تکراری تولید می‌کنند که در آن مقداری نویز تصادفی را روی هر پیکسل پیش‌بینی می‌کنند، نویز را کم می‌کنند و سپس فرآیند پیش‌بینی و “نویززدایی” را چندین بار تکرار می‌کنند تا یک تصویر جدید کاملاً بدون نویز تولید کنند.

از آنجایی که مدل انتشار در هر مرحله تمام پیکسل‌های یک تصویر را نویززدایی می‌کند، و ممکن است ۳۰ مرحله یا بیشتر وجود داشته باشد، این فرآیند کند و از نظر محاسباتی پرهزینه است. اما از آنجایی که مدل چندین فرصت برای تصحیح جزئیاتی که اشتباه متوجه شده است دارد، تصاویر با کیفیت بالایی دارند.

مدل‌های خودرگرسیو، که معمولاً برای پیش‌بینی متن استفاده می‌شوند، می‌توانند با پیش‌بینی متوالی تکه‌هایی از یک تصویر، چند پیکسل در یک زمان، تصاویر تولید کنند. آن‌ها نمی‌توانند به عقب برگردند و اشتباهات خود را تصحیح کنند، اما فرآیند پیش‌بینی متوالی بسیار سریع‌تر از انتشار است.

این مدل‌ها از بازنمایی‌هایی به نام توکن برای پیش‌بینی استفاده می‌کنند. یک مدل خودرگرسیو از یک خودرمزگذار برای فشرده‌سازی پیکسل‌های خام تصویر به توکن‌های گسسته و همچنین بازسازی تصویر از توکن‌های پیش‌بینی شده استفاده می‌کند. در حالی که این سرعت مدل را افزایش می‌دهد، از دست دادن اطلاعاتی که در طول فشرده‌سازی رخ می‌دهد، هنگام تولید یک تصویر جدید توسط مدل، باعث ایجاد خطا می‌شود.

با HART، محققان یک رویکرد ترکیبی توسعه داده‌اند که از یک مدل خودرگرسیو برای پیش‌بینی توکن‌های تصویر فشرده و گسسته، و سپس یک مدل انتشار کوچک برای پیش‌بینی توکن‌های باقیمانده استفاده می‌کند. توکن‌های باقیمانده با گرفتن جزئیاتی که توسط توکن‌های گسسته حذف شده‌اند، از دست دادن اطلاعات مدل را جبران می‌کنند.

تانگ می‌گوید: “ما می‌توانیم به افزایش عظیمی در کیفیت بازسازی دست یابیم. توکن‌های باقیمانده ما جزئیات فرکانس بالا، مانند لبه‌های یک شیء، یا مو، چشم‌ها یا دهان یک شخص را یاد می‌گیرند. این‌ها مکان‌هایی هستند که توکن‌های گسسته می‌توانند در آن‌ها اشتباه کنند.”

از آنجایی که مدل انتشار فقط جزئیات باقیمانده را پس از انجام کار توسط مدل خودرگرسیو پیش‌بینی می‌کند، می‌تواند این کار را در هشت مرحله انجام دهد، به جای ۳۰ مرحله یا بیشتر که یک مدل انتشار استاندارد برای تولید کل تصویر به آن نیاز دارد. این سربار حداقلی مدل انتشار اضافی به HART اجازه می‌دهد تا مزیت سرعت مدل خودرگرسیو را حفظ کند و در عین حال توانایی آن را در تولید جزئیات پیچیده تصویر به طور قابل توجهی افزایش دهد.

او می‌افزاید: “مدل انتشار کار آسان‌تری برای انجام دارد، که منجر به کارایی بیشتر می‌شود.”

عملکرد بهتر از مدل‌های بزرگتر

در طول توسعه HART، محققان در ادغام مؤثر مدل انتشار برای بهبود مدل خودرگرسیو با چالش‌هایی روبرو شدند. آن‌ها دریافتند که ادغام مدل انتشار در مراحل اولیه فرآیند خودرگرسیو منجر به تجمع خطاها می‌شود. در عوض، طراحی نهایی آن‌ها برای اعمال مدل انتشار فقط برای پیش‌بینی توکن‌های باقیمانده به عنوان آخرین مرحله، کیفیت تولید را به طور قابل توجهی بهبود بخشید.

روش آن‌ها، که از ترکیبی از یک مدل ترانسفورمر خودرگرسیو با ۷۰۰ میلیون پارامتر و یک مدل انتشار سبک با ۳۷ میلیون پارامتر استفاده می‌کند، می‌تواند تصاویری با همان کیفیت تصاویر تولید شده توسط یک مدل انتشار با ۲ میلیارد پارامتر تولید کند، اما این کار را حدود نه برابر سریع‌تر انجام می‌دهد. این روش حدود ۳۱ درصد محاسبات کمتری نسبت به مدل‌های پیشرفته استفاده می‌کند.

علاوه بر این، از آنجایی که HART برای انجام بخش عمده کار از یک مدل خودرگرسیو استفاده می‌کند – همان نوع مدلی که قدرت LLMها را تامین می‌کند – برای ادغام با کلاس جدید مدل‌های مولد یکپارچه دید-زبانی سازگارتر است. در آینده، می‌توان با یک مدل مولد یکپارچه دید-زبانی تعامل داشت، شاید با درخواست نشان دادن مراحل میانی مورد نیاز برای مونتاژ یک قطعه مبلمان.

او می‌گوید: “LLMها رابط خوبی برای انواع مدل‌ها، مانند مدل‌های چندوجهی و مدل‌هایی که می‌توانند استدلال کنند، هستند. این راهی برای پیش بردن هوش به مرزهای جدید است. یک مدل تولید تصویر کارآمد بسیاری از امکانات را باز خواهد کرد.”

در آینده، محققان می‌خواهند این مسیر را دنبال کرده و مدل‌های دید-زبانی را بر اساس معماری HART بسازند. از آنجایی که HART مقیاس‌پذیر و قابل تعمیم به چندین وجه است، آن‌ها همچنین می‌خواهند آن را برای تولید ویدیو و وظایف پیش‌بینی صدا اعمال کنند.

این تحقیق تا حدی توسط آزمایشگاه هوش مصنوعی MIT-IBM واتسون، مرکز علوم MIT و آمازون، برنامه سخت‌افزار هوش مصنوعی MIT و بنیاد ملی علوم ایالات متحده تامین شده است. زیرساخت GPU برای آموزش این مدل توسط NVIDIA اهدا شده است.

منبع: اخبار MIT

اشتراک گذاری:

آخرین مقالات پیشنهادی

دیدگاه‌ها

اشتراک در
اطلاع از
guest
0 Comments
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
دیتانید تو مراحل مختلف تحلیل داده می‌تونه به شما کمک کنه:
  1. امکان‌سنجی خواسته‌ها و تطبیق نیازمندی‌ها
  2. استخراج و تمیز کردن دادگان
  3. طراحی مدل‌های مناسب
  4. آموزش مدل براساس داده‌های به‌دست آمده
  5. استقرار مدل

آخرین اخبار

اخبار مشابه

ابزار هوش مصنوعی تصاویری با کیفیت بالا سریع‌تر از رویکردهای پیشرفته تولید می‌کند
توانایی تولید سریع تصاویر با کیفیت بالا برای تولید محیط‌های شبیه‌سازی شده واقع‌گرایانه که می‌توان از آن‌ها برای آموزش خودروهای خودران برای اجتناب ...
Midjourney V7: تولید سریع‌تر تصویر با هوش مصنوعی
Midjourney اعلام کرده است که نسخه آلفای مدل تولید تصویر V7 خود را برای آزمایش توسط جامعه هوش مصنوعی منتشر کرده است. مدل جدید پیشرفت‌هایی در درک ...