Midjourney اعلام کرده است که نسخه آلفای مدل تولید تصویر V7 خود را برای آزمایش توسط جامعه هوش مصنوعی منتشر کرده است. مدل جدید پیشرفتهایی در درک دستورات متنی، کیفیت تصویر و انسجام ویژگیها به همراه دارد.
Midjourney توضیح داد: «V7 یک مدل شگفتانگیز است. در درک دستورات متنی بسیار هوشمندتر است، دستورات تصویری فوقالعاده به نظر میرسند، کیفیت تصویر به طور محسوسی بالاتر با بافتهای زیبا است، و بدنها، دستها و اشیاء از هر نوع، انسجام بسیار بهتری در تمام جزئیات دارند.»
یک نوآوری کلیدی در V7 فعالسازی پیشفرض شخصیسازی مدل است. کاربران باید در ابتدا این ویژگی را فعال کنند، فرآیندی که تقریباً پنج دقیقه طول میکشد. این شخصیسازی را میتوان در هر زمان روشن یا خاموش کرد و هدف آن بهبود چشمگیر توانایی هوش مصنوعی در تفسیر خواستهها و ترجیحات زیباییشناختی کاربر است. Midjourney معتقد است که این ویژگی استاندارد جدیدی برای درک قصد کاربر تعیین میکند.
Midjourney همچنین در کنار مدل تولید تصویر V7، ویژگیای به نام «حالت پیشنویس» را معرفی میکند که وعده تولید تصاویر ده برابر سریعتر و با نصف هزینه را میدهد.
این افزایش سرعت Midjourney را قادر ساخته است تا یک “حالت مکالمهای” منحصر به فرد را در رابط وب خود پیادهسازی کند. کاربران اکنون میتوانند به سیستم دستور دهند تغییراتی ایجاد کند، مانند جایگزینی یک گربه با یک جغد یا تغییر زمان روز به شب، و هوش مصنوعی به طور خودکار دستور را تنظیم کرده و یک وظیفه تولید تصویر جدید را آغاز میکند.
حالت پیشنویس همچنین قابلیت ورودی صوتی را در خود جای داده است. با فشار دادن دکمه میکروفون، کاربران میتوانند ایدههای خود را به صورت شفاهی بیان کرده و تصاویر را در حالی که تقریباً در زمان واقعی تولید میشوند، مشاهده کنند:

Midjourney معتقد است که حالت پیشنویس روشی بیسابقه برای اصلاح مفاهیم خلاقانه ارائه میدهد. اگر یک تصویر تولید شده جذاب باشد، کاربران میتوانند گزینههای “بهبود” یا “تنوع” را برای رندر مجدد آن با کیفیت کامل انتخاب کنند. در حالی که تصاویر پیشنویس در مقایسه با حالت استاندارد کیفیت پایینتری دارند، رفتار و ویژگیهای زیباییشناختی آنها ثابت باقی میماند.
مدل تولید تصویر V7 از Midjourney در ابتدا در دو حالت سرعت در دسترس خواهد بود: توربو و آرام. حالت سرعت استاندارد در حال حاضر تحت بهینهسازی بیشتر قرار دارد و انتظار میرود به زودی منتشر شود. Midjourney تصریح کرده است که کارهای توربو دو برابر هزینه یک کار استاندارد را خواهند داشت، در حالی که کارهای پیشنویس نصف هزینه را خواهند داشت.
این شرکت همچنین بهروزرسانیهایی در مورد سایر قابلیتها ارائه کرده است. ویژگیهایی مانند افزایش وضوح، ویرایش و تغییر بافت در ابتدا به استفاده از مدل V6 باز میگردند و برای آینده بهروزرسانیهایی برنامهریزی شده است. قابلیتهای مربوط به mood board و SREF در حال حاضر فعال هستند و انتظار میرود عملکرد آنها با بهروزرسانیهای بعدی بهبود یابد.
با نگاهی به آینده نزدیک، Midjourney یک برنامه توسعه فعال را ترسیم کرده است. کاربران میتوانند در ۶۰ روز آینده هر یک تا دو هفته منتظر ویژگیهای جدید باشند. یک ویژگی مهم آینده، قابلیت جدید V7 برای ارجاع به کاراکتر و اشیاء خواهد بود.
در نهایت، Midjourney به کاربران توصیه کرده است که V7 یک مدل کاملاً جدید با نقاط قوت و ضعف منحصر به فرد خود است. آنها کاربران را به آزمایش و ارائه بازخورد در مورد قابلیتهای آن تشویق میکنند و یادآوری میکنند که ممکن است در مقایسه با نسخههای قبلی به تکنیکهای مختلف prompt نیاز داشته باشد.
منبع: اخبار هوش مصنوعی