در جریان یک پخش زنده روز سهشنبه، سام آلتمن، مدیرعامل OpenAI، اولین ارتقاء عمده قابلیتهای تولید تصویر ChatGPT را در بیش از یک سال گذشته اعلام کرد.
ChatGPT اکنون میتواند از مدل GPT-4o این شرکت برای ایجاد و ویرایش بومی تصاویر و عکسها استفاده کند. GPT-4o مدتهاست که زیربنای پلتفرم چتبات مبتنی بر هوش مصنوعی را تشکیل میدهد، اما تا کنون، این مدل فقط قادر به تولید و ویرایش متن بود، نه تصاویر.
آلتمن گفت که تولید تصویر بومی GPT-4o امروز در ChatGPT و Sora، محصول تولید ویدئوی هوش مصنوعی OpenAI، برای مشترکین طرح Pro با هزینه ۲۰۰ دلار در ماه، فعال شده است. OpenAI میگوید این ویژگی به زودی برای کاربران Plus و رایگان ChatGPT و همچنین توسعهدهندگانی که از سرویس API این شرکت استفاده میکنند، عرضه خواهد شد.
GPT-4o با خروجی تصویر، به گفته OpenAI، کمی بیشتر از مدل تولید تصویر قبلی خود، DALL-E 3، “فکر میکند” تا تصاویر دقیقتر و با جزئیات بیشتری تولید کند. GPT-4o میتواند تصاویر موجود، از جمله تصاویر حاوی افراد را ویرایش کند، آنها را تغییر دهد یا جزئیاتی مانند اشیاء پیشزمینه و پسزمینه را “نقاشی درون تصویر” کند.
OpenAI به وال استریت ژورنال گفت که برای تقویت ویژگی جدید تصویر، GPT-4o را بر روی “دادههای در دسترس عموم” و همچنین دادههای اختصاصی حاصل از مشارکتهایش با شرکتهایی مانند Shutterstock آموزش داده است.
بسیاری از فروشندگان هوش مصنوعی مولد، دادههای آموزشی را یک مزیت رقابتی میدانند، بنابراین آن را و هر اطلاعات مربوط به آن را محرمانه نگه میدارند. اما جزئیات دادههای آموزشی همچنین یک منبع بالقوه برای دعاوی مربوط به مالکیت معنوی است، که یک عامل بازدارنده دیگر برای شرکتها برای افشای اطلاعات زیاد است.
برد لایتکپ، مدیر ارشد عملیاتی OpenAI، در بیانیهای به ژورنال گفت: “ما به حقوق هنرمندان از نظر نحوه خروجی احترام میگذاریم و سیاستهایی داریم که از تولید تصاویری که مستقیماً از آثار هنرمندان زنده تقلید میکنند، جلوگیری میکند.”
OpenAI یک فرم انصراف ارائه میدهد که به سازندگان اجازه میدهد درخواست کنند آثارشان از مجموعهدادههای آموزشی آن حذف شود. این شرکت همچنین میگوید که به درخواستها برای جلوگیری از جمعآوری دادههای آموزشی، از جمله تصاویر، از وبسایتها توسط رباتهای وبکاوی خود احترام میگذارد.
ویژگی ارتقاء یافته تولید تصویر ChatGPT، به دنبال خروجی تصویر بومی آزمایشی گوگل برای Gemini 2.0 Flash، یکی از مدلهای اصلی این شرکت، ارائه میشود. این ویژگی قدرتمند در رسانههای اجتماعی به سرعت پخش شد، اما لزوماً به دلایل مثبت. مشخص شد که بخش تصویر Gemini 2.0 Flash محافظهای کمی دارد و به افراد اجازه میدهد واترمارکها را حذف کنند و تصاویری از شخصیتهای دارای حق چاپ ایجاد کنند.
منبع: تککرانچ