چهارشنبه، گوگل بهروزرسانیهایی را برای چندین مدل هوش مصنوعی تولید رسانه اول شخص خود که از طریق پلتفرم ابری Vertex AI آن در دسترس هستند، منتشر کرد.
Lyria، مدل تبدیل متن به موسیقی گوگل، اکنون در نسخه پیشنمایش برای مشتریان منتخب در دسترس است، و مدل تولید ویدیوی Veo 2 این شرکت با گزینههای سفارشیسازی ویرایش و جلوههای بصری جدید بهبود یافته است. این شرکت همچنین یک ویژگی شبیهسازی صدا را که توسط Chirp 3، مدل درک صوتی گوگل، پشتیبانی میشود، برای کاربران “لیست سفید شده” راهاندازی کرده است. و Imagen 3، تولیدکننده تصویر، اکنون عملکردی را ارائه میدهد که این شرکت آن را “به طور قابل توجهی” بهتر توصیف میکند.
این بهروزرسانیها که همزمان با Cloud Next انجام شدهاند، آخرین تلاش گوگل برای تسلط بر بازار سازمانی هوش مصنوعی مولد هستند. این شرکت شاید مستقیماً با آمازون رقابت کند، که یک پلتفرم ابری هوش مصنوعی قابل مقایسه به نام Bedrock با مجموعه مدلهای هوش مصنوعی مولد اختصاصی خود ارائه میدهد.
گوگل Lyria را به عنوان جایگزینی برای کتابخانههای موسیقی بدون حق امتیاز معرفی میکند. این شرکت گفت که مشتریان با استفاده از این مدل میتوانند آهنگهایی در طیف وسیعی از سبکها و ژانرها، از تکنوازیهای پیانوی جازی گرفته تا قطعات لوفای، ایجاد کنند.
در همین حال، Chirp 3 میتواند گفتار را در حدود ۳۵ زبان سنتز کند. Chirp 3 که اولین بار در اوایل سال جاری پیشنمایش شد، Instant Custom Voice را هدایت میکند، که ظاهراً میتواند صدا را با ۱۰ ثانیه صدا شبیهسازی کند. اکنون به طور کلی در دسترس است. این مدل همچنین زیربنای ابزار جدیدی است که در نسخه پیشنمایش راهاندازی میشود، به نام Transcription with Diarization، که گویندگان را در ضبطهای دارای چندین شرکتکننده جدا و شناسایی میکند.
گوگل میگوید برای جلوگیری از سوء استفاده، Instant Custom Voice مشمول یک فرآیند “دقت و بررسی” برای تأیید “مجوزهای استفاده صحیح از صدا” است.
Veo 2 اکنون میتواند تصاویر پسزمینه، لوگوها و اشیاء را از ویدیوهای موجود حذف کند و قاب فیلم را گسترش دهد (به عنوان مثال، برای تبدیل ویدیوی منظره به پرتره). همچنین اکنون میتواند زوایای دوربین و سرعت را در صحنههای تولید شده توسط هوش مصنوعی تنظیم کند تا تایملپسها، کلیپهای سبک پهپاد و موارد دیگر ایجاد کند، و میتواند بین فریمهای شروع و پایان مشخصشده درونیابی کند.
این ویژگیهای Veo در حال حاضر در نسخه پیشنمایش در دسترس هستند.
در مورد ارتقاءهای ذکر شده Imagen 3، گوگل گفت که آنها توانایی مدل را در حذف اشیاء و بازسازی بخشهای از دست رفته یا آسیب دیده تصاویر بهبود میبخشند.
تمام رسانههای تولید شده توسط Imagen، Veo و Lyria (اما نه Chirp) با استفاده از فناوری SynthID گوگل واترمارک میشوند. این شرکت گفت که تمام مدلهای هوش مصنوعی مولد آن دارای “محافظتهای داخلی” برای محافظت در برابر ایجاد محتوای مضر هستند.
گوگل از نظر تاریخی مشخص نکرده است که از چه دادههای خاصی برای آموزش مدلهای خود استفاده میکند و این غول فناوری امروز به این رویه پایبند بود. دادههای آموزشی به دلایل مربوط به مالکیت معنوی، موضوعی بحثبرانگیز هستند. برخی از شرکتها مدلهای خود را بر روی آثار دارای حق چاپ بدون کسب اجازه قبلی از صاحبان حقوق آموزش میدهند. در حالی که این شرکتها ادعا میکنند که دکترین استفاده منصفانه ایالات متحده از این عمل محافظت میکند، برخی از سازندگان به طور قابل درک مخالف هستند. بسیاری در دادگاه با فروشندگان در حال مبارزه هستند.
گوگل قبلاً به TechCrunch گفته است که مکانیسمهای انصراف برای آموزش مدل و همچنین یک سیاست جبران خسارت برای محافظت از مشتریان Google Cloud و Vertex AI در برابر اختلافات مربوط به حق چاپ مرتبط با هوش مصنوعی ارائه میدهد.
منبع: تککرانچ