خبر
گوگل، کلود سازمانی خود را به یک مدل هوش مصنوعی تولید موسیقی مجهز می‌کند
زمان مطالعه: 3 دقیقه
گوگل، کلود سازمانی خود را به یک مدل هوش مصنوعی تولید موسیقی مجهز می‌کند
گوگل، کلود سازمانی خود را به یک مدل هوش مصنوعی تولید موسیقی مجهز می‌کند
خبر
گوگل، کلود سازمانی خود را به یک مدل هوش مصنوعی تولید موسیقی مجهز می‌کند
زمان مطالعه: 3 دقیقه

چهارشنبه، گوگل به‌روزرسانی‌هایی را برای چندین مدل هوش مصنوعی تولید رسانه اول شخص خود که از طریق پلتفرم ابری Vertex AI آن در دسترس هستند، منتشر کرد.

Lyria، مدل تبدیل متن به موسیقی گوگل، اکنون در نسخه پیش‌نمایش برای مشتریان منتخب در دسترس است، و مدل تولید ویدیوی Veo 2 این شرکت با گزینه‌های سفارشی‌سازی ویرایش و جلوه‌های بصری جدید بهبود یافته است. این شرکت همچنین یک ویژگی شبیه‌سازی صدا را که توسط Chirp 3، مدل درک صوتی گوگل، پشتیبانی می‌شود، برای کاربران “لیست سفید شده” راه‌اندازی کرده است. و Imagen 3، تولیدکننده تصویر، اکنون عملکردی را ارائه می‌دهد که این شرکت آن را “به طور قابل توجهی” بهتر توصیف می‌کند.

این به‌روزرسانی‌ها که همزمان با Cloud Next انجام شده‌اند، آخرین تلاش گوگل برای تسلط بر بازار سازمانی هوش مصنوعی مولد هستند. این شرکت شاید مستقیماً با آمازون رقابت کند، که یک پلتفرم ابری هوش مصنوعی قابل مقایسه به نام Bedrock با مجموعه مدل‌های هوش مصنوعی مولد اختصاصی خود ارائه می‌دهد.

گوگل Lyria را به عنوان جایگزینی برای کتابخانه‌های موسیقی بدون حق امتیاز معرفی می‌کند. این شرکت گفت که مشتریان با استفاده از این مدل می‌توانند آهنگ‌هایی در طیف وسیعی از سبک‌ها و ژانرها، از تک‌نوازی‌های پیانوی جازی گرفته تا قطعات لوفای، ایجاد کنند.

در همین حال، Chirp 3 می‌تواند گفتار را در حدود ۳۵ زبان سنتز کند. Chirp 3 که اولین بار در اوایل سال جاری پیش‌نمایش شد، Instant Custom Voice را هدایت می‌کند، که ظاهراً می‌تواند صدا را با ۱۰ ثانیه صدا شبیه‌سازی کند. اکنون به طور کلی در دسترس است. این مدل همچنین زیربنای ابزار جدیدی است که در نسخه پیش‌نمایش راه‌اندازی می‌شود، به نام Transcription with Diarization، که گویندگان را در ضبط‌های دارای چندین شرکت‌کننده جدا و شناسایی می‌کند.

گوگل می‌گوید برای جلوگیری از سوء استفاده، Instant Custom Voice مشمول یک فرآیند “دقت و بررسی” برای تأیید “مجوزهای استفاده صحیح از صدا” است.

Veo 2 اکنون می‌تواند تصاویر پس‌زمینه، لوگوها و اشیاء را از ویدیوهای موجود حذف کند و قاب فیلم را گسترش دهد (به عنوان مثال، برای تبدیل ویدیوی منظره به پرتره). همچنین اکنون می‌تواند زوایای دوربین و سرعت را در صحنه‌های تولید شده توسط هوش مصنوعی تنظیم کند تا تایم‌لپس‌ها، کلیپ‌های سبک پهپاد و موارد دیگر ایجاد کند، و می‌تواند بین فریم‌های شروع و پایان مشخص‌شده درون‌یابی کند.

این ویژگی‌های Veo در حال حاضر در نسخه پیش‌نمایش در دسترس هستند.

در مورد ارتقاءهای ذکر شده Imagen 3، گوگل گفت که آن‌ها توانایی مدل را در حذف اشیاء و بازسازی بخش‌های از دست رفته یا آسیب دیده تصاویر بهبود می‌بخشند.

تمام رسانه‌های تولید شده توسط Imagen، Veo و Lyria (اما نه Chirp) با استفاده از فناوری SynthID گوگل واترمارک می‌شوند. این شرکت گفت که تمام مدل‌های هوش مصنوعی مولد آن دارای “محافظت‌های داخلی” برای محافظت در برابر ایجاد محتوای مضر هستند.

گوگل از نظر تاریخی مشخص نکرده است که از چه داده‌های خاصی برای آموزش مدل‌های خود استفاده می‌کند و این غول فناوری امروز به این رویه پایبند بود. داده‌های آموزشی به دلایل مربوط به مالکیت معنوی، موضوعی بحث‌برانگیز هستند. برخی از شرکت‌ها مدل‌های خود را بر روی آثار دارای حق چاپ بدون کسب اجازه قبلی از صاحبان حقوق آموزش می‌دهند. در حالی که این شرکت‌ها ادعا می‌کنند که دکترین استفاده منصفانه ایالات متحده از این عمل محافظت می‌کند، برخی از سازندگان به طور قابل درک مخالف هستند. بسیاری در دادگاه با فروشندگان در حال مبارزه هستند.

گوگل قبلاً به TechCrunch گفته است که مکانیسم‌های انصراف برای آموزش مدل و همچنین یک سیاست جبران خسارت برای محافظت از مشتریان Google Cloud و Vertex AI در برابر اختلافات مربوط به حق چاپ مرتبط با هوش مصنوعی ارائه می‌دهد.

منبع: تک‌کرانچ

اشتراک گذاری:

آخرین مقالات پیشنهادی

دیدگاه‌ها

اشتراک در
اطلاع از
guest
0 Comments
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
دیتانید تو مراحل مختلف تحلیل داده می‌تونه به شما کمک کنه:
  1. امکان‌سنجی خواسته‌ها و تطبیق نیازمندی‌ها
  2. استخراج و تمیز کردن دادگان
  3. طراحی مدل‌های مناسب
  4. آموزش مدل براساس داده‌های به‌دست آمده
  5. استقرار مدل

آخرین اخبار

اخبار مشابه

نینا شیک(نویسنده): تأثیر هوش مصنوعی مولد بر تجارت، سیاست و جامعه
نینا شیک، سخنران و کارشناس برجسته در زمینه هوش مصنوعی مولد است که به دلیل کار پیشگامانه‌اش در تقاطع فناوری، جامعه و ژئوپلیتیک مشهور است...
OpenAI قصد دارد GPT-4.5، بزرگترین مدل هوش مصنوعی خود تا کنون را به تدریج از API خود حذف کند
OpenAI روز دوشنبه اعلام کرد که به زودی دسترسی به GPT-4.5، بزرگترین مدل هوش مصنوعی خود تا کنون، را از طریق API خود متوقف خواهد کرد. GPT-4.5 تنها در ...