گوگل، کلود سازمانی خود را به یک مدل هوش مصنوعی تولید موسیقی مجهز می‌کند

خبر

زمان مطالعه: 3 دقیقه

علیرضا رحیمی
22 فروردین 1404
13:33

گوگل، کلود سازمانی خود را به یک مدل هوش مصنوعی تولید موسیقی مجهز می‌کند

خبر

گوگل، کلود سازمانی خود را به یک مدل هوش مصنوعی تولید موسیقی مجهز می‌کند

زمان مطالعه: 3 دقیقه

علیرضا رحیمی
22 فروردین 1404
13:33

چهارشنبه، گوگل به‌روزرسانی‌هایی را برای چندین مدل هوش مصنوعی تولید رسانه اول شخص خود که از طریق پلتفرم ابری Vertex AI آن در دسترس هستند، منتشر کرد.

Lyria، مدل تبدیل متن به موسیقی گوگل، اکنون در نسخه پیش‌نمایش برای مشتریان منتخب در دسترس است، و مدل تولید ویدیوی Veo 2 این شرکت با گزینه‌های سفارشی‌سازی ویرایش و جلوه‌های بصری جدید بهبود یافته است. این شرکت همچنین یک ویژگی شبیه‌سازی صدا را که توسط Chirp 3، مدل درک صوتی گوگل، پشتیبانی می‌شود، برای کاربران “لیست سفید شده” راه‌اندازی کرده است. و Imagen 3، تولیدکننده تصویر، اکنون عملکردی را ارائه می‌دهد که این شرکت آن را “به طور قابل توجهی” بهتر توصیف می‌کند.

این به‌روزرسانی‌ها که همزمان با Cloud Next انجام شده‌اند، آخرین تلاش گوگل برای تسلط بر بازار سازمانی هوش مصنوعی مولد هستند. این شرکت شاید مستقیماً با آمازون رقابت کند، که یک پلتفرم ابری هوش مصنوعی قابل مقایسه به نام Bedrock با مجموعه مدل‌های هوش مصنوعی مولد اختصاصی خود ارائه می‌دهد.

گوگل Lyria را به عنوان جایگزینی برای کتابخانه‌های موسیقی بدون حق امتیاز معرفی می‌کند. این شرکت گفت که مشتریان با استفاده از این مدل می‌توانند آهنگ‌هایی در طیف وسیعی از سبک‌ها و ژانرها، از تک‌نوازی‌های پیانوی جازی گرفته تا قطعات لوفای، ایجاد کنند.

در همین حال، Chirp 3 می‌تواند گفتار را در حدود ۳۵ زبان سنتز کند. Chirp 3 که اولین بار در اوایل سال جاری پیش‌نمایش شد، Instant Custom Voice را هدایت می‌کند، که ظاهراً می‌تواند صدا را با ۱۰ ثانیه صدا شبیه‌سازی کند. اکنون به طور کلی در دسترس است. این مدل همچنین زیربنای ابزار جدیدی است که در نسخه پیش‌نمایش راه‌اندازی می‌شود، به نام Transcription with Diarization، که گویندگان را در ضبط‌های دارای چندین شرکت‌کننده جدا و شناسایی می‌کند.

گوگل می‌گوید برای جلوگیری از سوء استفاده، Instant Custom Voice مشمول یک فرآیند “دقت و بررسی” برای تأیید “مجوزهای استفاده صحیح از صدا” است.

Veo 2 اکنون می‌تواند تصاویر پس‌زمینه، لوگوها و اشیاء را از ویدیوهای موجود حذف کند و قاب فیلم را گسترش دهد (به عنوان مثال، برای تبدیل ویدیوی منظره به پرتره). همچنین اکنون می‌تواند زوایای دوربین و سرعت را در صحنه‌های تولید شده توسط هوش مصنوعی تنظیم کند تا تایم‌لپس‌ها، کلیپ‌های سبک پهپاد و موارد دیگر ایجاد کند، و می‌تواند بین فریم‌های شروع و پایان مشخص‌شده درون‌یابی کند.

این ویژگی‌های Veo در حال حاضر در نسخه پیش‌نمایش در دسترس هستند.

در مورد ارتقاءهای ذکر شده Imagen 3، گوگل گفت که آن‌ها توانایی مدل را در حذف اشیاء و بازسازی بخش‌های از دست رفته یا آسیب دیده تصاویر بهبود می‌بخشند.

تمام رسانه‌های تولید شده توسط Imagen، Veo و Lyria (اما نه Chirp) با استفاده از فناوری SynthID گوگل واترمارک می‌شوند. این شرکت گفت که تمام مدل‌های هوش مصنوعی مولد آن دارای “محافظت‌های داخلی” برای محافظت در برابر ایجاد محتوای مضر هستند.

گوگل از نظر تاریخی مشخص نکرده است که از چه داده‌های خاصی برای آموزش مدل‌های خود استفاده می‌کند و این غول فناوری امروز به این رویه پایبند بود. داده‌های آموزشی به دلایل مربوط به مالکیت معنوی، موضوعی بحث‌برانگیز هستند. برخی از شرکت‌ها مدل‌های خود را بر روی آثار دارای حق چاپ بدون کسب اجازه قبلی از صاحبان حقوق آموزش می‌دهند. در حالی که این شرکت‌ها ادعا می‌کنند که دکترین استفاده منصفانه ایالات متحده از این عمل محافظت می‌کند، برخی از سازندگان به طور قابل درک مخالف هستند. بسیاری در دادگاه با فروشندگان در حال مبارزه هستند.

گوگل قبلاً به TechCrunch گفته است که مکانیسم‌های انصراف برای آموزش مدل و همچنین یک سیاست جبران خسارت برای محافظت از مشتریان Google Cloud و Vertex AI در برابر اختلافات مربوط به حق چاپ مرتبط با هوش مصنوعی ارائه می‌دهد.

منبع: تک‌کرانچ

اخبار مدل‌ها، تبدیل متن به موسیقی، تولید ویدیو با هوش مصنوعی، شبیه‌سازی صدا، گوگل، هوش مصنوعی گوگل، هوش مصنوعی مولد

اشتراک گذاری:

آخرین مقالات پیشنهادی

انواع یادگیری در شبکه‌های عصبی ژرف

مقدمه‌ای بر زندگی مصنوعی برای دوست‌داران هوش‌مصنوعی

قسمت دوم: چگونه کار می‌کنند؟ (فناوری‌های زیربنایی ماشین‌های خودران)

قسمت اول: ماشین‌های خودران، سفری به آینده‌ای بدون راننده

علیرضا رحیمی

دانشجوی دکتری کامپیوتر - هوش مصنوعی هستم. تخصص من در توسعه مدل‌های یادگیری ماشین و بهینه‌سازی جریان‌های کاری داده‌ها برای استخراج بینش‌های ارزشمند از داده‌های پیچیده است. علاقه‌مند به استفاده از هوش مصنوعی و مهندسی داده برای ایجاد راه‌حل‌های مقیاس‌پذیر جهت بهبود هوش تجاری و تصمیم‌گیری هستم.

مشاهده کلیه مقالات

دیدگاه‌ها

اشتراک در

0 Comments

قدیمی‌ترین

تازه‌ترین بیشترین رأی

بازخورد (Feedback) های اینلاین

مشاهده همه دیدگاه ها

دیتانید تو مراحل مختلف تحلیل داده می‌تونه به شما کمک کنه:

امکان‌سنجی خواسته‌ها و تطبیق نیازمندی‌ها
استخراج و تمیز کردن دادگان
طراحی مدل‌های مناسب
آموزش مدل براساس داده‌های به‌دست آمده
استقرار مدل

آخرین اخبار

اخبار مشابه

Cursor یک اپلیکیشن وب برای مدیریت عوامل کدنویسی هوش مصنوعی راه‌اندازی می‌کند

شرکت سازنده Cursor، ویرایشگر کدنویسی هوش مصنوعی پرطرفدار، روز دوشنبه یک اپلیکیشن وب راه‌اندازی کرد که به کاربران امکان می‌دهد شبکه‌ای از عوامل کدنویسی