یک سال بعد، OpenAI هنوز ابزار کلونینگ صوتی خود را منتشر نکرده است

خبر

زمان مطالعه: 4 دقیقه

علیرضا رحیمی
18 اسفند 1403
08:05

A year later, OpenAI still hasn’t released its voice cloning tool

خبر

یک سال بعد، OpenAI هنوز ابزار کلونینگ صوتی خود را منتشر نکرده است

زمان مطالعه: 4 دقیقه

علیرضا رحیمی
18 اسفند 1403
08:05

در اواخر مارس گذشته، OpenAI از یک «پیش‌نمایش محدود» از سرویس هوش مصنوعی به نام Voice Engine رونمایی کرد که به ادعای این شرکت، می‌توانست با تنها ۱۵ ثانیه از صدای یک فرد، آن را شبیه‌سازی کند. حدود یک سال بعد، این ابزار همچنان در مرحله پیش‌نمایش باقی مانده و OpenAI هیچ نشانه‌ای درباره زمان عرضه عمومی آن — یا حتی احتمال عرضه آن — ارائه نکرده است.

تردید این شرکت در عرضه گسترده این سرویس ممکن است به نگرانی‌هایی درباره سوءاستفاده از آن اشاره داشته باشد، اما همچنین می‌تواند نشان‌دهنده تلاش برای اجتناب از جلب توجه نظارتی باشد. OpenAI در گذشته متهم شده است که به «محصولات جذاب» بیش از ایمنی اولویت می‌دهد و برای پیشی گرفتن از رقبا در بازار، عرضه‌ها را شتاب‌زده انجام می‌دهد.

سخنگوی OpenAI در بیانیه‌ای به TechCrunch گفت که این شرکت همچنان در حال آزمایش Voice Engine با مجموعه محدودی از «شرکای مورد اعتماد» است. سخنگو اظهار داشت: «ما از نحوه استفاده شرکایمان از این فناوری یاد می‌گیریم تا بتوانیم کارایی و ایمنی مدل را بهبود ببخشیم. از دیدن کاربردهای متنوع آن، از گفتاردرمانی گرفته تا یادگیری زبان، پشتیبانی مشتریان، شخصیت‌های بازی‌های ویدیویی و آواتارهای هوش مصنوعی، هیجان‌زده شده‌ایم.»

به تعویق افتاده

Voice Engine که صداهای موجود در API تبدیل متن به گفتار OpenAI و حالت صوتی ChatGPT را تأمین می‌کند، گفتاری طبیعی تولید می‌کند که شباهت زیادی به صدای اصلی گوینده دارد. این ابزار کاراکترهای نوشته‌شده را به گفتار تبدیل می‌کند و تنها با برخی محدودیت‌ها در محتوا مواجه است. اما از همان ابتدا با تأخیرها و تغییر پنجره‌های عرضه روبه‌رو شد.

OpenAI در پستی در ژوئن ۲۰۲۴ توضیح داد که مدل Voice Engine یاد می‌گیرد صداهای احتمالی یک گوینده را برای یک متن مشخص پیش‌بینی کند و تنوع صداها، لهجه‌ها و سبک‌های گفتاری را در نظر می‌گیرد. پس از آن، این مدل نه‌تنها می‌تواند نسخه‌های گفتاری متن را تولید کند، بلکه «عبارات گفتاری» را نیز ایجاد می‌کند که نشان‌دهنده نحوه خواندن متن توسط انواع مختلف گویندگان است.

طبق پیش‌نویس پستی که TechCrunch مشاهده کرده، OpenAI در ابتدا قصد داشت Voice Engine، که در اصل Custom Voices نامیده می‌شد، را در تاریخ ۷ مارس ۲۰۲۴ به API خود بیاورد. برنامه این بود که ابتدا به گروهی حداکثر ۱۰۰ نفر از «توسعه‌دهندگان مورد اعتماد» دسترسی داده شود و اولویت با توسعه‌دهندگانی باشد که برنامه‌هایی با «مزیت اجتماعی» یا استفاده‌های «نوآورانه و مسئولانه» از این فناوری را توسعه می‌دادند. OpenAI حتی این ابزار را علامت تجاری کرده و قیمت‌گذاری کرده بود: ۱۵ دلار به ازای هر میلیون کاراکتر برای صداهای «استاندارد» و ۳۰ دلار به ازای هر میلیون کاراکتر برای صداهای با «کیفیت اچ‌دی».

اما در آخرین لحظه، شرکت اعلامیه را به تعویق انداخت. OpenAI چند هفته بعد Voice Engine را بدون گزینه ثبت‌نام معرفی کرد و گفت که دسترسی به این ابزار به گروهی حدود ۱۰ توسعه‌دهنده که از اواخر سال ۲۰۲۳ با آن‌ها همکاری را آغاز کرده بود، محدود خواهد ماند.

OpenAI در پست اعلامیه Voice Engine در اواخر مارس ۲۰۲۴ نوشت: «امیدواریم گفت‌وگویی درباره استقرار مسئولانه صداهای مصنوعی و چگونگی سازگاری جامعه با این قابلیت‌های جدید آغاز کنیم. بر اساس این گفت‌وگوها و نتایج این آزمایش‌های محدود، تصمیم آگاهانه‌تری درباره نحوه و زمان استقرار این فناوری در مقیاس بزرگ خواهیم گرفت.»

در دست توسعه برای مدت طولانی

به گفته OpenAI، Voice Engine از سال ۲۰۲۲ در حال توسعه بوده است. این شرکت ادعا می‌کند که در تابستان ۲۰۲۳ این ابزار را به «سیاست‌گذاران جهانی در بالاترین سطوح» نمایش داده تا پتانسیل‌ها و خطرات آن را نشان دهد.

چندین شریک اکنون به Voice Engine دسترسی دارند، از جمله استارتاپ Livox که دستگاه‌هایی برای کمک به افراد دارای معلولیت برای برقراری ارتباط طبیعی‌تر می‌سازد. کارلوس پریرا، مدیرعامل Livox، به TechCrunch گفت که اگرچه به دلیل نیاز آنلاین این ابزار (بسیاری از مشتریان Livox به اینترنت دسترسی ندارند) نتوانستند آن را در محصولی پیاده‌سازی کنند، اما فناوری را «واقعاً چشمگیر» یافت.

پریرا از طریق ایمیل به TechCrunch گفت: «کیفیت صدا و امکان صحبت کردن صداها به زبان‌های مختلف، به‌ویژه برای افراد دارای معلولیت که مشتریان ما هستند، منحصربه‌فرد است. این واقعاً چشمگیرترین و آسان‌ترین ابزاری است که برای ایجاد صدا دیده‌ام. امیدواریم OpenAI به‌زودی نسخه آفلاین آن را توسعه دهد.»

پریرا می‌گوید که از OpenAI هیچ راهنمایی درباره زمان عرضه احتمالی Voice Engine دریافت نکرده و نشانه‌ای هم از برنامه شرکت برای شروع دریافت هزینه برای این سرویس ندیده است. تاکنون، Livox برای استفاده از آن هزینه‌ای پرداخت نکرده است.

OpenAI در پست ژوئن ۲۰۲۴ خود اشاره کرد که یکی از ملاحظاتش برای به تعویق انداختن Voice Engine، احتمال سوءاستفاده در چرخه انتخابات ایالات متحده در سال گذشته بوده است. Voice Engine با مشورت ذی‌نفعان، چندین اقدام ایمنی مانند واترمارک‌گذاری برای ردیابی منشأ صداهای تولیدشده دارد.

طبق گفته OpenAI، توسعه‌دهندگان باید «رضایت صریح» از گوینده اصلی دریافت کنند و به مخاطبان خود «افشای شفاف» کنند که صداها توسط هوش مصنوعی تولید شده‌اند. با این حال، شرکت نگفته است که چگونه این سیاست‌ها را اجرا می‌کند. انجام این کار در مقیاس بزرگ می‌تواند حتی برای شرکتی با منابع OpenAI به شدت چالش‌برانگیز باشد.

OpenAI در پست‌های وبلاگی خود همچنین اعلام کرده که امیدوار است یک «تجربه احراز هویت صوتی» برای تأیید گویندگان و یک فهرست «ممنوع» برای جلوگیری از ایجاد صداهایی که بیش از حد شبیه افراد برجسته هستند، ایجاد کند. هر دوی این‌ها پروژه‌های پیچیده و جاه‌طلبانه تکنولوژیکی هستند و اشتباه در اجرای آن‌ها می‌تواند برای شرکتی که اغلب متهم به کم‌توجهی به ابتکارات ایمنی است، وجهه بدی ایجاد کند.

فیلترگذاری مؤثر و تأیید هویت به سرعت در حال تبدیل شدن به الزامات اصلی برای عرضه مسئولانه فناوری شبیه‌سازی صوتی هستند. طبق یک منبع، شبیه‌سازی صوتی با هوش مصنوعی سومین کلاهبرداری با رشد سریع در سال ۲۰۲۴ بود. این امر به تقلب و دور زدن چک‌های امنیتی بانکی منجر شده، در حالی که قوانین حریم خصوصی و کپی‌رایت هنوز در حال به‌روزرسانی هستند. افراد سودجو از شبیه‌سازی صوتی برای ایجاد دیپ‌فیک‌های جنجالی از سلبریتی‌ها و سیاستمداران استفاده کرده‌اند و این دیپ‌فیک‌ها در شبکه‌های اجتماعی به سرعت پخش شده‌اند.

OpenAI ممکن است Voice Engine را هفته آینده عرضه کند — یا هرگز. این شرکت بارها گفته است که در حال بررسی نگه داشتن این سرویس در مقیاس کوچک است. اما یک چیز روشن است: به دلایل ظاهری، ایمنی یا هر دو، پیش‌نمایش محدود Voice Engine به یکی از طولانی‌ترین پیش‌نمایش‌ها در تاریخ OpenAI تبدیل شده است.

منبع: تک‌کرا ن چ

openai، اوپن‌ای‌آی، ایمنی هوش مصنوعی، چت‌جی‌پی‌تی، شبیه‌سازی صوتی، هوش مصنوعی

اشتراک گذاری:

آخرین مقالات پیشنهادی

انواع یادگیری در شبکه‌های عصبی ژرف

مقدمه‌ای بر زندگی مصنوعی برای دوست‌داران هوش‌مصنوعی

قسمت دوم: چگونه کار می‌کنند؟ (فناوری‌های زیربنایی ماشین‌های خودران)

قسمت اول: ماشین‌های خودران، سفری به آینده‌ای بدون راننده

علیرضا رحیمی

دانشجوی دکتری کامپیوتر - هوش مصنوعی هستم. تخصص من در توسعه مدل‌های یادگیری ماشین و بهینه‌سازی جریان‌های کاری داده‌ها برای استخراج بینش‌های ارزشمند از داده‌های پیچیده است. علاقه‌مند به استفاده از هوش مصنوعی و مهندسی داده برای ایجاد راه‌حل‌های مقیاس‌پذیر جهت بهبود هوش تجاری و تصمیم‌گیری هستم.

مشاهده کلیه مقالات