خبر
یک سال بعد، OpenAI هنوز ابزار کلونینگ صوتی خود را منتشر نکرده است
زمان مطالعه: 4 دقیقه
A year later, OpenAI still hasn’t released its voice cloning tool
A year later, OpenAI still hasn’t released its voice cloning tool
خبر
یک سال بعد، OpenAI هنوز ابزار کلونینگ صوتی خود را منتشر نکرده است
زمان مطالعه: 4 دقیقه

در اواخر مارس گذشته، OpenAI از یک «پیش‌نمایش محدود» از سرویس هوش مصنوعی به نام Voice Engine رونمایی کرد که به ادعای این شرکت، می‌توانست با تنها ۱۵ ثانیه از صدای یک فرد، آن را شبیه‌سازی کند. حدود یک سال بعد، این ابزار همچنان در مرحله پیش‌نمایش باقی مانده و OpenAI هیچ نشانه‌ای درباره زمان عرضه عمومی آن — یا حتی احتمال عرضه آن — ارائه نکرده است.

تردید این شرکت در عرضه گسترده این سرویس ممکن است به نگرانی‌هایی درباره سوءاستفاده از آن اشاره داشته باشد، اما همچنین می‌تواند نشان‌دهنده تلاش برای اجتناب از جلب توجه نظارتی باشد. OpenAI در گذشته متهم شده است که به «محصولات جذاب» بیش از ایمنی اولویت می‌دهد و برای پیشی گرفتن از رقبا در بازار، عرضه‌ها را شتاب‌زده انجام می‌دهد.

سخنگوی OpenAI در بیانیه‌ای به TechCrunch گفت که این شرکت همچنان در حال آزمایش Voice Engine با مجموعه محدودی از «شرکای مورد اعتماد» است. سخنگو اظهار داشت: «ما از نحوه استفاده شرکایمان از این فناوری یاد می‌گیریم تا بتوانیم کارایی و ایمنی مدل را بهبود ببخشیم. از دیدن کاربردهای متنوع آن، از گفتاردرمانی گرفته تا یادگیری زبان، پشتیبانی مشتریان، شخصیت‌های بازی‌های ویدیویی و آواتارهای هوش مصنوعی، هیجان‌زده شده‌ایم.»

به تعویق افتاده

Voice Engine که صداهای موجود در API تبدیل متن به گفتار OpenAI و حالت صوتی ChatGPT را تأمین می‌کند، گفتاری طبیعی تولید می‌کند که شباهت زیادی به صدای اصلی گوینده دارد. این ابزار کاراکترهای نوشته‌شده را به گفتار تبدیل می‌کند و تنها با برخی محدودیت‌ها در محتوا مواجه است. اما از همان ابتدا با تأخیرها و تغییر پنجره‌های عرضه روبه‌رو شد.

OpenAI در پستی در ژوئن ۲۰۲۴ توضیح داد که مدل Voice Engine یاد می‌گیرد صداهای احتمالی یک گوینده را برای یک متن مشخص پیش‌بینی کند و تنوع صداها، لهجه‌ها و سبک‌های گفتاری را در نظر می‌گیرد. پس از آن، این مدل نه‌تنها می‌تواند نسخه‌های گفتاری متن را تولید کند، بلکه «عبارات گفتاری» را نیز ایجاد می‌کند که نشان‌دهنده نحوه خواندن متن توسط انواع مختلف گویندگان است.

طبق پیش‌نویس پستی که TechCrunch مشاهده کرده، OpenAI در ابتدا قصد داشت Voice Engine، که در اصل Custom Voices نامیده می‌شد، را در تاریخ ۷ مارس ۲۰۲۴ به API خود بیاورد. برنامه این بود که ابتدا به گروهی حداکثر ۱۰۰ نفر از «توسعه‌دهندگان مورد اعتماد» دسترسی داده شود و اولویت با توسعه‌دهندگانی باشد که برنامه‌هایی با «مزیت اجتماعی» یا استفاده‌های «نوآورانه و مسئولانه» از این فناوری را توسعه می‌دادند. OpenAI حتی این ابزار را علامت تجاری کرده و قیمت‌گذاری کرده بود: ۱۵ دلار به ازای هر میلیون کاراکتر برای صداهای «استاندارد» و ۳۰ دلار به ازای هر میلیون کاراکتر برای صداهای با «کیفیت اچ‌دی».

اما در آخرین لحظه، شرکت اعلامیه را به تعویق انداخت. OpenAI چند هفته بعد Voice Engine را بدون گزینه ثبت‌نام معرفی کرد و گفت که دسترسی به این ابزار به گروهی حدود ۱۰ توسعه‌دهنده که از اواخر سال ۲۰۲۳ با آن‌ها همکاری را آغاز کرده بود، محدود خواهد ماند.

OpenAI در پست اعلامیه Voice Engine در اواخر مارس ۲۰۲۴ نوشت: «امیدواریم گفت‌وگویی درباره استقرار مسئولانه صداهای مصنوعی و چگونگی سازگاری جامعه با این قابلیت‌های جدید آغاز کنیم. بر اساس این گفت‌وگوها و نتایج این آزمایش‌های محدود، تصمیم آگاهانه‌تری درباره نحوه و زمان استقرار این فناوری در مقیاس بزرگ خواهیم گرفت.»

در دست توسعه برای مدت طولانی

به گفته OpenAI، Voice Engine از سال ۲۰۲۲ در حال توسعه بوده است. این شرکت ادعا می‌کند که در تابستان ۲۰۲۳ این ابزار را به «سیاست‌گذاران جهانی در بالاترین سطوح» نمایش داده تا پتانسیل‌ها و خطرات آن را نشان دهد.

چندین شریک اکنون به Voice Engine دسترسی دارند، از جمله استارتاپ Livox که دستگاه‌هایی برای کمک به افراد دارای معلولیت برای برقراری ارتباط طبیعی‌تر می‌سازد. کارلوس پریرا، مدیرعامل Livox، به TechCrunch گفت که اگرچه به دلیل نیاز آنلاین این ابزار (بسیاری از مشتریان Livox به اینترنت دسترسی ندارند) نتوانستند آن را در محصولی پیاده‌سازی کنند، اما فناوری را «واقعاً چشمگیر» یافت.

پریرا از طریق ایمیل به TechCrunch گفت: «کیفیت صدا و امکان صحبت کردن صداها به زبان‌های مختلف، به‌ویژه برای افراد دارای معلولیت که مشتریان ما هستند، منحصربه‌فرد است. این واقعاً چشمگیرترین و آسان‌ترین ابزاری است که برای ایجاد صدا دیده‌ام. امیدواریم OpenAI به‌زودی نسخه آفلاین آن را توسعه دهد.»

پریرا می‌گوید که از OpenAI هیچ راهنمایی درباره زمان عرضه احتمالی Voice Engine دریافت نکرده و نشانه‌ای هم از برنامه شرکت برای شروع دریافت هزینه برای این سرویس ندیده است. تاکنون، Livox برای استفاده از آن هزینه‌ای پرداخت نکرده است.

OpenAI در پست ژوئن ۲۰۲۴ خود اشاره کرد که یکی از ملاحظاتش برای به تعویق انداختن Voice Engine، احتمال سوءاستفاده در چرخه انتخابات ایالات متحده در سال گذشته بوده است. Voice Engine با مشورت ذی‌نفعان، چندین اقدام ایمنی مانند واترمارک‌گذاری برای ردیابی منشأ صداهای تولیدشده دارد.

طبق گفته OpenAI، توسعه‌دهندگان باید «رضایت صریح» از گوینده اصلی دریافت کنند و به مخاطبان خود «افشای شفاف» کنند که صداها توسط هوش مصنوعی تولید شده‌اند. با این حال، شرکت نگفته است که چگونه این سیاست‌ها را اجرا می‌کند. انجام این کار در مقیاس بزرگ می‌تواند حتی برای شرکتی با منابع OpenAI به شدت چالش‌برانگیز باشد.

OpenAI در پست‌های وبلاگی خود همچنین اعلام کرده که امیدوار است یک «تجربه احراز هویت صوتی» برای تأیید گویندگان و یک فهرست «ممنوع» برای جلوگیری از ایجاد صداهایی که بیش از حد شبیه افراد برجسته هستند، ایجاد کند. هر دوی این‌ها پروژه‌های پیچیده و جاه‌طلبانه تکنولوژیکی هستند و اشتباه در اجرای آن‌ها می‌تواند برای شرکتی که اغلب متهم به کم‌توجهی به ابتکارات ایمنی است، وجهه بدی ایجاد کند.

فیلترگذاری مؤثر و تأیید هویت به سرعت در حال تبدیل شدن به الزامات اصلی برای عرضه مسئولانه فناوری شبیه‌سازی صوتی هستند. طبق یک منبع، شبیه‌سازی صوتی با هوش مصنوعی سومین کلاهبرداری با رشد سریع در سال ۲۰۲۴ بود. این امر به تقلب و دور زدن چک‌های امنیتی بانکی منجر شده، در حالی که قوانین حریم خصوصی و کپی‌رایت هنوز در حال به‌روزرسانی هستند. افراد سودجو از شبیه‌سازی صوتی برای ایجاد دیپ‌فیک‌های جنجالی از سلبریتی‌ها و سیاستمداران استفاده کرده‌اند و این دیپ‌فیک‌ها در شبکه‌های اجتماعی به سرعت پخش شده‌اند.

OpenAI ممکن است Voice Engine را هفته آینده عرضه کند — یا هرگز. این شرکت بارها گفته است که در حال بررسی نگه داشتن این سرویس در مقیاس کوچک است. اما یک چیز روشن است: به دلایل ظاهری، ایمنی یا هر دو، پیش‌نمایش محدود Voice Engine به یکی از طولانی‌ترین پیش‌نمایش‌ها در تاریخ OpenAI تبدیل شده است.

منبع: تک‌کرانچ

اشتراک گذاری:

آخرین مقالات پیشنهادی

دیدگاه‌ها

اشتراک در
اطلاع از
guest
0 Comments
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
دیتانید تو مراحل مختلف تحلیل داده می‌تونه به شما کمک کنه:
  1. امکان‌سنجی خواسته‌ها و تطبیق نیازمندی‌ها
  2. استخراج و تمیز کردن دادگان
  3. طراحی مدل‌های مناسب
  4. آموزش مدل براساس داده‌های به‌دست آمده
  5. استقرار مدل

آخرین اخبار

اخبار مشابه

روش جدید قابلیت اطمینان گزارش‌های تشخیصی رادیولوژیست‌ها را ارزیابی و بهبود می‌بخشد
به دلیل ابهام ذاتی در تصاویر پزشکی مانند اشعه ایکس، رادیولوژیست‌ها اغلب هنگام توصیف وجود یک آسیب‌شناسی خاص، مانند ذات‌الریه، از کلماتی مانند "ممکن ..
فناوری Web3 به ایجاد اطمینان و اعتماد در هوش مصنوعی کمک می‌کند
وعده هوش مصنوعی این است که زندگی همه ما را آسان‌تر خواهد کرد. و با این سهولت بزرگ، پتانسیل سود جدی نیز به همراه می‌آید. سازمان ملل متحد تخمین ...
نینا شیک(نویسنده): تأثیر هوش مصنوعی مولد بر تجارت، سیاست و جامعه
نینا شیک، سخنران و کارشناس برجسته در زمینه هوش مصنوعی مولد است که به دلیل کار پیشگامانه‌اش در تقاطع فناوری، جامعه و ژئوپلیتیک مشهور است...