در اواخر مارس گذشته، OpenAI از یک «پیشنمایش محدود» از سرویس هوش مصنوعی به نام Voice Engine رونمایی کرد که به ادعای این شرکت، میتوانست با تنها ۱۵ ثانیه از صدای یک فرد، آن را شبیهسازی کند. حدود یک سال بعد، این ابزار همچنان در مرحله پیشنمایش باقی مانده و OpenAI هیچ نشانهای درباره زمان عرضه عمومی آن — یا حتی احتمال عرضه آن — ارائه نکرده است.
تردید این شرکت در عرضه گسترده این سرویس ممکن است به نگرانیهایی درباره سوءاستفاده از آن اشاره داشته باشد، اما همچنین میتواند نشاندهنده تلاش برای اجتناب از جلب توجه نظارتی باشد. OpenAI در گذشته متهم شده است که به «محصولات جذاب» بیش از ایمنی اولویت میدهد و برای پیشی گرفتن از رقبا در بازار، عرضهها را شتابزده انجام میدهد.
سخنگوی OpenAI در بیانیهای به TechCrunch گفت که این شرکت همچنان در حال آزمایش Voice Engine با مجموعه محدودی از «شرکای مورد اعتماد» است. سخنگو اظهار داشت: «ما از نحوه استفاده شرکایمان از این فناوری یاد میگیریم تا بتوانیم کارایی و ایمنی مدل را بهبود ببخشیم. از دیدن کاربردهای متنوع آن، از گفتاردرمانی گرفته تا یادگیری زبان، پشتیبانی مشتریان، شخصیتهای بازیهای ویدیویی و آواتارهای هوش مصنوعی، هیجانزده شدهایم.»
به تعویق افتاده
Voice Engine که صداهای موجود در API تبدیل متن به گفتار OpenAI و حالت صوتی ChatGPT را تأمین میکند، گفتاری طبیعی تولید میکند که شباهت زیادی به صدای اصلی گوینده دارد. این ابزار کاراکترهای نوشتهشده را به گفتار تبدیل میکند و تنها با برخی محدودیتها در محتوا مواجه است. اما از همان ابتدا با تأخیرها و تغییر پنجرههای عرضه روبهرو شد.
OpenAI در پستی در ژوئن ۲۰۲۴ توضیح داد که مدل Voice Engine یاد میگیرد صداهای احتمالی یک گوینده را برای یک متن مشخص پیشبینی کند و تنوع صداها، لهجهها و سبکهای گفتاری را در نظر میگیرد. پس از آن، این مدل نهتنها میتواند نسخههای گفتاری متن را تولید کند، بلکه «عبارات گفتاری» را نیز ایجاد میکند که نشاندهنده نحوه خواندن متن توسط انواع مختلف گویندگان است.
طبق پیشنویس پستی که TechCrunch مشاهده کرده، OpenAI در ابتدا قصد داشت Voice Engine، که در اصل Custom Voices نامیده میشد، را در تاریخ ۷ مارس ۲۰۲۴ به API خود بیاورد. برنامه این بود که ابتدا به گروهی حداکثر ۱۰۰ نفر از «توسعهدهندگان مورد اعتماد» دسترسی داده شود و اولویت با توسعهدهندگانی باشد که برنامههایی با «مزیت اجتماعی» یا استفادههای «نوآورانه و مسئولانه» از این فناوری را توسعه میدادند. OpenAI حتی این ابزار را علامت تجاری کرده و قیمتگذاری کرده بود: ۱۵ دلار به ازای هر میلیون کاراکتر برای صداهای «استاندارد» و ۳۰ دلار به ازای هر میلیون کاراکتر برای صداهای با «کیفیت اچدی».
اما در آخرین لحظه، شرکت اعلامیه را به تعویق انداخت. OpenAI چند هفته بعد Voice Engine را بدون گزینه ثبتنام معرفی کرد و گفت که دسترسی به این ابزار به گروهی حدود ۱۰ توسعهدهنده که از اواخر سال ۲۰۲۳ با آنها همکاری را آغاز کرده بود، محدود خواهد ماند.
OpenAI در پست اعلامیه Voice Engine در اواخر مارس ۲۰۲۴ نوشت: «امیدواریم گفتوگویی درباره استقرار مسئولانه صداهای مصنوعی و چگونگی سازگاری جامعه با این قابلیتهای جدید آغاز کنیم. بر اساس این گفتوگوها و نتایج این آزمایشهای محدود، تصمیم آگاهانهتری درباره نحوه و زمان استقرار این فناوری در مقیاس بزرگ خواهیم گرفت.»
در دست توسعه برای مدت طولانی
به گفته OpenAI، Voice Engine از سال ۲۰۲۲ در حال توسعه بوده است. این شرکت ادعا میکند که در تابستان ۲۰۲۳ این ابزار را به «سیاستگذاران جهانی در بالاترین سطوح» نمایش داده تا پتانسیلها و خطرات آن را نشان دهد.
چندین شریک اکنون به Voice Engine دسترسی دارند، از جمله استارتاپ Livox که دستگاههایی برای کمک به افراد دارای معلولیت برای برقراری ارتباط طبیعیتر میسازد. کارلوس پریرا، مدیرعامل Livox، به TechCrunch گفت که اگرچه به دلیل نیاز آنلاین این ابزار (بسیاری از مشتریان Livox به اینترنت دسترسی ندارند) نتوانستند آن را در محصولی پیادهسازی کنند، اما فناوری را «واقعاً چشمگیر» یافت.
پریرا از طریق ایمیل به TechCrunch گفت: «کیفیت صدا و امکان صحبت کردن صداها به زبانهای مختلف، بهویژه برای افراد دارای معلولیت که مشتریان ما هستند، منحصربهفرد است. این واقعاً چشمگیرترین و آسانترین ابزاری است که برای ایجاد صدا دیدهام. امیدواریم OpenAI بهزودی نسخه آفلاین آن را توسعه دهد.»
پریرا میگوید که از OpenAI هیچ راهنمایی درباره زمان عرضه احتمالی Voice Engine دریافت نکرده و نشانهای هم از برنامه شرکت برای شروع دریافت هزینه برای این سرویس ندیده است. تاکنون، Livox برای استفاده از آن هزینهای پرداخت نکرده است.
OpenAI در پست ژوئن ۲۰۲۴ خود اشاره کرد که یکی از ملاحظاتش برای به تعویق انداختن Voice Engine، احتمال سوءاستفاده در چرخه انتخابات ایالات متحده در سال گذشته بوده است. Voice Engine با مشورت ذینفعان، چندین اقدام ایمنی مانند واترمارکگذاری برای ردیابی منشأ صداهای تولیدشده دارد.
طبق گفته OpenAI، توسعهدهندگان باید «رضایت صریح» از گوینده اصلی دریافت کنند و به مخاطبان خود «افشای شفاف» کنند که صداها توسط هوش مصنوعی تولید شدهاند. با این حال، شرکت نگفته است که چگونه این سیاستها را اجرا میکند. انجام این کار در مقیاس بزرگ میتواند حتی برای شرکتی با منابع OpenAI به شدت چالشبرانگیز باشد.
OpenAI در پستهای وبلاگی خود همچنین اعلام کرده که امیدوار است یک «تجربه احراز هویت صوتی» برای تأیید گویندگان و یک فهرست «ممنوع» برای جلوگیری از ایجاد صداهایی که بیش از حد شبیه افراد برجسته هستند، ایجاد کند. هر دوی اینها پروژههای پیچیده و جاهطلبانه تکنولوژیکی هستند و اشتباه در اجرای آنها میتواند برای شرکتی که اغلب متهم به کمتوجهی به ابتکارات ایمنی است، وجهه بدی ایجاد کند.
فیلترگذاری مؤثر و تأیید هویت به سرعت در حال تبدیل شدن به الزامات اصلی برای عرضه مسئولانه فناوری شبیهسازی صوتی هستند. طبق یک منبع، شبیهسازی صوتی با هوش مصنوعی سومین کلاهبرداری با رشد سریع در سال ۲۰۲۴ بود. این امر به تقلب و دور زدن چکهای امنیتی بانکی منجر شده، در حالی که قوانین حریم خصوصی و کپیرایت هنوز در حال بهروزرسانی هستند. افراد سودجو از شبیهسازی صوتی برای ایجاد دیپفیکهای جنجالی از سلبریتیها و سیاستمداران استفاده کردهاند و این دیپفیکها در شبکههای اجتماعی به سرعت پخش شدهاند.
OpenAI ممکن است Voice Engine را هفته آینده عرضه کند — یا هرگز. این شرکت بارها گفته است که در حال بررسی نگه داشتن این سرویس در مقیاس کوچک است. اما یک چیز روشن است: به دلایل ظاهری، ایمنی یا هر دو، پیشنمایش محدود Voice Engine به یکی از طولانیترین پیشنمایشها در تاریخ OpenAI تبدیل شده است.