شرکت هوش مصنوعی سِسِمی مدل پایهای را که قدرتبخش دستیار صوتی بسیار واقعی مایا است، منتشر کرده است.
این مدل که اندازهاش یک میلیارد پارامتر است («پارامترها» به اجزای جداگانه مدل اشاره دارد)، تحت مجوز آپاچی ۲.۰ عرضه شده که به این معناست که میتوان از آن بهصورت تجاری با محدودیتهای اندک استفاده کرد. این مدل که CSM-1B نام دارد، بر اساس توضیحات سسمی در پلتفرم توسعه هوش مصنوعی هاگینگ فیس، از ورودیهای متنی و صوتی «کدهای صوتی RVQ» تولید میکند.
RVQ به «کوانتیزاسیون بردار باقیمانده» اشاره دارد، تکنیکی برای رمزگذاری صوت به توکنهای گسستهای که کدها نامیده میشوند. این روش در تعدادی از فناوریهای صوتی هوش مصنوعی اخیر، از جمله SoundStream گوگل و Encodec متا، به کار رفته است.
CSM-1B از یک مدل از خانواده لاما متا بهعنوان ستون فقرات خود استفاده میکند که با یک مؤلفه «رمزگشای صوتی» جفت شده است. سسمی میگوید نسخهای بهینهشده از CSM قدرتبخش مایا است.
سسمی در مخازن هاگینگ فیس و گیتهاب مدل CSM-1B نوشته است: «مدلی که در اینجا متنباز شده، یک مدل پایه تولید است. این مدل قادر به تولید انواع صداهاست، اما روی صدای خاصی بهینهسازی نشده است […] این مدل به دلیل آلودگی دادهها در دادههای آموزشی، تا حدی ظرفیت پشتیبانی از زبانهای غیرانگلیسی را دارد، اما احتمالاً عملکرد خوبی در این زمینه نخواهد داشت.»
مشخص نیست سسمی از چه دادههایی برای آموزش CSM-1B استفاده کرده است. شرکت در این باره اطلاعاتی ارائه نکرده است.
شایان ذکر است که این مدل عملاً هیچ محافظ واقعی ندارد. سسمی به یک سیستم مبتنی بر اعتماد عمل میکند و صرفاً از توسعهدهندگان و کاربران درخواست کرده که از این مدل برای تقلید صدای افراد بدون رضایت آنها، ایجاد محتوای گمراهکننده مانند اخبار جعلی، یا انجام فعالیتهای «مضر» یا «بدخواهانه» استفاده نکنند. من دموی این مدل را در هاگینگ فیس امتحان کردم و کلون کردن صدایم کمتر از یک دقیقه طول کشید. از آنجا به بعد، بهراحتی میتوانستم گفتار دلخواهم را تولید کنم، از جمله در موضوعات بحثبرانگیز مانند انتخابات و پروپاگاندای روسیه.
گزارشهای مصرفکنندگان اخیراً هشدار داده که بسیاری از ابزارهای محبوب کلونینگ صوتی مبتنی بر هوش مصنوعی در بازار، «محافظهای معنادار» برای جلوگیری از تقلب یا سوءاستفاده ندارند.
سسمی که توسط برندان ایریب، یکی از بنیانگذاران آکیولس، تأسیس شده، در اواخر فوریه به دلیل فناوری دستیار صوتیاش که به عبور از قلمرو دره وهمی نزدیک شده، در فضای مجازی فراگیر شد. مایا و دستیار دیگر سسمی، مایلز، نفس میکشند، با نارساییهایی صحبت میکنند و میتوان حین صحبت قطعشان کرد، مشابه حالت صوتی اوپنایآی.
سسمی مبلغ نامشخصی سرمایه از شرکتهای اندرسن هوروویتز، اسپارک کپیتال و ماتریکس پارتنرز جذب کرده است. این شرکت علاوه بر توسعه فناوری دستیار صوتی، اعلام کرده که در حال آزمایش عینکهای هوش مصنوعی است که «برای استفاده تمامروز طراحی شدهاند» و مجهز به مدلهای اختصاصیاش خواهند بود.
منبع: تککرانچ