سِسِمی، استارتاپی که در پشت دستیار مجازی پرطرفدار مایا قرار دارد، مدل پایه هوش مصنوعی خود را منتشر کرد

خبر

زمان مطالعه: 2 دقیقه

علیرضا رحیمی
25 اسفند 1403
12:17

سِسِمی، استارتاپی که در پشت دستیار مجازی پرطرفدار مایا قرار دارد، مدل پایه هوش مصنوعی خود را منتشر کرد

خبر

سِسِمی، استارتاپی که در پشت دستیار مجازی پرطرفدار مایا قرار دارد، مدل پایه هوش مصنوعی خود را منتشر کرد

زمان مطالعه: 2 دقیقه

علیرضا رحیمی
25 اسفند 1403
12:17

شرکت هوش مصنوعی سِسِمی مدل پایه‌ای را که قدرت‌بخش دستیار صوتی بسیار واقعی مایا است، منتشر کرده است.

این مدل که اندازه‌اش یک میلیارد پارامتر است («پارامترها» به اجزای جداگانه مدل اشاره دارد)، تحت مجوز آپاچی ۲.۰ عرضه شده که به این معناست که می‌توان از آن به‌صورت تجاری با محدودیت‌های اندک استفاده کرد. این مدل که CSM-1B نام دارد، بر اساس توضیحات سسمی در پلتفرم توسعه هوش مصنوعی هاگینگ فیس، از ورودی‌های متنی و صوتی «کدهای صوتی RVQ» تولید می‌کند.

RVQ به «کوانتیزاسیون بردار باقی‌مانده» اشاره دارد، تکنیکی برای رمزگذاری صوت به توکن‌های گسسته‌ای که کدها نامیده می‌شوند. این روش در تعدادی از فناوری‌های صوتی هوش مصنوعی اخیر، از جمله SoundStream گوگل و Encodec متا، به کار رفته است.

CSM-1B از یک مدل از خانواده لاما متا به‌عنوان ستون فقرات خود استفاده می‌کند که با یک مؤلفه «رمزگشای صوتی» جفت شده است. سسمی می‌گوید نسخه‌ای بهینه‌شده از CSM قدرت‌بخش مایا است.

سسمی در مخازن هاگینگ فیس و گیت‌هاب مدل CSM-1B نوشته است: «مدلی که در اینجا متن‌باز شده، یک مدل پایه تولید است. این مدل قادر به تولید انواع صداهاست، اما روی صدای خاصی بهینه‌سازی نشده است […] این مدل به دلیل آلودگی داده‌ها در داده‌های آموزشی، تا حدی ظرفیت پشتیبانی از زبان‌های غیرانگلیسی را دارد، اما احتمالاً عملکرد خوبی در این زمینه نخواهد داشت.»

مشخص نیست سسمی از چه داده‌هایی برای آموزش CSM-1B استفاده کرده است. شرکت در این باره اطلاعاتی ارائه نکرده است.

شایان ذکر است که این مدل عملاً هیچ محافظ واقعی ندارد. سسمی به یک سیستم مبتنی بر اعتماد عمل می‌کند و صرفاً از توسعه‌دهندگان و کاربران درخواست کرده که از این مدل برای تقلید صدای افراد بدون رضایت آن‌ها، ایجاد محتوای گمراه‌کننده مانند اخبار جعلی، یا انجام فعالیت‌های «مضر» یا «بدخواهانه» استفاده نکنند. من دموی این مدل را در هاگینگ فیس امتحان کردم و کلون کردن صدایم کمتر از یک دقیقه طول کشید. از آنجا به بعد، به‌راحتی می‌توانستم گفتار دلخواهم را تولید کنم، از جمله در موضوعات بحث‌برانگیز مانند انتخابات و پروپاگاندای روسیه.

گزارش‌های مصرف‌کنندگان اخیراً هشدار داده که بسیاری از ابزارهای محبوب کلونینگ صوتی مبتنی بر هوش مصنوعی در بازار، «محافظ‌های معنادار» برای جلوگیری از تقلب یا سوءاستفاده ندارند.

سسمی که توسط برندان ایریب، یکی از بنیان‌گذاران آکیولس، تأسیس شده، در اواخر فوریه به دلیل فناوری دستیار صوتی‌اش که به عبور از قلمرو دره وهمی نزدیک شده، در فضای مجازی فراگیر شد. مایا و دستیار دیگر سسمی، مایلز، نفس می‌کشند، با نارسایی‌هایی صحبت می‌کنند و می‌توان حین صحبت قطعشان کرد، مشابه حالت صوتی اوپن‌ای‌آی.

سسمی مبلغ نامشخصی سرمایه از شرکت‌های اندرسن هوروویتز، اسپارک کپیتال و ماتریکس پارتنرز جذب کرده است. این شرکت علاوه بر توسعه فناوری دستیار صوتی، اعلام کرده که در حال آزمایش عینک‌های هوش مصنوعی است که «برای استفاده تمام‌روز طراحی شده‌اند» و مجهز به مدل‌های اختصاصی‌اش خواهند بود.

منبع: تک‌کرانچ

دستیار صوتی، شبیه‌سازی صدا، مدل متن‌باز، مدل‌های متن‌باز، مدل‌های هوش مصنوعی متن‌باز، هوش مصنوعی

اشتراک گذاری:

آخرین مقالات پیشنهادی

انواع یادگیری در شبکه‌های عصبی ژرف

مقدمه‌ای بر زندگی مصنوعی برای دوست‌داران هوش‌مصنوعی

قسمت دوم: چگونه کار می‌کنند؟ (فناوری‌های زیربنایی ماشین‌های خودران)

قسمت اول: ماشین‌های خودران، سفری به آینده‌ای بدون راننده

علیرضا رحیمی

دانشجوی دکتری کامپیوتر - هوش مصنوعی هستم. تخصص من در توسعه مدل‌های یادگیری ماشین و بهینه‌سازی جریان‌های کاری داده‌ها برای استخراج بینش‌های ارزشمند از داده‌های پیچیده است. علاقه‌مند به استفاده از هوش مصنوعی و مهندسی داده برای ایجاد راه‌حل‌های مقیاس‌پذیر جهت بهبود هوش تجاری و تصمیم‌گیری هستم.

مشاهده کلیه مقالات