خبر
معرفی مدل‌های جدید تاووس: تحول در تعامل ویدیویی با هوش مصنوعی
زمان مطالعه: 3 دقیقه
معرفی مدل‌های جدید تاووس: تحول در تعامل ویدیویی با هوش مصنوعی
معرفی مدل‌های جدید تاووس: تحول در تعامل ویدیویی با هوش مصنوعی
خبر
معرفی مدل‌های جدید تاووس: تحول در تعامل ویدیویی با هوش مصنوعی
زمان مطالعه: 3 دقیقه

شرکت تاووس (Tavus)، یک استارتاپ برجسته در حوزه تحقیقات هوش مصنوعی ویدیویی که با حمایت سرمایه‌گذارانی چون Sequoia و Y Combinator فعالیت می‌کند، به‌تازگی سه مدل هوش مصنوعی جدید به نام‌های فینیکس-۳ (Phoenix-3)، ریون-۰ (Raven-0) و اسپارو-۰ (Sparrow-0) را معرفی کرده است. این مدل‌ها در چارچوب فناوری نوآورانه‌ای به نام رابط ویدیویی مکالمه‌ای (Conversational Video Interface یا CVI) توسعه یافته‌اند که هدف آن ایجاد تعاملات تصویری و صوتی واقعی‌تر و پویاتر بین انسان و هوش مصنوعی است. CVI به دستگاه‌ها و مدل‌ها این امکان را می‌دهد که نه‌تنها به ورودی‌های صوتی پاسخ دهند، بلکه حرکات، حالات چهره و زمینه‌های بصری را نیز درک کرده و به آن‌ها واکنش نشان دهند. برای مثال، اگر کاربر دست خود را جلوی دوربین تکان دهد یا تغییر حالتی در چهره‌اش ایجاد کند، این سیستم می‌تواند آن را تشخیص داده و به شکلی هوشمندانه پاسخ دهد.

مدل فینیکس-۳ به‌عنوان یکی از پیشرفته‌ترین مدل‌های رندرینگ چهره در این مجموعه شناخته می‌شود. این مدل قادر است حرکات ظریف صورت، از جمله تغییرات لب‌ها، ابروها و حتی حالات احساسی را با دقت فوق‌العاده‌ای ثبت و بازسازی کند. برخلاف روش‌های سنتی که اغلب به انیمیشن‌های از پیش ضبط‌شده وابسته بودند، فینیکس-۳ از فناوری‌های نوینی مانند میدان‌های تابشی عصبی (Neural Radiance Fields یا NeRF) بهره می‌برد تا ویدیوهایی سه‌بعدی و واقعی از چهره تولید کند. این ویژگی باعث می‌شود که تعاملات ویدیویی با این مدل، حس طبیعی‌تری داشته باشند و به سطحی از واقع‌گرایی برسند که پیش‌تر در هوش مصنوعی کمتر دیده شده است.

مدل ریون-۰ اما بر ادراک بصری متمرکز است و به نوعی نقش “چشم” و “مغز” این سیستم را ایفا می‌کند. این مدل می‌تواند محیط اطراف را به‌صورت لحظه‌ای مشاهده و تحلیل کند، متون موجود در تصویر را بخواند، حرکات کاربر را تشخیص دهد و حتی احساسات را از طریق حالات چهره شناسایی کند. برخلاف مدل‌های قبلی که صرفاً به ورودی‌های ثابت واکنش نشان می‌دادند، ریون-۰ توانایی درک پیوسته و پویای صحنه‌ها را دارد. این قابلیت به هوش مصنوعی اجازه می‌دهد تا به شکلی هوشمندانه‌تر و مرتبط‌تر با کاربر تعامل کند، مثلاً اگر کاربر در حین مکالمه چیزی را نشان دهد، ریون-۰ می‌تواند آن را تشخیص داده و در پاسخ خود به آن ارجاع دهد.

اسپارو-۰، سومین مدل این مجموعه، بر بهبود ریتم و جریان مکالمات تمرکز دارد. این مدل با درک الگوهای طبیعی گفتار انسان، زمان‌بندی پاسخ‌ها را بهینه می‌کند و به مکالمات حس زنده‌تری می‌بخشد. اسپارو-۰ با دقت بالایی ریتم گفتگو، لحن و زمینه را تحلیل می‌کند و از تأخیرهای مصنوعی یا رباتیک که در بسیاری از سیستم‌های هوش مصنوعی رایج است، جلوگیری می‌کند. در تست‌های اولیه، این مدل با کسب خطای میانگین مطلق ۰.۳۹۸۹ در دقت نوبت‌دهی مکالمه (Turn Accuracy)، استاندارد جدیدی را در این حوزه ثبت کرده است که نسبت به بهترین عملکرد قبلی (۱.۷۴۶۷) پیشرفت چشمگیری نشان می‌دهد.

این سه مدل به‌صورت یکپارچه با یکدیگر همکاری می‌کنند تا یک سیستم زنجیره فکری (Chain-of-Thought) را در چارچوب CVI تشکیل دهند. نتیجه این همکاری در قالب یک شخصیت هوش مصنوعی به نام چارلی (Charlie) به نمایش درآمده است. چارلی یک محقق هوش مصنوعی است که می‌تواند در مکالمات واقعی شرکت کند، به سؤالات پاسخ دهد، اینترنت را جستجو کند، تصاویر تولید کند و حتی در سناریوهای مختلف نقش‌آفرینی کند. برای مثال، چارلی می‌تواند از طریق اشتراک صفحه (Screen Sharing) به کاربر در حل مشکلات فنی کمک کند یا در موقعیت‌های آموزشی و خدماتی، تعاملاتی واقع‌گرایانه ارائه دهد. این سطح از تعامل، نشان‌دهنده قدرت ترکیبی این سه مدل در ایجاد تجربه‌ای نزدیک به گفتگوی انسانی است.

تاووس این مدل‌ها را به‌صورت API در دسترس توسعه‌دهندگان قرار داده است تا بتوانند از آن‌ها در پروژه‌های خود استفاده کنند. این API‌ها به کسب‌وکارها و شرکت‌ها امکان می‌دهند تا نمایندگان مجازی، دستیارهای فروش، یا حتی ابزارهای آموزشی هوشمند را با قابلیت تعامل ویدیویی توسعه دهند. شرکت‌هایی مانند CVS، علی‌بابا و Deloitte از جمله مشتریان فعلی تاووس هستند که از این فناوری برای بهبود تجربه مشتریان خود بهره می‌برند. همچنین، استارتاپ‌هایی چون Delphi و Mercor از این مدل‌ها به‌عنوان پایه‌ای برای توسعه تجربیات ویدیویی مبتنی بر هوش مصنوعی استفاده می‌کنند.

فناوری CVI تاووس کاربردهای گسترده‌ای دارد؛ از دستیارهای مجازی در حوزه سلامت و آموزش گرفته تا نمایندگان خدمات مشتریان که می‌توانند به‌صورت لحظه‌ای با کاربران ارتباط برقرار کنند. این مدل‌ها نه‌تنها دقت و سرعت بالایی دارند (با تأخیری کمتر از یک ثانیه)، بلکه با ایجاد حس حضور انسانی در تعاملات دیجیتال، تجربه‌ای بی‌سابقه را ارائه می‌دهند. تاووس با این نوآوری، در حال بازتعریف تعامل انسان و ماشین است و راه را برای آینده‌ای هموار می‌کند که در آن هوش مصنوعی می‌تواند به شکلی واقع‌گرایانه و مقیاس‌پذیر، جایگزین برخی از تعاملات انسانی شود.

اشتراک گذاری:

آخرین مقالات پیشنهادی

دیدگاه‌ها

اشتراک در
اطلاع از
guest
0 Comments
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
دیتانید تو مراحل مختلف تحلیل داده می‌تونه به شما کمک کنه:
  1. امکان‌سنجی خواسته‌ها و تطبیق نیازمندی‌ها
  2. استخراج و تمیز کردن دادگان
  3. طراحی مدل‌های مناسب
  4. آموزش مدل براساس داده‌های به‌دست آمده
  5. استقرار مدل

آخرین اخبار

اخبار مشابه

مدل‌های هوش مصنوعی ارتقاءیافته اپل در زمینه عملکرد، ناامیدکننده ظاهر شدند
اپل به‌روزرسانی‌هایی را برای مدل‌های هوش مصنوعی خود که قابلیت‌های Apple Intelligence را در iOS، macOS و سایر پلتفرم‌ها پشتیبانی می‌کنند، اعلام کرده ..
ادعای محقق سابق OpenAI: چت‌جی‌پی‌تی در سناریوهای تهدیدکننده زندگی از خاموش شدن جلوگیری می‌کند
استیون آدلر، رهبر سابق تحقیقات OpenAI، روز چهارشنبه یک مطالعه مستقل جدید منتشر کرد که ادعا می‌کند در برخی سناریوها، مدل‌های هوش مصنوعی کارفرمای ...
Anthropic برنامه‌ای را برای حمایت از تحقیقات علمی راه‌اندازی می‌کند
Anthropic برنامه‌ای با عنوان "هوش مصنوعی برای علم" راه‌اندازی می‌کند تا از محققانی که روی پروژه‌های علمی "پرکاربرد" کار می‌کنند، با تمرکز بر کاربرد ..