شرکت تاووس (Tavus)، یک استارتاپ برجسته در حوزه تحقیقات هوش مصنوعی ویدیویی که با حمایت سرمایهگذارانی چون Sequoia و Y Combinator فعالیت میکند، بهتازگی سه مدل هوش مصنوعی جدید به نامهای فینیکس-۳ (Phoenix-3)، ریون-۰ (Raven-0) و اسپارو-۰ (Sparrow-0) را معرفی کرده است. این مدلها در چارچوب فناوری نوآورانهای به نام رابط ویدیویی مکالمهای (Conversational Video Interface یا CVI) توسعه یافتهاند که هدف آن ایجاد تعاملات تصویری و صوتی واقعیتر و پویاتر بین انسان و هوش مصنوعی است. CVI به دستگاهها و مدلها این امکان را میدهد که نهتنها به ورودیهای صوتی پاسخ دهند، بلکه حرکات، حالات چهره و زمینههای بصری را نیز درک کرده و به آنها واکنش نشان دهند. برای مثال، اگر کاربر دست خود را جلوی دوربین تکان دهد یا تغییر حالتی در چهرهاش ایجاد کند، این سیستم میتواند آن را تشخیص داده و به شکلی هوشمندانه پاسخ دهد.
مدل فینیکس-۳ بهعنوان یکی از پیشرفتهترین مدلهای رندرینگ چهره در این مجموعه شناخته میشود. این مدل قادر است حرکات ظریف صورت، از جمله تغییرات لبها، ابروها و حتی حالات احساسی را با دقت فوقالعادهای ثبت و بازسازی کند. برخلاف روشهای سنتی که اغلب به انیمیشنهای از پیش ضبطشده وابسته بودند، فینیکس-۳ از فناوریهای نوینی مانند میدانهای تابشی عصبی (Neural Radiance Fields یا NeRF) بهره میبرد تا ویدیوهایی سهبعدی و واقعی از چهره تولید کند. این ویژگی باعث میشود که تعاملات ویدیویی با این مدل، حس طبیعیتری داشته باشند و به سطحی از واقعگرایی برسند که پیشتر در هوش مصنوعی کمتر دیده شده است.
مدل ریون-۰ اما بر ادراک بصری متمرکز است و به نوعی نقش “چشم” و “مغز” این سیستم را ایفا میکند. این مدل میتواند محیط اطراف را بهصورت لحظهای مشاهده و تحلیل کند، متون موجود در تصویر را بخواند، حرکات کاربر را تشخیص دهد و حتی احساسات را از طریق حالات چهره شناسایی کند. برخلاف مدلهای قبلی که صرفاً به ورودیهای ثابت واکنش نشان میدادند، ریون-۰ توانایی درک پیوسته و پویای صحنهها را دارد. این قابلیت به هوش مصنوعی اجازه میدهد تا به شکلی هوشمندانهتر و مرتبطتر با کاربر تعامل کند، مثلاً اگر کاربر در حین مکالمه چیزی را نشان دهد، ریون-۰ میتواند آن را تشخیص داده و در پاسخ خود به آن ارجاع دهد.
اسپارو-۰، سومین مدل این مجموعه، بر بهبود ریتم و جریان مکالمات تمرکز دارد. این مدل با درک الگوهای طبیعی گفتار انسان، زمانبندی پاسخها را بهینه میکند و به مکالمات حس زندهتری میبخشد. اسپارو-۰ با دقت بالایی ریتم گفتگو، لحن و زمینه را تحلیل میکند و از تأخیرهای مصنوعی یا رباتیک که در بسیاری از سیستمهای هوش مصنوعی رایج است، جلوگیری میکند. در تستهای اولیه، این مدل با کسب خطای میانگین مطلق ۰.۳۹۸۹ در دقت نوبتدهی مکالمه (Turn Accuracy)، استاندارد جدیدی را در این حوزه ثبت کرده است که نسبت به بهترین عملکرد قبلی (۱.۷۴۶۷) پیشرفت چشمگیری نشان میدهد.
این سه مدل بهصورت یکپارچه با یکدیگر همکاری میکنند تا یک سیستم زنجیره فکری (Chain-of-Thought) را در چارچوب CVI تشکیل دهند. نتیجه این همکاری در قالب یک شخصیت هوش مصنوعی به نام چارلی (Charlie) به نمایش درآمده است. چارلی یک محقق هوش مصنوعی است که میتواند در مکالمات واقعی شرکت کند، به سؤالات پاسخ دهد، اینترنت را جستجو کند، تصاویر تولید کند و حتی در سناریوهای مختلف نقشآفرینی کند. برای مثال، چارلی میتواند از طریق اشتراک صفحه (Screen Sharing) به کاربر در حل مشکلات فنی کمک کند یا در موقعیتهای آموزشی و خدماتی، تعاملاتی واقعگرایانه ارائه دهد. این سطح از تعامل، نشاندهنده قدرت ترکیبی این سه مدل در ایجاد تجربهای نزدیک به گفتگوی انسانی است.
تاووس این مدلها را بهصورت API در دسترس توسعهدهندگان قرار داده است تا بتوانند از آنها در پروژههای خود استفاده کنند. این APIها به کسبوکارها و شرکتها امکان میدهند تا نمایندگان مجازی، دستیارهای فروش، یا حتی ابزارهای آموزشی هوشمند را با قابلیت تعامل ویدیویی توسعه دهند. شرکتهایی مانند CVS، علیبابا و Deloitte از جمله مشتریان فعلی تاووس هستند که از این فناوری برای بهبود تجربه مشتریان خود بهره میبرند. همچنین، استارتاپهایی چون Delphi و Mercor از این مدلها بهعنوان پایهای برای توسعه تجربیات ویدیویی مبتنی بر هوش مصنوعی استفاده میکنند.
فناوری CVI تاووس کاربردهای گستردهای دارد؛ از دستیارهای مجازی در حوزه سلامت و آموزش گرفته تا نمایندگان خدمات مشتریان که میتوانند بهصورت لحظهای با کاربران ارتباط برقرار کنند. این مدلها نهتنها دقت و سرعت بالایی دارند (با تأخیری کمتر از یک ثانیه)، بلکه با ایجاد حس حضور انسانی در تعاملات دیجیتال، تجربهای بیسابقه را ارائه میدهند. تاووس با این نوآوری، در حال بازتعریف تعامل انسان و ماشین است و راه را برای آیندهای هموار میکند که در آن هوش مصنوعی میتواند به شکلی واقعگرایانه و مقیاسپذیر، جایگزین برخی از تعاملات انسانی شود.