خبر
معرفی مدل‌های جدید تاووس: تحول در تعامل ویدیویی با هوش مصنوعی
زمان مطالعه: 3 دقیقه
معرفی مدل‌های جدید تاووس: تحول در تعامل ویدیویی با هوش مصنوعی
معرفی مدل‌های جدید تاووس: تحول در تعامل ویدیویی با هوش مصنوعی
خبر
معرفی مدل‌های جدید تاووس: تحول در تعامل ویدیویی با هوش مصنوعی
زمان مطالعه: 3 دقیقه

شرکت تاووس (Tavus)، یک استارتاپ برجسته در حوزه تحقیقات هوش مصنوعی ویدیویی که با حمایت سرمایه‌گذارانی چون Sequoia و Y Combinator فعالیت می‌کند، به‌تازگی سه مدل هوش مصنوعی جدید به نام‌های فینیکس-۳ (Phoenix-3)، ریون-۰ (Raven-0) و اسپارو-۰ (Sparrow-0) را معرفی کرده است. این مدل‌ها در چارچوب فناوری نوآورانه‌ای به نام رابط ویدیویی مکالمه‌ای (Conversational Video Interface یا CVI) توسعه یافته‌اند که هدف آن ایجاد تعاملات تصویری و صوتی واقعی‌تر و پویاتر بین انسان و هوش مصنوعی است. CVI به دستگاه‌ها و مدل‌ها این امکان را می‌دهد که نه‌تنها به ورودی‌های صوتی پاسخ دهند، بلکه حرکات، حالات چهره و زمینه‌های بصری را نیز درک کرده و به آن‌ها واکنش نشان دهند. برای مثال، اگر کاربر دست خود را جلوی دوربین تکان دهد یا تغییر حالتی در چهره‌اش ایجاد کند، این سیستم می‌تواند آن را تشخیص داده و به شکلی هوشمندانه پاسخ دهد.

مدل فینیکس-۳ به‌عنوان یکی از پیشرفته‌ترین مدل‌های رندرینگ چهره در این مجموعه شناخته می‌شود. این مدل قادر است حرکات ظریف صورت، از جمله تغییرات لب‌ها، ابروها و حتی حالات احساسی را با دقت فوق‌العاده‌ای ثبت و بازسازی کند. برخلاف روش‌های سنتی که اغلب به انیمیشن‌های از پیش ضبط‌شده وابسته بودند، فینیکس-۳ از فناوری‌های نوینی مانند میدان‌های تابشی عصبی (Neural Radiance Fields یا NeRF) بهره می‌برد تا ویدیوهایی سه‌بعدی و واقعی از چهره تولید کند. این ویژگی باعث می‌شود که تعاملات ویدیویی با این مدل، حس طبیعی‌تری داشته باشند و به سطحی از واقع‌گرایی برسند که پیش‌تر در هوش مصنوعی کمتر دیده شده است.

مدل ریون-۰ اما بر ادراک بصری متمرکز است و به نوعی نقش “چشم” و “مغز” این سیستم را ایفا می‌کند. این مدل می‌تواند محیط اطراف را به‌صورت لحظه‌ای مشاهده و تحلیل کند، متون موجود در تصویر را بخواند، حرکات کاربر را تشخیص دهد و حتی احساسات را از طریق حالات چهره شناسایی کند. برخلاف مدل‌های قبلی که صرفاً به ورودی‌های ثابت واکنش نشان می‌دادند، ریون-۰ توانایی درک پیوسته و پویای صحنه‌ها را دارد. این قابلیت به هوش مصنوعی اجازه می‌دهد تا به شکلی هوشمندانه‌تر و مرتبط‌تر با کاربر تعامل کند، مثلاً اگر کاربر در حین مکالمه چیزی را نشان دهد، ریون-۰ می‌تواند آن را تشخیص داده و در پاسخ خود به آن ارجاع دهد.

اسپارو-۰، سومین مدل این مجموعه، بر بهبود ریتم و جریان مکالمات تمرکز دارد. این مدل با درک الگوهای طبیعی گفتار انسان، زمان‌بندی پاسخ‌ها را بهینه می‌کند و به مکالمات حس زنده‌تری می‌بخشد. اسپارو-۰ با دقت بالایی ریتم گفتگو، لحن و زمینه را تحلیل می‌کند و از تأخیرهای مصنوعی یا رباتیک که در بسیاری از سیستم‌های هوش مصنوعی رایج است، جلوگیری می‌کند. در تست‌های اولیه، این مدل با کسب خطای میانگین مطلق ۰.۳۹۸۹ در دقت نوبت‌دهی مکالمه (Turn Accuracy)، استاندارد جدیدی را در این حوزه ثبت کرده است که نسبت به بهترین عملکرد قبلی (۱.۷۴۶۷) پیشرفت چشمگیری نشان می‌دهد.

این سه مدل به‌صورت یکپارچه با یکدیگر همکاری می‌کنند تا یک سیستم زنجیره فکری (Chain-of-Thought) را در چارچوب CVI تشکیل دهند. نتیجه این همکاری در قالب یک شخصیت هوش مصنوعی به نام چارلی (Charlie) به نمایش درآمده است. چارلی یک محقق هوش مصنوعی است که می‌تواند در مکالمات واقعی شرکت کند، به سؤالات پاسخ دهد، اینترنت را جستجو کند، تصاویر تولید کند و حتی در سناریوهای مختلف نقش‌آفرینی کند. برای مثال، چارلی می‌تواند از طریق اشتراک صفحه (Screen Sharing) به کاربر در حل مشکلات فنی کمک کند یا در موقعیت‌های آموزشی و خدماتی، تعاملاتی واقع‌گرایانه ارائه دهد. این سطح از تعامل، نشان‌دهنده قدرت ترکیبی این سه مدل در ایجاد تجربه‌ای نزدیک به گفتگوی انسانی است.

تاووس این مدل‌ها را به‌صورت API در دسترس توسعه‌دهندگان قرار داده است تا بتوانند از آن‌ها در پروژه‌های خود استفاده کنند. این API‌ها به کسب‌وکارها و شرکت‌ها امکان می‌دهند تا نمایندگان مجازی، دستیارهای فروش، یا حتی ابزارهای آموزشی هوشمند را با قابلیت تعامل ویدیویی توسعه دهند. شرکت‌هایی مانند CVS، علی‌بابا و Deloitte از جمله مشتریان فعلی تاووس هستند که از این فناوری برای بهبود تجربه مشتریان خود بهره می‌برند. همچنین، استارتاپ‌هایی چون Delphi و Mercor از این مدل‌ها به‌عنوان پایه‌ای برای توسعه تجربیات ویدیویی مبتنی بر هوش مصنوعی استفاده می‌کنند.

فناوری CVI تاووس کاربردهای گسترده‌ای دارد؛ از دستیارهای مجازی در حوزه سلامت و آموزش گرفته تا نمایندگان خدمات مشتریان که می‌توانند به‌صورت لحظه‌ای با کاربران ارتباط برقرار کنند. این مدل‌ها نه‌تنها دقت و سرعت بالایی دارند (با تأخیری کمتر از یک ثانیه)، بلکه با ایجاد حس حضور انسانی در تعاملات دیجیتال، تجربه‌ای بی‌سابقه را ارائه می‌دهند. تاووس با این نوآوری، در حال بازتعریف تعامل انسان و ماشین است و راه را برای آینده‌ای هموار می‌کند که در آن هوش مصنوعی می‌تواند به شکلی واقع‌گرایانه و مقیاس‌پذیر، جایگزین برخی از تعاملات انسانی شود.

اشتراک گذاری:

آخرین مقالات پیشنهادی

دیدگاه‌ها

اشتراک در
اطلاع از
guest
0 Comments
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
دیتانید تو مراحل مختلف تحلیل داده می‌تونه به شما کمک کنه:
  1. امکان‌سنجی خواسته‌ها و تطبیق نیازمندی‌ها
  2. استخراج و تمیز کردن دادگان
  3. طراحی مدل‌های مناسب
  4. آموزش مدل براساس داده‌های به‌دست آمده
  5. استقرار مدل

آخرین اخبار

اخبار مشابه

روش جدید قابلیت اطمینان گزارش‌های تشخیصی رادیولوژیست‌ها را ارزیابی و بهبود می‌بخشد
به دلیل ابهام ذاتی در تصاویر پزشکی مانند اشعه ایکس، رادیولوژیست‌ها اغلب هنگام توصیف وجود یک آسیب‌شناسی خاص، مانند ذات‌الریه، از کلماتی مانند "ممکن ..
فناوری Web3 به ایجاد اطمینان و اعتماد در هوش مصنوعی کمک می‌کند
وعده هوش مصنوعی این است که زندگی همه ما را آسان‌تر خواهد کرد. و با این سهولت بزرگ، پتانسیل سود جدی نیز به همراه می‌آید. سازمان ملل متحد تخمین ...
نینا شیک(نویسنده): تأثیر هوش مصنوعی مولد بر تجارت، سیاست و جامعه
نینا شیک، سخنران و کارشناس برجسته در زمینه هوش مصنوعی مولد است که به دلیل کار پیشگامانه‌اش در تقاطع فناوری، جامعه و ژئوپلیتیک مشهور است...