گروه تکنولوژی چینی Alibaba Cloud قابلیتهای چندوجهی خود را بهروزرسانی کرده و پنجره زمینه میلیون توکنی را در جدیدترین مدل زبان خود معرفی کرده است.
رقابت برای توسعه مدلهای زبان بزرگ (LLM) با قابلیتهای گسترشیافته شدت گرفته است، زیرا شرکتهای تکنولوژی در تلاشند پردازش متن را با درک بصری و پنجرههای زمینه طولانیتر ترکیب کنند.
در میان این رقابت رو به رشد، Alibaba Cloud – شرکت فرعی محاسبات ابری گروه تجارت الکترونیک چینی Alibaba – دو بهروزرسانی برای سری مدلهای زبان Qwen خود منتشر کرده است که قابلیتهای چندوجهی و پردازش زمینه گسترشیافته را معرفی میکند. این تحولات این شرکت را در رقابت با جدیدترین مدلها از شرکتهای هوش مصنوعی آمریکایی مانند OpenAI و Anthropic و رقبای چینی مانند DeepSeek قرار میدهد، چرا که شرکتها به دنبال راهحلهای هوش مصنوعی هستند که بتوانند ورودیهای متنی و بصری را پردازش کنند.

“Alibaba Cloud مصمم است تا از طریق مدلهای هوش مصنوعی پیشرفته، زیرساختهای ابری بهبود یافته و برنامههای پشتیبانی قابل دسترس، ارزش واقعی را به توسعهدهندگان جهانی ارائه دهد.” این سخنان را دونگلیانگ گو، معاون رئیسجمهور کسبوکارهای بینالمللی و رئیس محصولات و راهحلهای بینالمللی در Alibaba Cloud Intelligence بیان کرده است. “هدف ما این است که با هم، نوآوریهای بیشتری را که توسط هوش مصنوعی هدایت میشوند، ایجاد کنیم و از این طریق به استارتاپها، شرکتها و صنایع در سراسر جهان بهره برسانیم.”
Qwen2.5-VL قابلیتهای چندوجهی را به پورتفوی Alibaba Cloud اضافه میکند
مدل زبان-بصری Qwen2.5-VL این شرکت نسبت به نسخه قبلی خود گسترش یافته و اندازه پارامترهای آن از ۳ میلیارد تا ۷۲ میلیارد متغیر است. این تکنولوژی پردازش متن و تصویر را ترکیب میکند تا تصاویر، نمودارها و محتوای ویدئویی را تحلیل کند.
فیلم یوتوب:
این مدل محتوای ویدئویی با مدت زمان بیش از یک ساعت را پردازش کرده و بخشهای زمانی خاصی را برای جستجو شناسایی میکند. این قابلیت به کاربران امکان میدهد تا در محتوای ویدئویی جستجو کنند و اطلاعاتی را از لحظات خاص استخراج نمایند.
ویژگی اصلی Qwen2.5-VL قابلیت خروجی دادههای ساختاریافته است. طبق گفته Alibaba Cloud، این سیستم محتوای غیرساختاریافته از اسناد مانند فاکتورها و فرمها را به فرمتهای دادهای سازماندهی شده مانند JSON تبدیل میکند، که یک ساختار داده مبتنی بر متن است و در توسعه نرمافزار استفاده میشود.
این تکنولوژی شامل قابلیتهای تجزیه و بومیسازی است که به آن اجازه میدهد به عنوان یک دستیار بصری برای وظایف کامپیوتری و موبایلی عمل کند. این قابلیتها به کاربردهای عملی مانند بررسی وضعیت هوا و رزرو بلیط پرواز از طریق رابطهای اپلیکیشن گسترش یافته است.

مدل پیشرفته Qwen2.5-VL-72B-Instruct از طریق پلتفرم Qwen Chat قابل دسترسی است. این مدل قابلیتهایی در خواندن اسناد، تفسیر نمودارها و پاسخ به سوالات بصری در بخشهای مختلف از جمله آموزش و ریاضیات نشان میدهد.
Alibaba Cloud مدل Qwen2.5-1M با پنجره زمینه میلیون توکنی را معرفی میکند
Alibaba Cloud همچنین اعلام کرده که نسخه Qwen2.5-1M مدل زبان خود را منتشر کرده است که قادر به پردازش تا یک میلیون توکن است. توکنها واحدهای پایه متن هستند که مدلهای زبانی پردازش میکنند و هر توکن معمولاً نمایانگر یک کلمه یا قسمتی از یک کلمه است.
این نسخه شامل دو مدل با تنظیمات دستورالعمل و بهترتیب با هفت میلیارد و ۱۴ میلیارد پارامتر است. این مدلها از طریق Hugging Face، یک پلتفرم توسعه هوش مصنوعی که توسط محققان و شرکتها استفاده میشود، در دسترس هستند.
Alibaba Cloud یک چارچوب استنباط (inference framework) را در Github، پلتفرم توسعه نرمافزار، منتشر کرده است تا از استقرار Qwen2.5-1M پشتیبانی کند. این چارچوب از روشهای برونیابی طول و توجه پراکنده (sparse attention) استفاده میکند که رویکردهای فنی هستند که منابع محاسباتی لازم برای پردازش ورودیهای متنی طولانی را کاهش میدهند.
طبق مستندات فنی شرکت، این چارچوب ورودیهای میلیون توکنی را با سرعتی بین سه تا هفت برابر سریعتر از روشهای معمول پردازش میکند.
منبع: مجله هوش مصنوعی