گوگل روز سهشنبه از Gemini 2.5، خانواده جدیدی از مدلهای استدلال هوش مصنوعی رونمایی کرد که قبل از پاسخ دادن به سوال، مکث میکند تا “فکر کند”.
برای شروع خانواده جدید مدلها، گوگل Gemini 2.5 Pro Experimental را راهاندازی میکند، یک مدل هوش مصنوعی چندوجهی و استدلالی که این شرکت ادعا میکند هوشمندترین مدل آن تا به امروز است. این مدل روز سهشنبه در پلتفرم توسعهدهنده این شرکت، Google AI Studio، و همچنین در برنامه Gemini برای مشترکین طرح هوش مصنوعی ۲۰ دلاری در ماه این شرکت، Gemini Advanced، در دسترس خواهد بود.
گوگل میگوید از این پس، تمام مدلهای هوش مصنوعی جدیدش قابلیتهای استدلال را در خود جای خواهند داد.
از زمانی که OpenAI اولین مدل استدلال هوش مصنوعی خود، o1، را در سپتامبر ۲۰۲۴ راهاندازی کرد، صنعت فناوری برای مطابقت یا فراتر رفتن از قابلیتهای آن مدل با مدلهای خودشان مسابقه داده است. امروزه، Anthropic، DeepSeek، گوگل و xAI همگی مدلهای استدلال هوش مصنوعی دارند که از قدرت محاسباتی و زمان اضافی برای بررسی صحت و استدلال در مورد مسائل قبل از ارائه پاسخ استفاده میکنند.
تکنیکهای استدلال به مدلهای هوش مصنوعی کمک کرده است تا در وظایف ریاضی و کدنویسی به اوجهای جدیدی دست یابند. بسیاری در دنیای فناوری معتقدند که مدلهای استدلال، جزء کلیدی عوامل هوش مصنوعی، سیستمهای خودکاری خواهند بود که میتوانند وظایف را عمدتاً بدون دخالت انسان انجام دهند. با این حال، این مدلها گرانتر نیز هستند.
گوگل قبلاً مدلهای استدلال هوش مصنوعی را آزمایش کرده و نسخه “فکر کننده” Gemini را در دسامبر منتشر کرده است. اما Gemini 2.5 جدیترین تلاش این شرکت تا به امروز برای پیشی گرفتن از سری مدلهای “o” شرکت OpenAI است.
گوگل ادعا میکند که Gemini 2.5 Pro از مدلهای هوش مصنوعی پیشرو قبلی خود و برخی از مدلهای هوش مصنوعی رقیب پیشرو در چندین معیار عملکرد بهتری دارد. به طور خاص، گوگل میگوید Gemini 2.5 را برای برتری در ایجاد برنامههای وب بصری جذاب و برنامههای کدنویسی عاملی طراحی کرده است.
گوگل میگوید Gemini 2.5 Pro در ارزیابی ویرایش کد به نام Aider Polyglot، امتیاز ۶۸.۶٪ را کسب میکند و از مدلهای برتر هوش مصنوعی OpenAI، Anthropic و آزمایشگاه هوش مصنوعی چینی DeepSeek عملکرد بهتری دارد.
با این حال، در آزمون دیگری که تواناییهای توسعه نرمافزار را اندازهگیری میکند، SWE-bench Verified، Gemini 2.5 Pro امتیاز ۶۳.۸٪ را کسب میکند و از o3-mini شرکت OpenAI و R1 شرکت DeepSeek عملکرد بهتری دارد، اما از Claude 3.7 Sonnet شرکت Anthropic که امتیاز ۷۰.۳٪ را کسب کرد، عملکرد پایینتری دارد.
گوگل میگوید Gemini 2.5 Pro در آزمون Humanity’s Last Exam، یک آزمون چندوجهی متشکل از هزاران سوال جمعآوریشده از منابع مردمی در مورد ریاضیات، علوم انسانی و علوم طبیعی، امتیاز ۱۸.۸٪ را کسب میکند و از اکثر مدلهای پرچمدار رقیب عملکرد بهتری دارد.
گوگل میگوید Gemini 2.5 Pro در ابتدا با یک پنجره متن ۱ میلیون توکنی عرضه میشود، به این معنی که مدل هوش مصنوعی میتواند تقریباً ۷۵۰۰۰۰ کلمه را در یک بار دریافت کند. این طولانیتر از کل مجموعه کتابهای “ارباب حلقهها” است. و به زودی، Gemini 2.5 Pro از دو برابر طول ورودی (۲ میلیون توکن) پشتیبانی خواهد کرد.
گوگل قیمت API را برای Gemini 2.5 Pro منتشر نکرد. این شرکت میگوید در هفتههای آینده اطلاعات بیشتری را به اشتراک خواهد گذاشت.
منبع: تککرانچ