OpenAI روز دوشنبه خانواده جدیدی از مدلها را با نام GPT-4.1 راهاندازی کرد. بله، “۴.۱” – انگار که نامگذاریهای این شرکت به اندازه کافی گیجکننده نبود.
GPT-4.1، GPT-4.1 mini و GPT-4.1 nano وجود دارند که OpenAI میگوید همگی در برنامهنویسی و پیروی از دستورالعملها “برتری” دارند. این مدلهای چندوجهی که از طریق API OpenAI در دسترس هستند اما در ChatGPT نیستند، دارای یک پنجره متنی ۱ میلیون توکنی هستند، به این معنی که میتوانند تقریباً ۷۵۰,۰۰۰ کلمه را به یکباره دریافت کنند (طولانیتر از “جنگ و صلح”).
GPT-4.1 در حالی از راه میرسد که رقبای OpenAI مانند گوگل و آنتروپیک تلاشها برای ساخت مدلهای برنامهنویسی پیچیده را افزایش دادهاند. Gemini 2.5 Pro اخیراً منتشر شده گوگل، که آن هم پنجره متنی ۱ میلیون توکنی دارد، در معیارهای برنامهنویسی محبوب رتبه بالایی دارد. Claude 3.7 Sonnet آنتروپیک و V3 ارتقا یافته استارتآپ هوش مصنوعی چینی DeepSeek نیز همینطور هستند.
هدف بسیاری از غولهای فناوری، از جمله OpenAI، آموزش مدلهای برنامهنویسی هوش مصنوعی است که قادر به انجام وظایف پیچیده مهندسی نرمافزار باشند. جاهطلبی بزرگ OpenAI ایجاد یک “مهندس نرمافزار عامل” است، همانطور که سارا فرایر، مدیر ارشد مالی این شرکت، ماه گذشته در یک اجلاس فناوری در لندن بیان کرد. این شرکت ادعا میکند که مدلهای آینده آن قادر خواهند بود کل برنامهها را به صورت سرتاسری برنامهنویسی کنند و جنبههایی مانند تضمین کیفیت، تست اشکالات و نوشتن مستندات را مدیریت کنند.
GPT-4.1 یک گام در این جهت است.
سخنگوی OpenAI از طریق ایمیل به TechCrunch گفت: “ما GPT-4.1 را برای استفاده در دنیای واقعی بر اساس بازخورد مستقیم به منظور بهبود در زمینههایی که برای توسعهدهندگان بیشترین اهمیت را دارد، بهینهسازی کردهایم: برنامهنویسی فرانتاند، ایجاد ویرایشهای اضافی کمتر، پیروی قابل اعتماد از قالبها، رعایت ساختار و ترتیب پاسخ، استفاده مداوم از ابزارها و موارد دیگر. این بهبودها به توسعهدهندگان امکان میدهد عواملهایی بسازند که در وظایف مهندسی نرمافزار دنیای واقعی به طور قابل توجهی بهتر عمل میکنند.”
OpenAI ادعا میکند که مدل کامل GPT-4.1 از مدلهای GPT-4o و GPT-4o mini خود در معیارهای برنامهنویسی، از جمله SWE-bench، عملکرد بهتری دارد. گفته میشود GPT-4.1 mini و nano با هزینه کاهش اندکی در دقت، کارآمدتر و سریعتر هستند، و OpenAI میگوید GPT-4.1 nano سریعترین – و ارزانترین – مدل آن تا کنون است.
هزینه GPT-4.1 برای هر یک میلیون توکن ورودی ۲ دلار و برای هر یک میلیون توکن خروجی ۸ دلار است. هزینه GPT-4.1 mini برای هر یک میلیون توکن ورودی ۰.۴۰ دلار و برای هر یک میلیون توکن خروجی ۱.۶۰ دلار، و هزینه GPT-4.1 nano برای هر یک میلیون توکن ورودی ۰.۱۰ دلار و برای هر یک میلیون توکن خروجی ۰.۴۰ دلار است.
طبق آزمایشهای داخلی OpenAI، GPT-4.1، که میتواند همزمان توکنهای بیشتری نسبت به GPT-4o (32,768 در مقابل ۱۶,۳۸۴) تولید کند، در SWE-bench Verified، زیرمجموعهای از SWE-bench که توسط انسان تأیید شده است، بین ۵۲% و ۵۴.۶% امتیاز کسب کرده است. (OpenAI در یک پست وبلاگ اشاره کرد که برخی از راه حلهای مشکلات SWE-bench Verified نتوانستند روی زیرساخت آن اجرا شوند، از این رو محدوده امتیازات.) این ارقام کمی کمتر از امتیازات گزارش شده توسط گوگل و آنتروپیک برای Gemini 2.5 Pro (63.8%) و Claude 3.7 Sonnet (62.3%) در همان معیار است.
در یک ارزیابی جداگانه، OpenAI GPT-4.1 را با استفاده از Video-MME، که برای اندازهگیری توانایی یک مدل در “درک” محتوا در ویدیوها طراحی شده است، بررسی کرد. OpenAI ادعا میکند که GPT-4.1 در دسته ویدیویی “طولانی، بدون زیرنویس” به دقت بینظیر ۷۲% دست یافته است.
در حالی که GPT-4.1 در معیارها امتیاز نسبتاً خوبی کسب میکند و “قطع دانش” جدیدتری دارد، که به آن چارچوب مرجع بهتری برای رویدادهای جاری (تا ژوئن ۲۰۲۴) میدهد، مهم است که به خاطر داشته باشید که حتی برخی از بهترین مدلهای امروزی نیز با وظایفی دست و پنجه نرم میکنند که متخصصان را به زحمت نمیاندازد. برای مثال، بسیاری از مطالعات نشان دادهاند که مدلهای تولید کد اغلب در رفع، و حتی معرفی، آسیبپذیریها و اشکالات امنیتی شکست میخورند.
OpenAI همچنین اذعان میکند که با افزایش تعداد توکنهای ورودی که GPT-4.1 باید با آنها سروکار داشته باشد، قابلیت اطمینان آن کاهش مییابد (یعنی احتمال اشتباه کردن آن بیشتر میشود). در یکی از آزمایشهای خود شرکت، OpenAI-MRCR، دقت مدل از حدود ۸۴% با ۸,۰۰۰ توکن به ۵۰% با ۱ میلیون توکن کاهش یافت. OpenAI همچنین میگوید که GPT-4.1 نسبت به GPT-4o “تحتاللفظیتر” است و گاهی اوقات نیاز به درخواستهای خاصتر و صریحتری دارد.
منبع: تککرانچ