OpenAI روز جمعه یک مدل جدید هوش مصنوعی با قابلیت «استدلال» به نام O3-Mini را معرفی کرد که جدیدترین مدل از خانواده مدلهای استدلالی این شرکت محسوب میشود.
OpenAI اولین بار در ماه دسامبر این مدل را در کنار یک سیستم قدرتمندتر به نام O3 پیشنمایش کرد، اما این عرضه در لحظهای حساس برای شرکت انجام میشود، در حالی که جاهطلبیها و چالشهای آن روز به روز در حال افزایش است.
OpenAI با این تصور که در رقابت هوش مصنوعی در حال عقبنشینی در برابر شرکتهای چینی مانند DeepSeek است، مبارزه میکند. این شرکت ادعا میکند که DeepSeek ممکن است مالکیت فکری (IP) آن را سرقت کرده باشد. OpenAI در حال تلاش برای تقویت روابط خود با واشنگتن است، در حالی که همزمان یک پروژه بزرگ مرکز داده را دنبال میکند و ظاهراً در حال آمادهسازی یکی از بزرگترین دورهای جذب سرمایه در تاریخ است.
این ماجرا ما را به O3-Mini میرساند. OpenAI مدل جدید خود را بهعنوان مدلی «قدرتمند» و «مقرونبهصرفه» معرفی کرده است.
سخنگوی OpenAI به TechCrunch گفت: «عرضه امروز […] گامی مهم در جهت افزایش دسترسی به هوش مصنوعی پیشرفته در راستای مأموریت ما است.»
استدلال کارآمدتر
برخلاف بیشتر مدلهای زبانی بزرگ، مدلهای استدلالی مانند O3-Mini قبل از ارائه نتایج، صحت اطلاعات خود را بهطور دقیق بررسی میکنند. این ویژگی به آنها کمک میکند تا از برخی خطاهایی که معمولاً مدلهای دیگر دچار آن میشوند، اجتناب کنند. اگرچه این مدلهای استدلالی زمان بیشتری برای رسیدن به پاسخ صرف میکنند، اما در عوض معمولاً در حوزههایی مانند فیزیک قابلاعتمادتر هستند – هرچند که بینقص نیستند.
O3-Mini برای حل مسائل STEM (علوم، فناوری، مهندسی و ریاضیات) بهویژه در زمینه برنامهنویسی، ریاضیات و علوم، بهینهسازی شده است. OpenAI ادعا میکند که این مدل از نظر قابلیتها تا حد زیادی همسطح خانواده O1، یعنی O1 و O1-Mini، است اما سرعت اجرای بالاتری دارد و هزینه کمتری را به همراه دارد.
این شرکت ادعا کرده است که آزمایشکنندگان خارجی پاسخهای O3-Mini را بیش از نیمی از مواقع به پاسخهای O1-Mini ترجیح دادهاند. ظاهراً O3-Mini در آزمایشهای A/B، در پاسخ به «سوالات دشوار دنیای واقعی» ۳۹٪ اشتباهات عمده کمتری نسبت به O1-Mini داشته و در عین حال، پاسخهای «واضحتری» ارائه داده است، در حالی که سرعت پاسخگویی آن حدود ۲۴٪ سریعتر بوده است.
O3-Mini از روز جمعه برای همه کاربران از طریق ChatGPT در دسترس خواهد بود، اما کاربران طرحهای پولی ChatGPT Plus و Team میتوانند از نرخ محدودیت بالاتری تا ۱۵۰ پرسش در روز بهره ببرند. مشترکان ChatGPT Pro دسترسی نامحدود خواهند داشت و O3-Mini نیز ظرف یک هفته برای کاربران ChatGPT Enterprise و ChatGPT Edu عرضه خواهد شد. (هنوز خبری در مورد ChatGPT Gov منتشر نشده است).
کاربران با طرحهای پولی میتوانند O3-Mini را از طریق منوی کشویی ChatGPT انتخاب کنند. کاربران رایگان میتوانند با کلیک یا ضربه زدن روی دکمه جدید «Reason» در نوار چت یا درخواست «تولید مجدد» پاسخ، از این مدل استفاده کنند.
از روز جمعه، O3-Mini همچنین از طریق API شرکت OpenAI برای توسعهدهندگان منتخب در دسترس خواهد بود، اما در ابتدا از تجزیهوتحلیل تصاویر پشتیبانی نخواهد کرد. توسعهدهندگان میتوانند سطح «تلاش استدلالی» (پایین، متوسط یا بالا) را انتخاب کنند تا O3-Mini متناسب با نیازهای مورد استفاده و تأخیر پردازشی آنها «تفکر عمیقتری» داشته باشد.
قیمتگذاری
هزینه O3-Mini برابر با ۰.۵۵ دلار به ازای هر یک میلیون توکن ورودی کششده و ۴.۴۰ دلار به ازای هر یک میلیون توکن خروجی است. هر یک میلیون توکن تقریباً معادل ۷۵۰,۰۰۰ کلمه است. این قیمت ۶۳٪ ارزانتر از O1-Mini بوده و با مدل استدلالی R1 شرکت DeepSeek رقابت میکند. DeepSeek برای دسترسی به مدل R1 از طریق API، ۰.۱۴ دلار به ازای هر یک میلیون توکن ورودی کششده و ۲.۱۹ دلار به ازای هر یک میلیون توکن خروجی دریافت میکند.
در ChatGPT، O3-Mini بهطور پیشفرض روی سطح تلاش استدلالی «متوسط» تنظیم شده است که OpenAI آن را بهعنوان «تعادلی بین سرعت و دقت» توصیف میکند. کاربران پولی میتوانند گزینه «O3-Mini-High» را در انتخاب مدل فعال کنند، که OpenAI آن را بهعنوان مدلی با «هوش بالاتر» توصیف کرده، البته با سرعت پردازش کندتر.
صرفنظر از نسخهای که کاربران ChatGPT از O3-Mini انتخاب کنند، این مدل قابلیت جستجو را برای یافتن پاسخهای بهروز همراه با لینکهای منبع وب ارائه خواهد داد. OpenAI هشدار داده است که این قابلیت در حال حاضر «یک نمونه اولیه» است و این شرکت در حال کار بر روی یکپارچهسازی جستجو در مدلهای استدلالی خود است.
چالشها و محدودیتها
O3-Mini قویترین مدل OpenAI تاکنون محسوب نمیشود و در همه معیارها از مدل R1 شرکت DeepSeek برتر نیست.
O3-Mini در آزمون AIME 2024، که توانایی مدلها را در درک و پاسخگویی به دستورات پیچیده ارزیابی میکند، مدل R1 را شکست میدهد—اما فقط در سطح تلاش استدلالی بالا. همچنین، در آزمون SWE-bench Verified که روی برنامهنویسی متمرکز است، تنها ۰.۱ امتیاز بالاتر از R1 کسب کرده است، آن هم فقط در سطح تلاش استدلالی بالا. در سطح تلاش پایین، O3-Mini از مدل R1 در آزمون GPQA Diamond، که شامل پرسشهای فیزیک، زیستشناسی و شیمی در سطح دکترا است، عقب میماند.
با این حال، O3-Mini بسیاری از پرسشها را با هزینه و تأخیر رقابتی پاسخ میدهد. OpenAI عملکرد آن را با خانواده O1 مقایسه کرده و نوشته است:
«در سطح تلاش استدلالی پایین، O3-Mini عملکردی مشابه O1-Mini دارد. در سطح متوسط، O3-Mini عملکردی مشابه O1 دارد، اما پاسخها را سریعتر ارائه میدهد. در حالی که، در سطح تلاش استدلالی بالا، O3-Mini از هر دو مدل O1-Mini و O1 پیشی میگیرد.»
البته، برتری O3-Mini نسبت به O1 در برخی حوزهها بسیار ناچیز است. بهعنوان مثال، در آزمون AIME 2024، مدل O3-Mini در سطح تلاش بالا تنها ۰.۳ درصد بهتر از O1 عمل کرده است. همچنین، در آزمون GPQA Diamond، حتی در سطح تلاش استدلالی بالا، O3-Mini امتیاز بهتری نسبت به O1 کسب نکرده است.
با این حال، OpenAI ادعا دارد که O3-Mini از نظر «ایمنی» حداقل به اندازه مدلهای خانواده O1 ایمن است، اگر نه ایمنتر. این شرکت از فرآیندهای «ارزیابی امنیتی» و «همترازی تعمدی» استفاده کرده است، که به مدلها اجازه میدهد هنگام پاسخگویی، سیاستهای ایمنی OpenAI را نیز در نظر بگیرند. طبق ادعای OpenAI، O3-Mini در ارزیابیهای دشوار مربوط به امنیت و مقابله با حملات Jailbreak عملکردی بهتر از مدل پرچمدار GPT-4o داشته است.
منبع: تککرانچ