خبر فوری
OpenAI مدل جدید «استدلالی» خود به نام O3-Mini را عرضه کرد
زمان مطالعه: 4 دقیقه
OpenAI مدل جدید «استدلالی» خود به نام O3-Mini را عرضه کرد
OpenAI مدل جدید «استدلالی» خود به نام O3-Mini را عرضه کرد
خبر فوری
OpenAI مدل جدید «استدلالی» خود به نام O3-Mini را عرضه کرد
زمان مطالعه: 4 دقیقه

OpenAI روز جمعه یک مدل جدید هوش مصنوعی با قابلیت «استدلال» به نام O3-Mini را معرفی کرد که جدیدترین مدل از خانواده مدل‌های استدلالی این شرکت محسوب می‌شود.

OpenAI اولین بار در ماه دسامبر این مدل را در کنار یک سیستم قدرتمندتر به نام O3 پیش‌نمایش کرد، اما این عرضه در لحظه‌ای حساس برای شرکت انجام می‌شود، در حالی که جاه‌طلبی‌ها و چالش‌های آن روز به روز در حال افزایش است.

OpenAI با این تصور که در رقابت هوش مصنوعی در حال عقب‌نشینی در برابر شرکت‌های چینی مانند DeepSeek است، مبارزه می‌کند. این شرکت ادعا می‌کند که DeepSeek ممکن است مالکیت فکری (IP) آن را سرقت کرده باشد. OpenAI در حال تلاش برای تقویت روابط خود با واشنگتن است، در حالی که همزمان یک پروژه بزرگ مرکز داده را دنبال می‌کند و ظاهراً در حال آماده‌سازی یکی از بزرگ‌ترین دورهای جذب سرمایه در تاریخ است.

این ماجرا ما را به O3-Mini می‌رساند. OpenAI مدل جدید خود را به‌عنوان مدلی «قدرتمند» و «مقرون‌به‌صرفه» معرفی کرده است.

سخنگوی OpenAI به TechCrunch گفت: «عرضه امروز […] گامی مهم در جهت افزایش دسترسی به هوش مصنوعی پیشرفته در راستای مأموریت ما است.»

استدلال کارآمدتر

برخلاف بیشتر مدل‌های زبانی بزرگ، مدل‌های استدلالی مانند O3-Mini قبل از ارائه نتایج، صحت اطلاعات خود را به‌طور دقیق بررسی می‌کنند. این ویژگی به آن‌ها کمک می‌کند تا از برخی خطاهایی که معمولاً مدل‌های دیگر دچار آن می‌شوند، اجتناب کنند. اگرچه این مدل‌های استدلالی زمان بیشتری برای رسیدن به پاسخ صرف می‌کنند، اما در عوض معمولاً در حوزه‌هایی مانند فیزیک قابل‌اعتمادتر هستند – هرچند که بی‌نقص نیستند.

O3-Mini برای حل مسائل STEM (علوم، فناوری، مهندسی و ریاضیات) به‌ویژه در زمینه برنامه‌نویسی، ریاضیات و علوم، بهینه‌سازی شده است. OpenAI ادعا می‌کند که این مدل از نظر قابلیت‌ها تا حد زیادی هم‌سطح خانواده O1، یعنی O1 و O1-Mini، است اما سرعت اجرای بالاتری دارد و هزینه کمتری را به همراه دارد.

این شرکت ادعا کرده است که آزمایش‌کنندگان خارجی پاسخ‌های O3-Mini را بیش از نیمی از مواقع به پاسخ‌های O1-Mini ترجیح داده‌اند. ظاهراً O3-Mini در آزمایش‌های A/B، در پاسخ به «سوالات دشوار دنیای واقعی» ۳۹٪ اشتباهات عمده کمتری نسبت به O1-Mini داشته و در عین حال، پاسخ‌های «واضح‌تری» ارائه داده است، در حالی که سرعت پاسخ‌گویی آن حدود ۲۴٪ سریع‌تر بوده است.

O3-Mini از روز جمعه برای همه کاربران از طریق ChatGPT در دسترس خواهد بود، اما کاربران طرح‌های پولی ChatGPT Plus و Team می‌توانند از نرخ محدودیت بالاتری تا ۱۵۰ پرسش در روز بهره ببرند. مشترکان ChatGPT Pro دسترسی نامحدود خواهند داشت و O3-Mini نیز ظرف یک هفته برای کاربران ChatGPT Enterprise و ChatGPT Edu عرضه خواهد شد. (هنوز خبری در مورد ChatGPT Gov منتشر نشده است).

کاربران با طرح‌های پولی می‌توانند O3-Mini را از طریق منوی کشویی ChatGPT انتخاب کنند. کاربران رایگان می‌توانند با کلیک یا ضربه زدن روی دکمه جدید «Reason» در نوار چت یا درخواست «تولید مجدد» پاسخ، از این مدل استفاده کنند.

از روز جمعه، O3-Mini همچنین از طریق API شرکت OpenAI برای توسعه‌دهندگان منتخب در دسترس خواهد بود، اما در ابتدا از تجزیه‌وتحلیل تصاویر پشتیبانی نخواهد کرد. توسعه‌دهندگان می‌توانند سطح «تلاش استدلالی» (پایین، متوسط یا بالا) را انتخاب کنند تا O3-Mini متناسب با نیازهای مورد استفاده و تأخیر پردازشی آن‌ها «تفکر عمیق‌تری» داشته باشد.

قیمت‌گذاری

هزینه O3-Mini برابر با ۰.۵۵ دلار به ازای هر یک میلیون توکن ورودی کش‌شده و ۴.۴۰ دلار به ازای هر یک میلیون توکن خروجی است. هر یک میلیون توکن تقریباً معادل ۷۵۰,۰۰۰ کلمه است. این قیمت ۶۳٪ ارزان‌تر از O1-Mini بوده و با مدل استدلالی R1 شرکت DeepSeek رقابت می‌کند. DeepSeek برای دسترسی به مدل R1 از طریق API، ۰.۱۴ دلار به ازای هر یک میلیون توکن ورودی کش‌شده و ۲.۱۹ دلار به ازای هر یک میلیون توکن خروجی دریافت می‌کند.

در ChatGPT، O3-Mini به‌طور پیش‌فرض روی سطح تلاش استدلالی «متوسط» تنظیم شده است که OpenAI آن را به‌عنوان «تعادلی بین سرعت و دقت» توصیف می‌کند. کاربران پولی می‌توانند گزینه «O3-Mini-High» را در انتخاب مدل فعال کنند، که OpenAI آن را به‌عنوان مدلی با «هوش بالاتر» توصیف کرده، البته با سرعت پردازش کندتر.

صرف‌نظر از نسخه‌ای که کاربران ChatGPT از O3-Mini انتخاب کنند، این مدل قابلیت جستجو را برای یافتن پاسخ‌های به‌روز همراه با لینک‌های منبع وب ارائه خواهد داد. OpenAI هشدار داده است که این قابلیت در حال حاضر «یک نمونه اولیه» است و این شرکت در حال کار بر روی یکپارچه‌سازی جستجو در مدل‌های استدلالی خود است.

چالش‌ها و محدودیت‌ها

O3-Mini قوی‌ترین مدل OpenAI تاکنون محسوب نمی‌شود و در همه معیارها از مدل R1 شرکت DeepSeek برتر نیست.

O3-Mini در آزمون AIME 2024، که توانایی مدل‌ها را در درک و پاسخ‌گویی به دستورات پیچیده ارزیابی می‌کند، مدل R1 را شکست می‌دهد—اما فقط در سطح تلاش استدلالی بالا. همچنین، در آزمون SWE-bench Verified که روی برنامه‌نویسی متمرکز است، تنها ۰.۱ امتیاز بالاتر از R1 کسب کرده است، آن هم فقط در سطح تلاش استدلالی بالا. در سطح تلاش پایین، O3-Mini از مدل R1 در آزمون GPQA Diamond، که شامل پرسش‌های فیزیک، زیست‌شناسی و شیمی در سطح دکترا است، عقب می‌ماند.

با این حال، O3-Mini بسیاری از پرسش‌ها را با هزینه و تأخیر رقابتی پاسخ می‌دهد. OpenAI عملکرد آن را با خانواده O1 مقایسه کرده و نوشته است:

«در سطح تلاش استدلالی پایین، O3-Mini عملکردی مشابه O1-Mini دارد. در سطح متوسط، O3-Mini عملکردی مشابه O1 دارد، اما پاسخ‌ها را سریع‌تر ارائه می‌دهد. در حالی که، در سطح تلاش استدلالی بالا، O3-Mini از هر دو مدل O1-Mini و O1 پیشی می‌گیرد.»

البته، برتری O3-Mini نسبت به O1 در برخی حوزه‌ها بسیار ناچیز است. به‌عنوان مثال، در آزمون AIME 2024، مدل O3-Mini در سطح تلاش بالا تنها ۰.۳ درصد بهتر از O1 عمل کرده است. همچنین، در آزمون GPQA Diamond، حتی در سطح تلاش استدلالی بالا، O3-Mini امتیاز بهتری نسبت به O1 کسب نکرده است.

با این حال، OpenAI ادعا دارد که O3-Mini از نظر «ایمنی» حداقل به اندازه مدل‌های خانواده O1 ایمن است، اگر نه ایمن‌تر. این شرکت از فرآیندهای «ارزیابی امنیتی» و «هم‌ترازی تعمدی» استفاده کرده است، که به مدل‌ها اجازه می‌دهد هنگام پاسخ‌گویی، سیاست‌های ایمنی OpenAI را نیز در نظر بگیرند. طبق ادعای OpenAI، O3-Mini در ارزیابی‌های دشوار مربوط به امنیت و مقابله با حملات Jailbreak عملکردی بهتر از مدل پرچم‌دار GPT-4o داشته است.

منبع: تک‌کرانچ

اشتراک گذاری:

آخرین مقالات پیشنهادی

دیدگاه‌ها

اشتراک در
اطلاع از
guest
0 Comments
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
دیتانید تو مراحل مختلف تحلیل داده می‌تونه به شما کمک کنه:
  1. امکان‌سنجی خواسته‌ها و تطبیق نیازمندی‌ها
  2. استخراج و تمیز کردن دادگان
  3. طراحی مدل‌های مناسب
  4. آموزش مدل براساس داده‌های به‌دست آمده
  5. استقرار مدل

آخرین اخبار

اخبار مشابه

Cursor یک اپلیکیشن وب برای مدیریت عوامل کدنویسی هوش مصنوعی راه‌اندازی می‌کند
شرکت سازنده Cursor، ویرایشگر کدنویسی هوش مصنوعی پرطرفدار، روز دوشنبه یک اپلیکیشن وب راه‌اندازی کرد که به کاربران امکان می‌دهد شبکه‌ای از عوامل کدنویسی
گوگل Doppl را راه‌اندازی کرد، یک اپلیکیشن جدید که به شما امکان می‌دهد تصور کنید یک لباس چگونه بر تنتان به نظر می‌رسد
گوگل روز پنجشنبه اعلام کرد که در حال راه‌اندازی یک اپلیکیشن آزمایشی جدید به نام Doppl است که از هوش مصنوعی برای تجسم نحوه نمایش لباس‌های مختلف ...
گوگل از Gemini CLI، یک ابزار هوش مصنوعی متن‌باز برای ترمینال‌ها رونمایی کرد
گوگل در حال راه‌اندازی یک ابزار هوش مصنوعی عاملی جدید است که مدل‌های هوش مصنوعی Gemini آن را به محل کدنویسی توسعه‌دهندگان نزدیک‌تر می‌کند...