مطالعه‌ای از مایکروسافت نشان می‌دهد که مدل‌های هوش مصنوعی هنوز در رفع اشکالات نرم‌افزاری با مشکل مواجه هستند

خبر

زمان مطالعه: 3 دقیقه

علیرضا رحیمی
24 فروردین 1404
11:22

مطالعه‌ای از مایکروسافت نشان می‌دهد که مدل‌های هوش مصنوعی هنوز در رفع اشکالات نرم‌افزاری با مشکل مواجه هستند

خبر

زمان مطالعه: 3 دقیقه

علیرضا رحیمی
24 فروردین 1404
11:22

مطالعه مایکروسافت نشان می‌دهد که مدل‌های هوش مصنوعی هنوز در رفع اشکالات نرم‌افزاری با مشکل مواجه هستند.

مدل‌های هوش مصنوعی از OpenAI، Anthropic و دیگر آزمایشگاه‌های برتر هوش مصنوعی به طور فزاینده‌ای برای کمک به وظایف برنامه‌نویسی مورد استفاده قرار می‌گیرند. ساندار پیچای، مدیرعامل گوگل، در ماه اکتبر گفت که ۲۵ درصد از کد جدید در این شرکت توسط هوش مصنوعی تولید می‌شود، و مارک زاکربرگ، مدیرعامل متا، نیز تمایلات خود را برای استقرار گسترده مدل‌های کدنویسی هوش مصنوعی در این غول رسانه‌های اجتماعی ابراز کرده است.

با این حال، حتی برخی از بهترین مدل‌های امروزی نیز برای رفع اشکالات نرم‌افزاری که برای توسعه‌دهندگان باتجربه مشکلی ایجاد نمی‌کند، با مشکل مواجه هستند.

یک مطالعه جدید از Microsoft Research، بخش تحقیق و توسعه مایکروسافت، نشان می‌دهد که مدل‌ها، از جمله Claude 3.7 Sonnet از Anthropic و o3-mini از OpenAI، در رفع بسیاری از مشکلات در یک معیار ارزیابی توسعه نرم‌افزار به نام SWE-bench Lite با شکست مواجه می‌شوند. این نتایج یادآوری هشیارانه‌ای است که علی‌رغم اظهارات جسورانه شرکت‌هایی مانند OpenAI، هوش مصنوعی هنوز در زمینه‌هایی مانند کدنویسی حریف متخصصان انسانی نیست.

نویسندگان مشترک این مطالعه نه مدل مختلف را به عنوان ستون فقرات یک “عامل مبتنی بر یک دستور” آزمایش کردند که به تعدادی از ابزارهای اشکال‌زدایی، از جمله یک اشکال‌زدای پایتون، دسترسی داشت. آن‌ها این عامل را موظف به حل یک مجموعه انتخاب شده از ۳۰۰ وظیفه اشکال‌زدایی نرم‌افزار از SWE-bench Lite کردند.

به گفته نویسندگان مشترک، حتی زمانی که عامل آن‌ها به مدل‌های قوی‌تر و جدیدتر مجهز بود، به ندرت بیش از نیمی از وظایف اشکال‌زدایی را با موفقیت به پایان رساند. Claude 3.7 Sonnet بالاترین نرخ موفقیت متوسط (۴۸.۴%) را داشت، و پس از آن o1 OpenAI (30.2%) و o3-mini (22.1%) قرار داشتند.

نمودار مقایسه مدل ها — نموداری از این مطالعه. عبارت “افزایش نسبی” به بهبودی اشاره دارد که مدل‌ها با تجهیز شدن به ابزارهای اشکال‌زدایی به دست آوردند. منبع تصویر: مایکروسافت

چرا عملکرد ناامیدکننده بود؟ برخی از مدل‌ها در استفاده از ابزارهای اشکال‌زدایی موجود و درک اینکه چگونه ابزارهای مختلف ممکن است در حل مشکلات مختلف کمک کنند، مشکل داشتند. با این حال، مشکل بزرگتر، به گفته نویسندگان مشترک، کمبود داده بود. آن‌ها حدس می‌زنند که داده کافی که نشان‌دهنده “فرآیندهای تصمیم‌گیری متوالی” – یعنی ردیابی‌های اشکال‌زدایی انسانی – باشد، در داده‌های آموزشی مدل‌های فعلی وجود ندارد.

نویسندگان مشترک در مطالعه خود نوشتند: “ما قویاً معتقدیم که آموزش یا تنظیم دقیق [مدل‌ها] می‌تواند آن‌ها را به اشکال‌زداهای تعاملی بهتری تبدیل کند. با این حال، این امر مستلزم داده‌های تخصصی برای انجام چنین آموزش مدلی است، به عنوان مثال، داده‌های مسیر که تعامل عوامل با یک اشکال‌زدا را برای جمع‌آوری اطلاعات لازم قبل از پیشنهاد رفع اشکال ثبت می‌کند.”

این یافته‌ها دقیقاً تکان‌دهنده نیستند. بسیاری از مطالعات نشان داده‌اند که هوش مصنوعی تولید کننده کد تمایل به معرفی آسیب‌پذیری‌های امنیتی و خطاها دارد، که ناشی از ضعف در زمینه‌هایی مانند توانایی درک منطق برنامه‌نویسی است. یک ارزیابی اخیر از Devin، یک ابزار محبوب کدنویسی هوش مصنوعی، نشان داد که این ابزار تنها می‌تواند سه مورد از ۲۰ تست برنامه‌نویسی را تکمیل کند.

اما کار مایکروسافت یکی از دقیق‌ترین بررسی‌ها در مورد یک حوزه مشکل‌ساز پایدار برای مدل‌ها است. احتمالاً اشتیاق سرمایه‌گذاران به ابزارهای کمکی کدنویسی مبتنی بر هوش مصنوعی را کاهش نخواهد داد، اما امیدواریم که توسعه‌دهندگان – و مافوق‌های آن‌ها – را به فکر فرو ببرد که آیا اجازه دهند هوش مصنوعی به تنهایی مسئولیت کدنویسی را بر عهده بگیرد یا خیر.

گفتنی است، تعداد فزاینده‌ای از رهبران فناوری با این تصور که هوش مصنوعی مشاغل کدنویسی را خودکار خواهد کرد، مخالفت کرده‌اند. بیل گیتس، بنیانگذار مایکروسافت، گفته است که معتقد است برنامه‌نویسی به عنوان یک حرفه ماندگار است. مدیرعامل Replit، امجد مساد، مدیرعامل Okta، تاد مک‌کینون، و مدیرعامل IBM، آرویند کریشنا نیز همین نظر را دارند.

منبع: تک‌کرانچ

برنامه نویسی با هوش مصنوعی، توسعه نرم‌افزار، چالش‌های هوش مصنوعی، مایکروسافت، هوش مصنوعی، یادگیری ماشین

اشتراک گذاری:

آخرین مقالات پیشنهادی

انواع یادگیری در شبکه‌های عصبی ژرف

مقدمه‌ای بر زندگی مصنوعی برای دوست‌داران هوش‌مصنوعی

قسمت دوم: چگونه کار می‌کنند؟ (فناوری‌های زیربنایی ماشین‌های خودران)

قسمت اول: ماشین‌های خودران، سفری به آینده‌ای بدون راننده

علیرضا رحیمی

دانشجوی دکتری کامپیوتر - هوش مصنوعی هستم. تخصص من در توسعه مدل‌های یادگیری ماشین و بهینه‌سازی جریان‌های کاری داده‌ها برای استخراج بینش‌های ارزشمند از داده‌های پیچیده است. علاقه‌مند به استفاده از هوش مصنوعی و مهندسی داده برای ایجاد راه‌حل‌های مقیاس‌پذیر جهت بهبود هوش تجاری و تصمیم‌گیری هستم.

مشاهده کلیه مقالات

دیدگاه‌ها

اشتراک در

0 Comments

قدیمی‌ترین

تازه‌ترین بیشترین رأی

بازخورد (Feedback) های اینلاین

مشاهده همه دیدگاه ها

دیتانید تو مراحل مختلف تحلیل داده می‌تونه به شما کمک کنه:

امکان‌سنجی خواسته‌ها و تطبیق نیازمندی‌ها
استخراج و تمیز کردن دادگان
طراحی مدل‌های مناسب
آموزش مدل براساس داده‌های به‌دست آمده
استقرار مدل

آخرین اخبار

اخبار مشابه

Cursor یک اپلیکیشن وب برای مدیریت عوامل کدنویسی هوش مصنوعی راه‌اندازی می‌کند

شرکت سازنده Cursor، ویرایشگر کدنویسی هوش مصنوعی پرطرفدار، روز دوشنبه یک اپلیکیشن وب راه‌اندازی کرد که به کاربران امکان می‌دهد شبکه‌ای از عوامل کدنویسی