خبر
مطالعه‌ای از مایکروسافت نشان می‌دهد که مدل‌های هوش مصنوعی هنوز در رفع اشکالات نرم‌افزاری با مشکل مواجه هستند
زمان مطالعه: 3 دقیقه
مطالعه‌ای از مایکروسافت نشان می‌دهد که مدل‌های هوش مصنوعی هنوز در رفع اشکالات نرم‌افزاری با مشکل مواجه هستند
مطالعه‌ای از مایکروسافت نشان می‌دهد که مدل‌های هوش مصنوعی هنوز در رفع اشکالات نرم‌افزاری با مشکل مواجه هستند
خبر
مطالعه‌ای از مایکروسافت نشان می‌دهد که مدل‌های هوش مصنوعی هنوز در رفع اشکالات نرم‌افزاری با مشکل مواجه هستند
زمان مطالعه: 3 دقیقه

مطالعه مایکروسافت نشان می‌دهد که مدل‌های هوش مصنوعی هنوز در رفع اشکالات نرم‌افزاری با مشکل مواجه هستند.

مدل‌های هوش مصنوعی از OpenAI، Anthropic و دیگر آزمایشگاه‌های برتر هوش مصنوعی به طور فزاینده‌ای برای کمک به وظایف برنامه‌نویسی مورد استفاده قرار می‌گیرند. ساندار پیچای، مدیرعامل گوگل، در ماه اکتبر گفت که ۲۵ درصد از کد جدید در این شرکت توسط هوش مصنوعی تولید می‌شود، و مارک زاکربرگ، مدیرعامل متا، نیز تمایلات خود را برای استقرار گسترده مدل‌های کدنویسی هوش مصنوعی در این غول رسانه‌های اجتماعی ابراز کرده است.

با این حال، حتی برخی از بهترین مدل‌های امروزی نیز برای رفع اشکالات نرم‌افزاری که برای توسعه‌دهندگان باتجربه مشکلی ایجاد نمی‌کند، با مشکل مواجه هستند.

یک مطالعه جدید از Microsoft Research، بخش تحقیق و توسعه مایکروسافت، نشان می‌دهد که مدل‌ها، از جمله Claude 3.7 Sonnet از Anthropic و o3-mini از OpenAI، در رفع بسیاری از مشکلات در یک معیار ارزیابی توسعه نرم‌افزار به نام SWE-bench Lite با شکست مواجه می‌شوند. این نتایج یادآوری هشیارانه‌ای است که علی‌رغم اظهارات جسورانه شرکت‌هایی مانند OpenAI، هوش مصنوعی هنوز در زمینه‌هایی مانند کدنویسی حریف متخصصان انسانی نیست.

نویسندگان مشترک این مطالعه نه مدل مختلف را به عنوان ستون فقرات یک “عامل مبتنی بر یک دستور” آزمایش کردند که به تعدادی از ابزارهای اشکال‌زدایی، از جمله یک اشکال‌زدای پایتون، دسترسی داشت. آن‌ها این عامل را موظف به حل یک مجموعه انتخاب شده از ۳۰۰ وظیفه اشکال‌زدایی نرم‌افزار از SWE-bench Lite کردند.

به گفته نویسندگان مشترک، حتی زمانی که عامل آن‌ها به مدل‌های قوی‌تر و جدیدتر مجهز بود، به ندرت بیش از نیمی از وظایف اشکال‌زدایی را با موفقیت به پایان رساند. Claude 3.7 Sonnet بالاترین نرخ موفقیت متوسط (۴۸.۴%) را داشت، و پس از آن o1 OpenAI (30.2%) و o3-mini (22.1%) قرار داشتند.

نمودار مقایسه مدل ها
نموداری از این مطالعه. عبارت “افزایش نسبی” به بهبودی اشاره دارد که مدل‌ها با تجهیز شدن به ابزارهای اشکال‌زدایی به دست آوردند. منبع تصویر: مایکروسافت

چرا عملکرد ناامیدکننده بود؟ برخی از مدل‌ها در استفاده از ابزارهای اشکال‌زدایی موجود و درک اینکه چگونه ابزارهای مختلف ممکن است در حل مشکلات مختلف کمک کنند، مشکل داشتند. با این حال، مشکل بزرگتر، به گفته نویسندگان مشترک، کمبود داده بود. آن‌ها حدس می‌زنند که داده کافی که نشان‌دهنده “فرآیندهای تصمیم‌گیری متوالی” – یعنی ردیابی‌های اشکال‌زدایی انسانی – باشد، در داده‌های آموزشی مدل‌های فعلی وجود ندارد.

نویسندگان مشترک در مطالعه خود نوشتند: “ما قویاً معتقدیم که آموزش یا تنظیم دقیق [مدل‌ها] می‌تواند آن‌ها را به اشکال‌زداهای تعاملی بهتری تبدیل کند. با این حال، این امر مستلزم داده‌های تخصصی برای انجام چنین آموزش مدلی است، به عنوان مثال، داده‌های مسیر که تعامل عوامل با یک اشکال‌زدا را برای جمع‌آوری اطلاعات لازم قبل از پیشنهاد رفع اشکال ثبت می‌کند.”

این یافته‌ها دقیقاً تکان‌دهنده نیستند. بسیاری از مطالعات نشان داده‌اند که هوش مصنوعی تولید کننده کد تمایل به معرفی آسیب‌پذیری‌های امنیتی و خطاها دارد، که ناشی از ضعف در زمینه‌هایی مانند توانایی درک منطق برنامه‌نویسی است. یک ارزیابی اخیر از Devin، یک ابزار محبوب کدنویسی هوش مصنوعی، نشان داد که این ابزار تنها می‌تواند سه مورد از ۲۰ تست برنامه‌نویسی را تکمیل کند.

اما کار مایکروسافت یکی از دقیق‌ترین بررسی‌ها در مورد یک حوزه مشکل‌ساز پایدار برای مدل‌ها است. احتمالاً اشتیاق سرمایه‌گذاران به ابزارهای کمکی کدنویسی مبتنی بر هوش مصنوعی را کاهش نخواهد داد، اما امیدواریم که توسعه‌دهندگان – و مافوق‌های آن‌ها – را به فکر فرو ببرد که آیا اجازه دهند هوش مصنوعی به تنهایی مسئولیت کدنویسی را بر عهده بگیرد یا خیر.

گفتنی است، تعداد فزاینده‌ای از رهبران فناوری با این تصور که هوش مصنوعی مشاغل کدنویسی را خودکار خواهد کرد، مخالفت کرده‌اند. بیل گیتس، بنیانگذار مایکروسافت، گفته است که معتقد است برنامه‌نویسی به عنوان یک حرفه ماندگار است. مدیرعامل Replit، امجد مساد، مدیرعامل Okta، تاد مک‌کینون، و مدیرعامل IBM، آرویند کریشنا نیز همین نظر را دارند.

منبع: تک‌کرانچ

اشتراک گذاری:

آخرین مقالات پیشنهادی

دیدگاه‌ها

اشتراک در
اطلاع از
guest
0 Comments
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
دیتانید تو مراحل مختلف تحلیل داده می‌تونه به شما کمک کنه:
  1. امکان‌سنجی خواسته‌ها و تطبیق نیازمندی‌ها
  2. استخراج و تمیز کردن دادگان
  3. طراحی مدل‌های مناسب
  4. آموزش مدل براساس داده‌های به‌دست آمده
  5. استقرار مدل

آخرین اخبار

اخبار مشابه

مایکروسافت ابزار اسکرین‌شات هوش مصنوعی را با نام مستعار "کابوس حریم خصوصی" عرضه می‌کند
مایکروسافت عرضه ابزاری مبتنی بر هوش مصنوعی را آغاز کرده است که هر چند ثانیه یک بار از صفحه نمایش کاربران عکس می‌گیرد...
روش جدید قابلیت اطمینان گزارش‌های تشخیصی رادیولوژیست‌ها را ارزیابی و بهبود می‌بخشد
به دلیل ابهام ذاتی در تصاویر پزشکی مانند اشعه ایکس، رادیولوژیست‌ها اغلب هنگام توصیف وجود یک آسیب‌شناسی خاص، مانند ذات‌الریه، از کلماتی مانند "ممکن ..
فناوری Web3 به ایجاد اطمینان و اعتماد در هوش مصنوعی کمک می‌کند
وعده هوش مصنوعی این است که زندگی همه ما را آسان‌تر خواهد کرد. و با این سهولت بزرگ، پتانسیل سود جدی نیز به همراه می‌آید. سازمان ملل متحد تخمین ...