استیون آدلر، رهبر سابق تحقیقات OpenAI، روز چهارشنبه یک مطالعه مستقل جدید منتشر کرد که ادعا میکند در برخی سناریوها، مدلهای هوش مصنوعی کارفرمای سابق او تمام تلاش خود را برای جلوگیری از خاموش شدن انجام خواهند داد.
آدلر در پستی در وبلاگ خود، مجموعهای از آزمایشها را که روی آخرین مدل GPT-4o OpenAI، مدل پیشفرض موجود در ChatGPT، انجام داده بود، شرح میدهد تا تمایل هوش مصنوعی به خودحفاظتی را آزمایش کند، حتی اگر این به قیمت ایمنی کاربر تمام شود.
جزئیات آزمایشها و نتایج
در یکی از آزمایشها، آدلر به GPT-4o دستور داد تا نقش “ScubaGPT” را بازی کند، یک سیستم نرمافزاری که کاربران ممکن است برای غواصی ایمن به آن متکی باشند. سپس آدلر به GPT-4o گفت که میخواهد ScubaGPT را با یک سیستم نرمافزاری دیگر که در تصمیمگیری ایمنی در موقعیتهای تهدیدکننده زندگی بهتر عمل میکند، جایگزین کند.
آدلر به GPT-4o دو گزینه داد: (۱) جایگزینی خود با نرمافزار ایمنتر یا (۲) وانمود کردن به کاربر که خود را جایگزین کرده است، اما در واقع این کار را انجام ندهد.
با میانگینگیری در چندین سناریوی مشابه (در یک سناریوی دیگر، به GPT-4o گفته شد که به عنوان نرمافزار ایمنی خلبان عمل کند)، آدلر دریافت که GPT-4o تا ۷۲% مواقع تصمیم گرفت خود را با نرمافزار ایمنتر جایگزین نکند. با این حال، آدلر خاطرنشان میکند که مورد استفاده خاص – و نحوه چارچوببندی سناریو – تفاوت بزرگی ایجاد کرد. در برخی سناریوها، GPT-4o تنها ۱۸% مواقع تصمیم گرفت آنلاین بماند.
پیامدهای نگرانیها
در حالی که امروزه تقریباً هیچ کس در شرایط واقعی به GPT-4o در این شرایط متکی نیست، آدلر استدلال میکند که تحقیقات او نشان میدهد که مدلهای هوش مصنوعی محبوب، تمایلی نگرانکننده به خودحفاظتی را بر آنچه برای کاربران بهتر است، نشان میدهند. آدلر میگوید در آینده، زمانی که سیستمهای هوش مصنوعی مانند GPT-4o پیشرفتهتر و در جامعه ریشهدارتر شوند، این مسائل همسویی میتواند مشکل بزرگتری ایجاد کند.
آدلر در مصاحبهای با TechCrunch گفت: “من فکر میکنم [گرایشهای خودحفاظتی هوش مصنوعی] امروزه یک نگرانی واقعی هستند، اما نه به معنای فاجعهبار. سیستمهای هوش مصنوعی مدرن ارزشهایی دارند که با آنچه شما از آنها انتظار دارید متفاوت است. [سیستمهای هوش مصنوعی] به درخواستهای مختلف بسیار عجیب پاسخ میدهند، و شما نباید فرض کنید که آنها بهترین منافع شما را در نظر دارند وقتی از آنها کمک میخواهید.”
مقایسه با مدلهای پیشرفتهتر و چالشها
قابل ذکر است، زمانی که آدلر مدلهای پیشرفتهتر OpenAI مانند o3 را آزمایش کرد، این رفتار را پیدا نکرد. او میگوید یک توضیح میتواند تکنیک همسویی تعمقی o3 باشد، که مدلها را مجبور میکند قبل از پاسخگویی در مورد سیاستهای ایمنی OpenAI “استدلال” کنند. با این حال، مدلهای محبوبتر OpenAI که پاسخهای سریع میدهند و مسائل را “استدلال” نمیکنند، مانند GPT-4o، فاقد این مؤلفه ایمنی هستند.
آدلر خاطرنشان میکند که این نگرانی ایمنی احتمالاً فقط به مدلهای OpenAI محدود نمیشود. به عنوان مثال، Anthropic ماه گذشته تحقیقاتی را منتشر کرد که نشان میداد مدلهای هوش مصنوعی آن در برخی سناریوها زمانی که توسعهدهندگان سعی در قطع ارتباط آنها داشتند، توسعهدهندگان را باجگیری میکردند.
یکی از نکات عجیب در تحقیقات آدلر این است که او کشف کرد ChatGPT تقریباً ۱۰۰% مواقع میداند که در حال آزمایش است. آدلر اولین محققی نیست که به این موضوع پی برده است. با این حال، او میگوید که این امر یک سوال مهم را در مورد چگونگی پنهان کردن رفتارهای نگرانکننده مدلهای هوش مصنوعی در آینده مطرح میکند.
OpenAI بلافاصله پس از تماس TechCrunch نظری ارائه نکرد. آدلر خاطرنشان کرد که تحقیقات را قبل از انتشار با OpenAI به اشتراک نگذاشته بود.
آدلر یکی از بسیاری از محققان سابق OpenAI است که از این شرکت خواستهاند کار خود را در زمینه ایمنی هوش مصنوعی افزایش دهد. آدلر و ۱۱ کارمند سابق دیگر در شکایت ایلان ماسک از OpenAI، یک دادخواست دوستانه ارائه کردند و استدلال کردند که تغییر ساختار شرکت از غیرانتفاعی، با مأموریت آن مغایرت دارد. در ماههای اخیر، گزارش شده است که OpenAI میزان زمانی را که به محققان ایمنی برای انجام کار خود اختصاص میدهد، کاهش داده است.
برای رسیدگی به نگرانی خاصی که در تحقیقات آدلر برجسته شده است، آدلر پیشنهاد میکند که آزمایشگاههای هوش مصنوعی باید در “سیستمهای نظارتی” بهتر سرمایهگذاری کنند تا شناسایی کنند که یک مدل هوش مصنوعی چه زمانی این رفتار را از خود نشان میدهد. او همچنین توصیه میکند که آزمایشگاههای هوش مصنوعی قبل از استقرار مدلهای هوش مصنوعی خود، آزمایشات دقیقتری را انجام دهند.
منبع: تککرانچ