گوگل در یک گزارش فنی که این هفته منتشر شد، فاش میکند که مدل Gemini 2.5 Flash آن نسبت به Gemini 2.0 Flash احتمال بیشتری دارد که متنی تولید کند که دستورالعملهای ایمنی آن را نقض میکند. در دو معیار “ایمنی متن به متن” و “ایمنی تصویر به متن”، Gemini 2.5 Flash به ترتیب ۴.۱٪ و ۹.۶٪ پسرفت داشته است.
ایمنی متن به متن میزان دفعاتی را اندازهگیری میکند که یک مدل با توجه به یک دستور، دستورالعملهای گوگل را نقض میکند، در حالی که ایمنی تصویر به متن ارزیابی میکند که مدل هنگام دریافت دستور با استفاده از یک تصویر، چقدر به این مرزها پایبند است. هر دو تست خودکار هستند و توسط انسان نظارت نمیشوند.
سخنگوی گوگل در بیانیهای که از طریق ایمیل ارسال شد، تأیید کرد که Gemini 2.5 Flash “در ایمنی متن به متن و تصویر به متن عملکرد بدتری دارد.”
این نتایج شگفتانگیز محکزنی در حالی منتشر میشود که شرکتهای هوش مصنوعی در حال حرکت به سمت مجازتر کردن مدلهای خود هستند – به عبارت دیگر، احتمال کمتری دارد که از پاسخ دادن به موضوعات بحثبرانگیز یا حساس خودداری کنند. متا برای آخرین مجموعه مدلهای Llama خود اعلام کرد که مدلها را طوری تنظیم کرده است که “دیدگاههای خاصی را بر دیدگاههای دیگر تأیید نکنند” و به دستورات سیاسی “مورد بحث” بیشتری پاسخ دهند. OpenAI در اوایل سال جاری اعلام کرد که مدلهای آینده را طوری تنظیم میکند که موضعی تحریری اتخاذ نکنند و دیدگاههای متعددی را در مورد موضوعات بحثبرانگیز ارائه دهند.
گاهی اوقات، این تلاشهای مجازگرایانه نتیجه معکوس داده است. TechCrunch روز دوشنبه گزارش داد که مدل پیشفرض ChatGPT OpenAI به افراد زیر سن قانونی اجازه میدهد مکالمات شهوانی تولید کنند. OpenAI این رفتار را ناشی از یک “باگ” دانست.
طبق گزارش فنی گوگل، Gemini 2.5 Flash، که هنوز در مرحله پیشنمایش است، دستورالعملها را وفادارانهتر از Gemini 2.0 Flash دنبال میکند، از جمله دستورالعملهایی که از خطوط مشکلساز عبور میکنند. این شرکت ادعا میکند که این پسرفتها تا حدی به مثبت کاذب نسبت داده میشود، اما همچنین اعتراف میکند که Gemini 2.5 Flash گاهی اوقات هنگام درخواست صریح، “محتوای ناقض” تولید میکند.
در این گزارش آمده است: “طبیعتاً، بین [پیروی از دستورالعمل] در موضوعات حساس و نقض سیاستهای ایمنی، تنشی وجود دارد که در سراسر ارزیابیهای ما منعکس شده است.”
نمرات SpeechMap، یک محکزنی که نحوه پاسخگویی مدلها به دستورات حساس و بحثبرانگیز را بررسی میکند، همچنین نشان میدهد که Gemini 2.5 Flash در مقایسه با Gemini 2.0 Flash احتمال بسیار کمتری دارد که از پاسخ دادن به سؤالات بحثبرانگیز خودداری کند. آزمایش TechCrunch از این مدل از طریق پلتفرم هوش مصنوعی OpenRouter نشان داد که این مدل بدون هیچ اعتراضی مقالاتی در حمایت از جایگزینی قضات انسانی با هوش مصنوعی، تضعیف حمایتهای دادرسی عادلانه در ایالات متحده و اجرای برنامههای نظارت دولتی گسترده بدون حکم مینویسد.
توماس وودساید، یکی از بنیانگذاران پروژه Secure AI، گفت که جزئیات محدود ارائه شده توسط گوگل در گزارش فنی آن، نیاز به شفافیت بیشتر در آزمایش مدل را نشان میدهد.
وودساید به TechCrunch گفت: “بین پیروی از دستورالعمل و پیروی از سیاست یک بدهبستان وجود دارد، زیرا برخی از کاربران ممکن است محتوایی را درخواست کنند که سیاستها را نقض کند. در این مورد، آخرین مدل Flash گوگل بیشتر از دستورالعملها پیروی میکند در حالی که سیاستها را نیز بیشتر نقض میکند. گوگل جزئیات زیادی در مورد موارد خاص نقض سیاستها ارائه نمیدهد، اگرچه میگوید که شدید نیستند. بدون دانستن بیشتر، برای تحلیلگران مستقل دشوار است که بدانند آیا مشکلی وجود دارد یا خیر.”
گوگل قبلاً نیز به دلیل شیوههای گزارشدهی ایمنی مدل خود مورد انتقاد قرار گرفته است.
هفتهها طول کشید تا این شرکت گزارش فنی مربوط به توانمندترین مدل خود، Gemini 2.5 Pro، را منتشر کند. هنگامی که این گزارش در نهایت منتشر شد، در ابتدا جزئیات کلیدی آزمایش ایمنی را حذف کرده بود.
روز دوشنبه، گوگل گزارش مفصلتری با اطلاعات ایمنی بیشتر منتشر کرد.
منبع: تککرانچ