یک مدیر اجرایی متا روز دوشنبه شایعهای مبنی بر اینکه این شرکت مدلهای هوش مصنوعی جدید خود را برای ارائه خوب در معیارهای خاص تنظیم کرده و در عین حال نقاط ضعف مدلها را پنهان کرده است، رد کرد.
این مدیر اجرایی، احمد الدحله، معاون رئیس بخش هوش مصنوعی مولد در متا، در پستی در X گفت که اینکه متا مدلهای Llama 4 Maverick و Llama 4 Scout خود را روی “مجموعههای آزمایشی” آموزش داده است، “به سادگی درست نیست”. در معیارهای هوش مصنوعی، مجموعههای آزمایشی مجموعههایی از دادهها هستند که برای ارزیابی عملکرد یک مدل پس از آموزش آن استفاده میشوند. آموزش روی یک مجموعه آزمایشی میتواند به طور گمراهکنندهای امتیازات معیار یک مدل را افزایش دهد و مدل را تواناتر از آنچه واقعاً هست نشان دهد.
در طول آخر هفته، یک شایعه بیاساس مبنی بر اینکه متا به طور مصنوعی نتایج معیار مدلهای جدید خود را تقویت کرده است، در X و Reddit منتشر شد. به نظر میرسد این شایعه از پستی در یک سایت رسانه اجتماعی چینی از کاربری که ادعا میکرد در اعتراض به شیوههای معیارگیری این شرکت از متا استعفا داده است، نشأت گرفته باشد.
گزارشهایی مبنی بر اینکه Maverick و Scout در برخی وظایف عملکرد ضعیفی دارند، به این شایعه دامن زد، همانطور که تصمیم متا برای استفاده از یک نسخه آزمایشی و منتشر نشده از Maverick برای دستیابی به امتیازات بهتر در معیار LM Arena این کار را کرد. محققان در X تفاوتهای آشکاری را در رفتار Maverick قابل دانلود عمومی در مقایسه با مدلی که در LM Arena میزبانی میشود، مشاهده کردهاند.
الدحله اذعان داشت که برخی از کاربران “کیفیت متفاوتی” را از Maverick و Scout در میان ارائهدهندگان مختلف ابری که این مدلها را میزبانی میکنند، مشاهده میکنند.
الدحله گفت: “از آنجایی که ما مدلها را به محض آماده شدن منتشر کردیم، انتظار داریم چند روز طول بکشد تا تمام پیادهسازیهای عمومی تنظیم شوند. ما به کار بر روی رفع اشکالات و همکاری با شرکای خود ادامه خواهیم داد.”
منبع: تککرانچ