OpenAI معتقد است که معیارهای هوش مصنوعی مشکل دارند. اکنون این شرکت برنامهای را برای اصلاح نحوه امتیازدهی مدلهای هوش مصنوعی راهاندازی میکند.
برنامه جدید پیشگامان OpenAI بر ایجاد ارزیابیهایی برای مدلهای هوش مصنوعی تمرکز خواهد داشت که به گفته OpenAI در یک پست وبلاگی، “معیاری برای کیفیت خوب تعیین میکنند”.
این شرکت در ادامه پست خود نوشت: “با تسریع روند پذیرش هوش مصنوعی در صنایع مختلف، نیاز به درک و بهبود تأثیر آن در جهان وجود دارد. ایجاد ارزیابیهای خاص دامنه یکی از راههای بهتر برای انعکاس موارد استفاده در دنیای واقعی است و به تیمها کمک میکند عملکرد مدل را در محیطهای عملی و پرمخاطره ارزیابی کنند.”
همانطور که بحث و جدل اخیر با معیار جمعسپاری شده LM Arena و مدل Maverick متا نشان میدهد، امروزه تشخیص دقیق تفاوت یک مدل با مدل دیگر دشوار است. بسیاری از معیارهای هوش مصنوعی که به طور گسترده استفاده میشوند، عملکرد را در وظایف مبهمی مانند حل مسائل ریاضی در سطح دکترا اندازهگیری میکنند. برخی دیگر قابل تقلب هستند یا به خوبی با ترجیحات اکثر مردم همخوانی ندارند.
OpenAI امیدوار است از طریق برنامه پیشگامان، معیارهایی را برای حوزههای خاص مانند حقوقی، مالی، بیمه، مراقبتهای بهداشتی و حسابداری ایجاد کند. این آزمایشگاه میگوید که در ماههای آینده با “چندین شرکت” برای طراحی معیارهای سفارشی همکاری خواهد کرد و در نهایت آن معیارها را به همراه ارزیابیهای “خاص صنعت” به طور عمومی به اشتراک خواهد گذاشت.
OpenAI در پست وبلاگی خود نوشت: “اولین گروه بر استارتاپهایی تمرکز خواهد کرد که به ایجاد پایههای برنامه پیشگامان OpenAI کمک خواهند کرد. ما در حال انتخاب تعدادی استارتاپ برای این گروه اولیه هستیم که هر کدام روی موارد استفاده کاربردی و ارزشمندی کار میکنند که هوش مصنوعی میتواند تأثیر واقعی در دنیای واقعی داشته باشد.”
OpenAI میگوید شرکتهای حاضر در این برنامه همچنین این فرصت را خواهند داشت که با تیم OpenAI برای بهبود مدل از طریق تنظیم دقیق تقویتی، تکنیکی که مدلها را برای مجموعه محدودی از وظایف بهینه میکند، همکاری کنند.
سوال بزرگ این است که آیا جامعه هوش مصنوعی از معیارهایی که ایجاد آنها توسط OpenAI تأمین مالی شده است استقبال خواهد کرد یا خیر. OpenAI قبلاً از تلاشهای معیارگذاری به لحاظ مالی حمایت کرده و ارزیابیهای خود را طراحی کرده است. اما همکاری با مشتریان برای انتشار تستهای هوش مصنوعی ممکن است به عنوان یک پل اخلاقی بیش از حد دور تلقی شود.
منبع: تککرانچ