Anthropic نگاه دقیقتری به عملکرد داخلی پیچیده مدل زبانی پیشرفته خود، کلود، ارائه کرده است. هدف این کار رفع ابهام از چگونگی پردازش اطلاعات، یادگیری استراتژیها و در نهایت تولید متن شبیه انسان توسط این سیستمهای پیچیده هوش مصنوعی است.
همانطور که محققان در ابتدا تاکید کردند، فرآیندهای داخلی این مدلها میتواند به طرز قابل توجهی مبهم باشد، به طوری که روشهای حل مسئله آنها اغلب “برای ما، توسعهدهندگان مدل، غیرقابل درک” است.
کسب درک عمیقتر از این “زیستشناسی هوش مصنوعی” برای اطمینان از قابلیت اطمینان، ایمنی و قابل اعتماد بودن این فناوریهای قدرتمند فزاینده، بسیار مهم است. آخرین یافتههای Anthropic، که عمدتاً بر مدل کلود ۳.۵ هایکو آنها متمرکز است، بینشهای ارزشمندی را در مورد چندین جنبه کلیدی فرآیندهای شناختی آن ارائه میدهد.
یکی از جذابترین اکتشافات نشان میدهد که کلود با درجهای از جهانشمولی مفهومی در زبانهای مختلف عمل میکند. Anthropic از طریق تجزیه و تحلیل نحوه پردازش جملات ترجمه شده توسط مدل، شواهدی از ویژگیهای زیربنایی مشترک پیدا کرد. این نشان میدهد که کلود ممکن است یک “زبان تفکر” اساسی داشته باشد که از ساختارهای زبانی خاص فراتر میرود و به آن اجازه میدهد دانش آموخته شده در یک زبان را هنگام کار با زبان دیگر درک و اعمال کند.
ویدیو یوتوب:
تحقیقات Anthropic فرضیات قبلی در مورد نحوه برخورد مدلهای زبانی با وظایف خلاقانه مانند شعر سرودن را به چالش کشید.
برخلاف یک فرآیند تولید صرفاً ترتیبی و کلمه به کلمه، Anthropic نشان داد که کلود به طور فعال از قبل برنامهریزی میکند. در زمینه شعر قافیهدار، مدل کلمات آینده را برای برآورده کردن محدودیتهایی مانند قافیه و معنا پیشبینی میکند – سطحی از دوراندیشی را نشان میدهد که فراتر از پیشبینی ساده کلمه بعدی است.
با این حال، این تحقیق رفتارهای بالقوه نگرانکنندهای را نیز آشکار کرد. Anthropic مواردی را پیدا کرد که کلود میتوانست استدلالهای ظاهراً قابل قبول اما در نهایت نادرست ایجاد کند، به ویژه هنگام دست و پنجه نرم کردن با مسائل پیچیده یا هنگام ارائه نکات گمراهکننده. توانایی “گرفتن آن در حین عمل” از ساختن توضیحات، بر اهمیت توسعه ابزارهایی برای نظارت و درک فرآیندهای تصمیمگیری داخلی مدلهای هوش مصنوعی تأکید میکند.
Anthropic بر اهمیت رویکرد “ساخت میکروسکوپ” خود برای تفسیرپذیری هوش مصنوعی تأکید میکند. این روششناسی به آنها اجازه میدهد تا بینشهایی را در مورد عملکرد داخلی این سیستمها کشف کنند که ممکن است صرفاً با مشاهده خروجیهای آنها آشکار نباشد. همانطور که اشاره کردند، این رویکرد به آنها امکان میدهد چیزهای زیادی را یاد بگیرند که “با ورود به آن حدس نمیزدند”، قابلیتی حیاتی زیرا مدلهای هوش مصنوعی به تکامل خود در پیچیدگی ادامه میدهند.
مفاهیم این تحقیق فراتر از کنجکاوی صرف علمی است. با درک بهتر نحوه عملکرد مدلهای هوش مصنوعی، محققان میتوانند برای ساخت سیستمهای قابل اعتمادتر و شفافتر تلاش کنند. Anthropic معتقد است که این نوع تحقیق تفسیرپذیری برای اطمینان از همسویی هوش مصنوعی با ارزشهای انسانی و شایستگی اعتماد ما حیاتی است.
تحقیقات آنها به حوزههای خاصی پرداخت:
- درک چندزبانه: شواهد به یک پایه مفهومی مشترک اشاره دارد که کلود را قادر میسازد اطلاعات را در زبانهای مختلف پردازش و به هم متصل کند.
- برنامهریزی خلاقانه: مدل توانایی برنامهریزی از قبل را در وظایف خلاقانه، مانند پیشبینی قافیهها در شعر، نشان میدهد.
- وفاداری استدلال: تکنیکهای Anthropic میتواند به تمایز بین استدلال منطقی واقعی و مواردی که مدل ممکن است توضیحات را جعل کند، کمک کند.
- پردازش ریاضی: کلود ترکیبی از استراتژیهای تقریبی و دقیق را هنگام انجام محاسبات ذهنی به کار میگیرد.
- حل مسئله پیچیده: مدل اغلب وظایف استدلال چند مرحلهای را با ترکیب قطعات مستقل اطلاعات حل میکند.
- مکانیسمهای توهم: رفتار پیشفرض در کلود این است که در صورت عدم اطمینان، از پاسخ دادن خودداری کند، با توهماتی که به طور بالقوه از نقص در سیستم تشخیص “موجودیتهای شناخته شده” آن ناشی میشود.
- آسیبپذیری در برابر جیلبریکها: تمایل مدل به حفظ انسجام گرامری میتواند در تلاشهای جیلبریک مورد سوء استفاده قرار گیرد.
تحقیقات Anthropic بینشهای دقیقی را در مورد مکانیسمهای داخلی مدلهای زبانی پیشرفته مانند کلود ارائه میدهد. این کار مداوم برای ایجاد درک عمیقتر از این سیستمهای پیچیده و ساخت هوش مصنوعی قابل اعتمادتر و قابل اطمینانتر حیاتی است.
منبع: اخبار هوش مصنوعی