مدلهای زبانی بزرگ اولیه تنها قادر به پردازش متن بودند، اما مدلهای زبانی بزرگ معاصر اکنون وظایف بسیار متنوعی را در دادههای مختلف انجام میدهند. به عنوان مثال، این مدلها میتوانند بسیاری از زبانها را درک کنند، کد کامپیوتری تولید کنند، مسائل ریاضی حل کنند یا به سوالات مربوط به تصاویر و صدا پاسخ دهند.
محققان MIT به بررسی عملکرد داخلی این مدلها پرداختهاند تا درک بهتری از نحوه پردازش دادههای مختلف توسط آنها پیدا کنند و شواهدی به دست آوردهاند که نشان میدهد این مدلها شباهتهایی با مغز انسان دارند.
عصبشناسان معتقدند که مغز انسان یک “هاب معنایی” در لوب گیجگاهی پیشین دارد که اطلاعات معنایی را از مودالیتهای مختلف، مانند دادههای بصری و ورودیهای لمسی، ادغام میکند. این هاب معنایی به “پرچمها” یا بخشهای خاصی از مودالیتهای مختلف متصل است که اطلاعات را به هاب میفرستند. محققان MIT دریافتند که مدلهای زبانی بزرگ از مکانیزم مشابهی استفاده میکنند و دادهها را از مودالیتهای مختلف به صورت مرکزی و عمومی پردازش میکنند. به عنوان مثال، مدلی که زبان اصلی آن انگلیسی است، برای پردازش ورودیها به زبان ژاپنی یا استدلال درباره مسائل ریاضی یا کد کامپیوتری، از زبان انگلیسی به عنوان واسطه مرکزی استفاده میکند. علاوه بر این، محققان نشان دادهاند که میتوانند با استفاده از متن به زبان اصلی مدل، در هاب معنایی آن مداخله کرده و خروجیهای آن را تغییر دهند، حتی زمانی که مدل در حال پردازش دادهها به زبانهای دیگر باشد.
این یافتهها میتواند به دانشمندان کمک کند تا مدلهای زبانی بزرگ آینده را بهتر آموزش دهند تا قادر به پردازش دادههای متنوع باشند.
زهاوفنگ وو، دانشجوی دکترای مهندسی برق و علوم کامپیوتر (EECS) و نویسنده اصلی مقاله، میگوید: “مدلهای زبانی بزرگ جعبههای سیاه بزرگی هستند. آنها عملکرد بسیار قابل توجهی داشتهاند، اما ما اطلاعات بسیار کمی درباره مکانیسمهای داخلی آنها داریم. امیدوارم این تحقیق اولین گام برای درک بهتر نحوه عملکرد آنها باشد تا بتوانیم آنها را بهبود دهیم و در مواقع نیاز بهتر کنترل کنیم.”
محققان از این تحقیق برای توسعه درک بهتری از نحوه پردازش دادههای متنوع توسط مدلهای زبانی بزرگ و کاربرد آن در مدلهای چندزبانه استفاده میکنند.
ادغام دادههای متنوع
محققان این مطالعه جدید را بر اساس کارهای قبلی که اشاره داشتند به مدلهای زبانی بزرگ با تمرکز بر زبان انگلیسی که برای انجام فرآیندهای استدلالی از زبان انگلیسی استفاده میکنند، بنا کردهاند.
وو و همکارانش این ایده را گسترش دادند و یک مطالعه دقیقتر در مورد مکانیزمهایی که مدلهای زبانی بزرگ برای پردازش دادههای متنوع استفاده میکنند، آغاز کردند.
یک مدل زبان بزرگ که از لایههای متعددی به هم متصل تشکیل شده است، متن ورودی را به کلمات یا زیرکلمات (توکنها) تقسیم میکند. مدل به هر توکن یک نمایش میدهد که به آن امکان میدهد روابط بین توکنها را کاوش کرده و کلمه بعدی را در یک دنباله تولید کند. در مورد تصاویر یا صدا، این توکنها به نواحی خاصی از تصویر یا بخشهایی از کلیپ صوتی مربوط میشوند.
محققان دریافتند که لایههای اولیه مدل دادهها را به زبان یا مودالیت خاص خود پردازش میکنند، مانند پرچمهای مودالیتی در مغز انسان. سپس، مدل توکنها را به نمایشهایی تبدیل میکند که مستقل از مودالیت هستند، همانطور که مغز اطلاعات مختلف را در هاب معنایی خود ادغام میکند.
مدل به ورودیهایی با معانی مشابه، صرف نظر از نوع داده، مانند تصاویر، صدا، کد کامپیوتری و مسائل ریاضی، نمایشهای مشابه اختصاص میدهد. حتی اگر یک تصویر و زیرنویس آن نوع داده متفاوتی باشند، چون معنای یکسانی دارند، مدل آنها را نمایشهای مشابهی اختصاص میدهد.
برای مثال، یک مدل زبان غالب انگلیسی “فکر میکند” که ورودی به زبان چینی را ابتدا به انگلیسی پردازش کند و سپس خروجی را به زبان چینی تولید کند. این مدل تمایل مشابهی برای استدلال درباره ورودیهای غیرمتنی مانند کد کامپیوتری، مسائل ریاضی یا حتی دادههای چندمدیایی دارد.
برای آزمایش این فرضیه، محققان جفت جملاتی با معانی مشابه ولی نوشته شده در دو زبان مختلف را از طریق مدل عبور دادند. سپس میزان شباهت نمایههای مدل را برای هر جمله اندازهگیری کردند.
استفاده از هاب معنایی
محققان معتقدند که مدلهای زبانی بزرگ ممکن است این استراتژی هاب معنایی را در طول آموزش یاد بگیرند زیرا این روش یک راه مقرون به صرفه برای پردازش دادههای متنوع است.
آنها همچنین سعی کردند با استفاده از متن به زبان انگلیسی در لایههای داخلی مدل وقتی که مدل در حال پردازش زبانهای دیگر بود، مداخله کنند. آنها دریافتند که میتوانند به طور پیشبینی شده خروجیهای مدل را تغییر دهند، حتی زمانی که این خروجیها به زبانهای دیگر بودند.
دانشمندان میتوانند از این پدیده برای تشویق مدل به اشتراکگذاری اطلاعات بیشتر بین دادههای مختلف استفاده کنند، که ممکن است به بهبود کارایی کمک کند.
از سوی دیگر، ممکن است مفاهیم یا دانشی وجود داشته باشد که قابل ترجمه بین زبانها یا نوع دادهها نباشد، مانند دانشی که مختص فرهنگ خاصی است. در این موارد، ممکن است دانشمندان بخواهند مدلها پردازشهای خاص زبان را برای آنها داشته باشند.
این تحقیق میتواند به بهبود مدلهای چندزبانه کمک کند و از تداخل زبانها جلوگیری کند.