خبر
مثل مغز انسان‌ها، مدل‌های زبانی بزرگ به صورت کلی و عمومی به داده‌های مختلف فکر می‌کنند
زمان مطالعه: 4 دقیقه
مثل مغز انسان‌ها، مدل‌های زبان بزرگ به صورت کلی و عمومی به داده‌های مختلف فکر می‌کنند
مثل مغز انسان‌ها، مدل‌های زبان بزرگ به صورت کلی و عمومی به داده‌های مختلف فکر می‌کنند
خبر
مثل مغز انسان‌ها، مدل‌های زبانی بزرگ به صورت کلی و عمومی به داده‌های مختلف فکر می‌کنند
زمان مطالعه: 4 دقیقه

مدل‌های زبانی بزرگ اولیه تنها قادر به پردازش متن بودند، اما مدل‌های زبانی بزرگ معاصر اکنون وظایف بسیار متنوعی را در داده‌های مختلف انجام می‌دهند. به عنوان مثال، این مدل‌ها می‌توانند بسیاری از زبان‌ها را درک کنند، کد کامپیوتری تولید کنند، مسائل ریاضی حل کنند یا به سوالات مربوط به تصاویر و صدا پاسخ دهند.

محققان MIT به بررسی عملکرد داخلی این مدل‌ها پرداخته‌اند تا درک بهتری از نحوه پردازش داده‌های مختلف توسط آن‌ها پیدا کنند و شواهدی به دست آورده‌اند که نشان می‌دهد این مدل‌ها شباهت‌هایی با مغز انسان دارند.

عصب‌شناسان معتقدند که مغز انسان یک “هاب معنایی” در لوب گیجگاهی پیشین دارد که اطلاعات معنایی را از مودالیت‌های مختلف، مانند داده‌های بصری و ورودی‌های لمسی، ادغام می‌کند. این هاب معنایی به “پرچم‌ها” یا بخش‌های خاصی از مودالیت‌های مختلف متصل است که اطلاعات را به هاب می‌فرستند. محققان MIT دریافتند که مدل‌های زبانی بزرگ از مکانیزم مشابهی استفاده می‌کنند و داده‌ها را از مودالیت‌های مختلف به صورت مرکزی و عمومی پردازش می‌کنند. به عنوان مثال، مدلی که زبان اصلی آن انگلیسی است، برای پردازش ورودی‌ها به زبان ژاپنی یا استدلال درباره مسائل ریاضی یا کد کامپیوتری، از زبان انگلیسی به عنوان واسطه مرکزی استفاده می‌کند. علاوه بر این، محققان نشان داده‌اند که می‌توانند با استفاده از متن به زبان اصلی مدل، در هاب معنایی آن مداخله کرده و خروجی‌های آن را تغییر دهند، حتی زمانی که مدل در حال پردازش داده‌ها به زبان‌های دیگر باشد.

این یافته‌ها می‌تواند به دانشمندان کمک کند تا مدل‌های زبانی بزرگ آینده را بهتر آموزش دهند تا قادر به پردازش داده‌های متنوع باشند.

زهاوفنگ وو، دانشجوی دکترای مهندسی برق و علوم کامپیوتر (EECS) و نویسنده اصلی مقاله، می‌گوید: “مدل‌های زبانی بزرگ جعبه‌های سیاه بزرگی هستند. آن‌ها عملکرد بسیار قابل توجهی داشته‌اند، اما ما اطلاعات بسیار کمی درباره مکانیسم‌های داخلی آن‌ها داریم. امیدوارم این تحقیق اولین گام برای درک بهتر نحوه عملکرد آن‌ها باشد تا بتوانیم آن‌ها را بهبود دهیم و در مواقع نیاز بهتر کنترل کنیم.”

محققان از این تحقیق برای توسعه درک بهتری از نحوه پردازش داده‌های متنوع توسط مدل‌های زبانی بزرگ و کاربرد آن در مدل‌های چندزبانه استفاده می‌کنند.

ادغام داده‌های متنوع

محققان این مطالعه جدید را بر اساس کارهای قبلی که اشاره داشتند به مدل‌های زبانی بزرگ با تمرکز بر زبان انگلیسی که برای انجام فرآیندهای استدلالی از زبان انگلیسی استفاده می‌کنند، بنا کرده‌اند.

وو و همکارانش این ایده را گسترش دادند و یک مطالعه دقیق‌تر در مورد مکانیزم‌هایی که مدل‌های زبانی بزرگ برای پردازش داده‌های متنوع استفاده می‌کنند، آغاز کردند.

یک مدل زبان بزرگ که از لایه‌های متعددی به هم متصل تشکیل شده است، متن ورودی را به کلمات یا زیرکلمات (توکن‌ها) تقسیم می‌کند. مدل به هر توکن یک نمایش می‌دهد که به آن امکان می‌دهد روابط بین توکن‌ها را کاوش کرده و کلمه بعدی را در یک دنباله تولید کند. در مورد تصاویر یا صدا، این توکن‌ها به نواحی خاصی از تصویر یا بخش‌هایی از کلیپ صوتی مربوط می‌شوند.

محققان دریافتند که لایه‌های اولیه مدل داده‌ها را به زبان یا مودالیت خاص خود پردازش می‌کنند، مانند پرچم‌های مودالیتی در مغز انسان. سپس، مدل توکن‌ها را به نمایش‌هایی تبدیل می‌کند که مستقل از مودالیت هستند، همانطور که مغز اطلاعات مختلف را در هاب معنایی خود ادغام می‌کند.

مدل به ورودی‌هایی با معانی مشابه، صرف نظر از نوع داده، مانند تصاویر، صدا، کد کامپیوتری و مسائل ریاضی، نمایش‌های مشابه اختصاص می‌دهد. حتی اگر یک تصویر و زیرنویس آن نوع داده متفاوتی باشند، چون معنای یکسانی دارند، مدل آن‌ها را نمایش‌های مشابهی اختصاص می‌دهد.

برای مثال، یک مدل زبان غالب انگلیسی “فکر می‌کند” که ورودی به زبان چینی را ابتدا به انگلیسی پردازش کند و سپس خروجی را به زبان چینی تولید کند. این مدل تمایل مشابهی برای استدلال درباره ورودی‌های غیرمتنی مانند کد کامپیوتری، مسائل ریاضی یا حتی داده‌های چندمدیایی دارد.

برای آزمایش این فرضیه، محققان جفت جملاتی با معانی مشابه ولی نوشته شده در دو زبان مختلف را از طریق مدل عبور دادند. سپس میزان شباهت نمایه‌های مدل را برای هر جمله اندازه‌گیری کردند.

استفاده از هاب معنایی

محققان معتقدند که مدل‌های زبانی بزرگ ممکن است این استراتژی هاب معنایی را در طول آموزش یاد بگیرند زیرا این روش یک راه مقرون به صرفه برای پردازش داده‌های متنوع است.

آن‌ها همچنین سعی کردند با استفاده از متن به زبان انگلیسی در لایه‌های داخلی مدل وقتی که مدل در حال پردازش زبان‌های دیگر بود، مداخله کنند. آن‌ها دریافتند که می‌توانند به طور پیش‌بینی شده خروجی‌های مدل را تغییر دهند، حتی زمانی که این خروجی‌ها به زبان‌های دیگر بودند.

دانشمندان می‌توانند از این پدیده برای تشویق مدل به اشتراک‌گذاری اطلاعات بیشتر بین داده‌های مختلف استفاده کنند، که ممکن است به بهبود کارایی کمک کند.

از سوی دیگر، ممکن است مفاهیم یا دانشی وجود داشته باشد که قابل ترجمه بین زبان‌ها یا نوع داده‌ها نباشد، مانند دانشی که مختص فرهنگ خاصی است. در این موارد، ممکن است دانشمندان بخواهند مدل‌ها پردازش‌های خاص زبان را برای آن‌ها داشته باشند.

این تحقیق می‌تواند به بهبود مدل‌های چندزبانه کمک کند و از تداخل زبان‌ها جلوگیری کند.

منبع: اخبار MIT

اشتراک گذاری:

آخرین مقالات پیشنهادی

دیدگاه‌ها

اشتراک در
اطلاع از
guest
0 Comments
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
دیتانید تو مراحل مختلف تحلیل داده می‌تونه به شما کمک کنه:
  1. امکان‌سنجی خواسته‌ها و تطبیق نیازمندی‌ها
  2. استخراج و تمیز کردن دادگان
  3. طراحی مدل‌های مناسب
  4. آموزش مدل براساس داده‌های به‌دست آمده
  5. استقرار مدل

آخرین اخبار

اخبار مشابه

ظهور مدل‌های هوش مصنوعی «استدلال‌گر» باعث گران‌تر شدن معیارگذاری می‌شود
آزمایشگاه‌های هوش مصنوعی مانند OpenAI ادعا می‌کنند که مدل‌های هوش مصنوعی به اصطلاح "استدلال‌گر" آن‌ها، که می‌توانند مسائل را گام به گام "فکر" کنند ...
مثل مغز انسان‌ها، مدل‌های زبان بزرگ به صورت کلی و عمومی به داده‌های مختلف فکر می‌کنند
مدل‌های زبانی بزرگ اولیه تنها قادر به پردازش متن بودند، اما مدل‌های زبانی بزرگ معاصر اکنون وظایف بسیار متنوعی را در داده‌های مختلف انجام می‌دهند...