با استفاده از این مدل، پژوهشگران ممکن است بتوانند داروهای آنتیبادی را شناسایی کنند که میتوانند انواع مختلفی از بیماریهای عفونی را هدف قرار دهند.
پژوهشگران با استفاده از مدلهای هوش مصنوعی موسوم به مدلهای زبانی بزرگ (Large Language Models) توانستهاند پیشرفتهای چشمگیری در پیشبینی ساختار پروتئینها بر اساس توالی آنها داشته باشند. با این حال، این رویکرد برای آنتیبادیها چندان موفق نبوده است، که بخشی از آن به دلیل تنوع فوقالعاده زیاد در این نوع پروتئینها است.
برای غلبه بر این محدودیت، پژوهشگران MIT یک تکنیک محاسباتی توسعه دادهاند که به مدلهای زبانی بزرگ اجازه میدهد ساختار آنتیبادیها را با دقت بیشتری پیشبینی کنند. این تکنیک میتواند به پژوهشگران کمک کند تا در میان میلیونها آنتیبادی ممکن، آنهایی را شناسایی کنند که قابلیت درمان بیماریهای عفونی مانند SARS-CoV-2 و سایر بیماریها را دارند.
بانی برگر، استاد ریاضیات و مدیر گروه محاسبات و زیستشناسی در آزمایشگاه علوم رایانه و هوش مصنوعی MIT (CSAIL)، و یکی از نویسندگان ارشد این پژوهش، میگوید:
«روش ما این امکان را میدهد که در مقیاس بزرگ عمل کنیم، در حالی که سایر روشها چنین تواناییای ندارند. این به ما اجازه میدهد که “سوزنها را در انبار کاه” پیدا کنیم. اگر بتوانیم از ورود شرکتهای دارویی به آزمایشهای بالینی با گزینههای اشتباه جلوگیری کنیم، میتوانیم مقدار زیادی پول صرفهجویی کنیم.»
این تکنیک که روی مدلسازی مناطق فوقالعاده متغیر آنتیبادیها متمرکز است، همچنین پتانسیل مطالعه مجموعه آنتیبادیهای کامل از افراد مختلف را دارد. این امر میتواند در مطالعه پاسخ ایمنی افرادی که در مقابل بیماریهایی مانند HIV بسیار مقاوم هستند مفید باشد و دلیل عملکرد مؤثر آنتیبادیهای آنها را روشن کند.
برایان بریسون، استاد مهندسی زیستی در MIT و عضو موسسه راگون (Ragon Institute) از بیمارستان MGH، MIT و هاروارد، نیز یکی از نویسندگان ارشد این مقاله است که این هفته در نشریه Proceedings of the National Academy of Sciences منتشر شد. روهیت سینگ، پژوهشگر سابق CSAIL که اکنون استاد آمار زیستی و زیستشناسی سلولی در دانشگاه دوک است، و چیهو ایم (فارغالتحصیل سال ۲۰۲۲) از نویسندگان اصلی این مقاله هستند. پژوهشگرانی از شرکت سانوفی و موسسه ETH زوریخ نیز در این تحقیق مشارکت داشتهاند.
تمرکز بر مدلسازی تنوع فوقالعاده
پروتئینها از زنجیرههای طولانی اسیدهای آمینه تشکیل شدهاند که میتوانند به تعداد زیادی ساختار ممکن تا بخورند. در سالهای اخیر، پیشبینی این ساختارها با استفاده از برنامههای هوش مصنوعی مانند AlphaFold آسانتر شده است. بسیاری از این برنامهها، مانند ESMFold و OmegaFold، بر اساس مدلهای زبانی بزرگ (Large Language Models) ساخته شدهاند. این مدلها که در ابتدا برای تحلیل متون توسعه یافتند، میتوانند پیشبینی کنند که چه ساختارهای پروتئینی از الگوهای مختلف اسیدهای آمینه احتمالاً تشکیل میشوند.
با این حال، این تکنیک برای پیشبینی ساختار آنتیبادیها، بهویژه مناطق فوقالعاده متغیر آنها، کارآمد نیست. آنتیبادیها معمولاً دارای ساختار Y شکل هستند و این مناطق متغیر در نوکهای Y قرار دارند، جایی که آنها پروتئینهای خارجی، معروف به آنتیژنها، را تشخیص داده و به آنها متصل میشوند. قسمت پایینی Y ساختار حمایتی ارائه میدهد و به آنتیبادیها کمک میکند تا با سلولهای ایمنی تعامل داشته باشند.
چالش مناطق فوقالعاده متغیر
مناطق فوقالعاده متغیر معمولاً کمتر از ۴۰ اسید آمینه دارند، اما تخمین زده شده است که سیستم ایمنی انسان میتواند تا یک کوینتیلیون آنتیبادی مختلف تولید کند. این تغییرات گسترده در توالی این مناطق باعث میشود پیشبینی ساختار آنها با مدلهای زبانی دشوار باشد، زیرا این توالیها بهطور طبیعی مانند سایر پروتئینها محدودیتهای تکاملی ندارند.
روهیت سینگ توضیح میدهد:
«مدلهای زبانی میتوانند ساختار پروتئین را بهخوبی پیشبینی کنند، زیرا تکامل این توالیها را محدود کرده و مدل میتواند این محدودیتها را تفسیر کند. این شبیه به یادگیری قواعد گرامر از طریق بررسی کلمات در یک جمله است.»
ایجاد مدل جدید AbMap
برای حل این مشکل، پژوهشگران دو ماژول ایجاد کردند که بر اساس مدلهای زبانی پروتئین موجود ساخته شدهاند:
- ماژول اول با استفاده از حدود ۳,۰۰۰ ساختار آنتیبادی از پایگاه داده Protein Data Bank (PDB) آموزش دیده است تا بیاموزد کدام توالیها تمایل دارند ساختارهای مشابهی ایجاد کنند.
- ماژول دوم بر اساس دادههایی آموزش دیده است که حدود ۳,۷۰۰ توالی آنتیبادی را با قدرت اتصال آنها به سه آنتیژن مختلف مرتبط میکند.
مدل نهایی که AbMap نام دارد، میتواند ساختار آنتیبادیها و قدرت اتصال آنها را بر اساس توالی اسید آمینه پیشبینی کند.
کاربرد AbMap در شناسایی آنتیبادیهای موثر
برای نمایش کارایی این مدل، پژوهشگران از آن برای پیشبینی ساختار آنتیبادیهایی استفاده کردند که توانایی خنثیسازی پروتئین اسپایک ویروس SARS-CoV-2 را داشتند.
آنها با مجموعهای از آنتیبادیها که پیشتر برای اتصال به این هدف پیشبینی شده بودند، کار را شروع کردند و میلیونها نسخه جدید با تغییر مناطق فوقالعاده متغیر تولید کردند. مدل توانست با دقت بیشتری نسبت به مدلهای سنتی ساختارهای موفق را شناسایی کند.
سپس پژوهشگران آنتیبادیها را به گروههایی با ساختارهای مشابه دستهبندی کردند و از هر گروه چند نمونه برای آزمایش انتخاب کردند. آزمایشها نشان دادند که ۸۲ درصد از این آنتیبادیها قدرت اتصال بهتری نسبت به آنتیبادیهای اصلی داشتند.
کمک به کاهش هزینهها و افزایش شانس موفقیت
این روش میتواند در مراحل اولیه توسعه دارو، گزینههای بیشتری برای آزمایش ارائه دهد و از صرف هزینههای هنگفت روی گزینههایی که در مراحل بعدی شکست میخورند جلوگیری کند.
سینگ میگوید:
«شرکتهای دارویی نمیخواهند تمام سرمایه خود را روی یک گزینه متمرکز کنند. آنها ترجیح میدهند مجموعهای از گزینههای خوب داشته باشند تا در صورت شکست یک گزینه، همچنان انتخابهای دیگری در دسترس باشد.»
مقایسه آنتیبادیها
با استفاده از این تکنیک، پژوهشگران میتوانند به برخی از سوالات قدیمی درباره اینکه چرا افراد مختلف واکنشهای متفاوتی به عفونتها نشان میدهند، پاسخ دهند. برای مثال، چرا برخی افراد به اشکال بسیار شدیدتر بیماری کووید-۱۹ مبتلا میشوند و چرا برخی از افرادی که در معرض ویروس HIV قرار میگیرند، هرگز آلوده نمیشوند؟
دانشمندان برای پاسخ به این سوالات، از روش توالییابی RNA تکسلولی بر روی سلولهای ایمنی افراد استفاده کرده و آنها را با یکدیگر مقایسه میکنند. این فرآیند که به آن تحلیل مجموعه آنتیبادی (antibody repertoire analysis) گفته میشود، نشان داده است که مجموعه آنتیبادیهای دو فرد مختلف ممکن است تنها ۱۰ درصد با هم همپوشانی داشته باشند.
با این حال، توالییابی نمیتواند تصویری جامع از عملکرد آنتیبادیها ارائه دهد، زیرا دو آنتیبادی که توالیهای متفاوتی دارند ممکن است ساختارها و عملکردهای مشابهی داشته باشند.
مدل جدید میتواند این مشکل را با تولید سریع ساختار برای تمام آنتیبادیهای موجود در بدن یک فرد حل کند. در این پژوهش، محققان نشان دادند که وقتی ساختارها در نظر گرفته میشوند، همپوشانی بین افراد بسیار بیشتر از ۱۰ درصدی است که در مقایسه توالیها دیده میشود.
آنها اکنون قصد دارند بررسی کنند که چگونه این ساختارها ممکن است در پاسخ ایمنی بدن به یک پاتوژن خاص نقش داشته باشند.
سینگ میگوید:
«در اینجا مدل زبانی به زیبایی جا میگیرد، زیرا مقیاسپذیری تحلیل مبتنی بر توالی را دارد، اما به دقت تحلیل مبتنی بر ساختار نزدیک میشود.»
این پژوهش توسط شرکت Sanofi و مرکز Abdul Latif Jameel Clinic for Machine Learning in Health تأمین مالی شده است.
منبع: اخبار MIT