دو دانشمند برجسته علوم کامپیوتر جایزه تورینگ سال ۲۰۲۴ را برای فعالیتهایشان در زمینه یادگیری تقویتی دریافت کردهاند؛ شاخهای که در آن ماشینها از طریق رویکرد آزمونوخطای مبتنی بر پاداش یاد میگیرند و میتوانند خود را با محیطهای محدود یا پویا سازگار کنند.
اندرو جی. بارتو، استاد بازنشسته دانشگاه ماساچوست در امهرست، و ریچارد اس. ساتن، استاد دانشگاه آلبرتا، الگوریتمها و نظریههای کلیدی را از طریق مجموعهای برجسته از مقالات که از دهه ۱۹۸۰ آغاز شد، توسعه دادند. این شامل کار بر روی تکنیکی در یادگیری تقویتی به نام «یادگیری تفاوت زمانی» است؛ این دو نفر بعدها کتاب درسی دانشگاهی با عنوان «یادگیری تقویتی: مقدمهای» را منتشر کردند.
آلن تورینگ، ریاضیدان برجسته (که تصویرش در بالا آمده است) و کسی که جایزه تورینگ به نام او نامگذاری شده، در دهه ۱۹۵۰ مقالهای با عنوان «ماشینهای محاسباتی و هوش» منتشر کرد که در آن پرسیده بود آیا کامپیوترها میتوانند فکر کنند و به مفاهیم مشابهی درباره یادگیری از تجربه پرداخته بود.
در سالهای اخیر، یادگیری تقویتی پس از آن که گوگل دیپمایند از این تکنیک برای ساخت هوش مصنوعیای استفاده کرد که بهترین بازیکنان AlphaGo جهان را شکست داد، توجه بیشتری به خود جلب کرده است. همچنین در چند ماه گذشته، شرکت نوپای چینی دیپسیک با مدل استدلالی R1 خود که تحولآفرین بود، به سرخط خبرها راه یافت؛ این مدل به شدت بر یادگیری تقویتی تکیه داشت تا مدلهای پایهای مقرونبهصرفهتری ایجاد کند.

«جایزه نوبل علوم کامپیوتر»
جایزه تورینگ که توسط انجمن ماشینهای محاسباتی (ACM) اعطا میشود، اغلب بهعنوان «جایزه نوبل علوم کامپیوتر» شناخته شده است. با این حال، خود جایزه نوبل نیز بهتدریج وارد حوزه محاسبات، بهویژه هوش مصنوعی، شده است؛ سال گذشته، جف هینتون و جان هاپفیلد جایزه نوبل فیزیک را برای کارهایشان در زمینه اصول پایهای هوش مصنوعی دریافت کردند. اندکی پس از آن، دمیس حسابیس و جان جامپر از دیپمایند جایزه نوبل شیمی را برای کارشان روی AlphaFold به دست آوردند.
یانیس یوانیدیس، رئیس ACM، در بیانیهای مطبوعاتی گفت: «حوزههای پژوهشی از علوم شناختی و روانشناسی گرفته تا علوم اعصاب، الهامبخش توسعه یادگیری تقویتی بودهاند که پایهگذار برخی از مهمترین پیشرفتها در هوش مصنوعی شده و بینش عمیقتری درباره عملکرد مغز به ما داده است. کارهای بارتو و ساتن صرفاً یک پله موقتی که از آن عبور کردهایم نیست. یادگیری تقویتی همچنان در حال رشد است و پتانسیل بزرگی برای پیشرفتهای بیشتر در محاسبات و بسیاری از رشتههای دیگر ارائه میدهد. شایسته است که ما آنها را با معتبرترین جایزه در حوزه خودمان تجلیل کنیم.»
از دیگر پیشگامان برجسته هوش مصنوعی که جایزه تورینگ را دریافت کردهاند، میتوان به یان لکون، دانشمند ارشد هوش مصنوعی متا، اشاره کرد که در سال ۲۰۱۸ همراه با جف هینتون و یوشوا بنجیو برای کارهایشان روی شبکههای عصبی عمیق این جایزه را دریافت کردند.
بارتو و ساتن جایزه نقدی ۱ میلیون دلاری را که با حمایت گوگل فراهم شده است، با یکدیگر تقسیم خواهند کرد.