DeepSeek به یک ترند جهانی تبدیل شده است
آزمایشگاه هوش مصنوعی چینی DeepSeek این هفته پس از آنکه اپلیکیشن چتبات آن به صدر جدول اپ استور اپل رسید، وارد جریان اصلی اخبار فناوری شد. مدلهای هوش مصنوعی DeepSeek که با استفاده از روشهای بهینهسازی محاسباتی آموزش دیدهاند، باعث شدهاند که تحلیلگران وال استریت و متخصصان فناوری درباره توانایی آمریکا در حفظ برتری خود در رقابت هوش مصنوعی و همچنین پایداری تقاضا برای تراشههای هوش مصنوعی تردید کنند.
اما DeepSeek از کجا آمده و چگونه در مدت کوتاهی به شهرت جهانی دست یافته است؟
ریشههای تجاری DeepSeek
DeepSeek توسط شرکت High-Flyer Capital Management، یک صندوق پوشش ریسک (Hedge Fund) کمی در چین که از هوش مصنوعی برای تصمیمگیریهای معاملاتی خود استفاده میکند، پشتیبانی میشود.
این شرکت در سال ۲۰۱۵ توسط لیانگ ونفنگ (Liang Wenfeng)، یک علاقهمند به هوش مصنوعی، تأسیس شد. ونفنگ که گفته میشود از دوران دانشجویی در دانشگاه ژجیانگ به تجارت مالی علاقه داشت، در سال ۲۰۱۹ High-Flyer Capital Management را به عنوان یک صندوق سرمایهگذاری راهاندازی کرد که تمرکزش بر توسعه و استفاده از الگوریتمهای هوش مصنوعی در معاملات مالی بود.
در سال ۲۰۲۳، High-Flyer آزمایشگاه DeepSeek را به عنوان یک مرکز تحقیقاتی جداگانه برای توسعه ابزارهای هوش مصنوعی تأسیس کرد. این آزمایشگاه بهمرور به یک شرکت مستقل با نام DeepSeek تبدیل شد.
چالشها و رشد DeepSeek در دنیای هوش مصنوعی
از همان روزهای نخست، DeepSeek به ساخت دیتاسنترهای اختصاصی برای آموزش مدلهای خود پرداخت. اما مانند سایر شرکتهای هوش مصنوعی در چین، DeepSeek نیز تحت تأثیر تحریمهای صادراتی سختافزار توسط ایالات متحده قرار گرفته است.
برای آموزش یکی از جدیدترین مدلهای خود، این شرکت مجبور شد از تراشههای Nvidia H800 استفاده کند، که نسخهای کمقدرتتر از تراشه H100 است که برای شرکتهای آمریکایی در دسترس است.
با وجود این چالشها، DeepSeek همچنان به رشد خود ادامه میدهد و در حال تبدیلشدن به یکی از مهمترین بازیگران در دنیای هوش مصنوعی جهانی است.
تیم فنی DeepSeek: جوان و نوآور
گفته میشود که تیم فنی DeepSeek عمدتاً از افراد جوان تشکیل شده است. این شرکت بهطور تهاجمی اقدام به جذب محققان دکترای هوش مصنوعی از برترین دانشگاههای چین میکند. همچنین، طبق گزارش نیویورک تایمز، DeepSeek افرادی را که هیچ پیشزمینهای در علوم کامپیوتر ندارند نیز استخدام میکند تا فناوری آن بتواند درک بهتری از موضوعات متنوع داشته باشد.
مدلهای قدرتمند DeepSeek
DeepSeek اولین مجموعه مدلهای خود را با نامهای DeepSeek Coder، DeepSeek LLM و DeepSeek Chat در نوامبر ۲۰۲۳ معرفی کرد. اما تا بهار سال گذشته، زمانی که این استارتاپ مدلهای نسل جدید خود یعنی DeepSeek-V2 را عرضه کرد، توجه جدی صنعت هوش مصنوعی را به خود جلب نکرد.
DeepSeek-V2 که یک سیستم تحلیل متن و تصویر چندمنظوره است، در آزمونهای معیار هوش مصنوعی (benchmarks) عملکرد بالایی داشت و درعینحال هزینه اجرای آن بسیار کمتر از مدلهای مشابه بود. این مسئله باعث شد که رقبای داخلی DeepSeek مانند ByteDance و Alibaba قیمت استفاده از برخی مدلهای خود را کاهش دهند و برخی دیگر را کاملاً رایگان کنند.
DeepSeek-V3 که در دسامبر ۲۰۲۴ منتشر شد، اعتبار DeepSeek را بیش از پیش افزایش داد.
طبق تستهای داخلی DeepSeek، مدل DeepSeek V3 نهتنها از مدلهای متنباز قابل دانلود مانند Llama شرکت Meta بهتر عمل میکند، بلکه در برخی موارد از مدلهای بسته مانند GPT-4o شرکت OpenAI که فقط از طریق API قابلدسترسی هستند، عملکرد بهتری دارد.
مدل R1: یک مدل هوش مصنوعی استدلالی پیشرفته
یکی دیگر از مدلهای چشمگیر DeepSeek، مدل R1 است که یک مدل استدلالی (Reasoning Model) محسوب میشود. این مدل که در ژانویه ۲۰۲۵ عرضه شد، طبق ادعای DeepSeek، در آزمونهای کلیدی بهخوبی مدل o1 شرکت OpenAI عمل میکند.
برخلاف مدلهای سنتی، مدلهای استدلالی مانند R1 قادرند خودشان را بررسی و اصلاح کنند که این ویژگی به آنها کمک میکند خطاهای رایج در مدلهای هوش مصنوعی را کاهش دهند. البته این مدلها معمولاً چند ثانیه تا چند دقیقه بیشتر از مدلهای غیر استدلالی برای ارائه پاسخ نیاز دارند، اما در عوض دقت بیشتری در زمینههایی مانند فیزیک، علوم و ریاضیات دارند.
بااینحال، مدلهای R1 و DeepSeek V3 و دیگر مدلهای توسعهیافته توسط DeepSeek یک نقطهضعف کلیدی دارند:
ازآنجاییکه این مدلها در چین توسعهیافتهاند، باید تحت نظارت و آزمایش رگولاتورهای اینترنت چین قرار بگیرند تا اطمینان حاصل شود که پاسخهای آنها “ارزشهای اصلی سوسیالیستی” را منعکس میکند. بهعنوانمثال، در اپلیکیشن چتبات DeepSeek، مدل R1 از پاسخ به سؤالاتی درباره میدان تیانآنمن یا خودمختاری تایوان خودداری میکند.
رویکرد تجاری مخرب DeepSeek
اگر DeepSeek یک مدل تجاری دارد، هنوز مشخص نیست که این مدل دقیقاً چگونه کار میکند. این شرکت محصولات و خدمات خود را با قیمتی بسیار پایینتر از نرخ بازار ارائه میدهد و برخی از آنها را کاملاً رایگان عرضه میکند.
طبق گفتههای DeepSeek، پیشرفتهای بهینهسازی در کارایی به این شرکت اجازه داده است که هزینههای عملیاتی خود را بهشدت کاهش دهد و در بازار رقابتی باقی بماند. بااینحال، برخی از کارشناسان دقت این ادعاها را زیر سؤال بردهاند.
در هر صورت، توسعهدهندگان به مدلهای DeepSeek روی آوردهاند. این مدلها بهصورت متنباز در مفهوم سنتی آن منتشر نشدهاند، اما دارای مجوزهای باز تجاری هستند که اجازه استفاده در پروژههای تجاری را میدهند.
طبق گزارش کلم دلانگو، مدیرعامل Hugging Face (یکی از پلتفرمهای میزبان مدلهای DeepSeek)، تاکنون بیش از ۵۰۰ مدل مشتقشده از مدل R1 در Hugging Face ساخته شده که در مجموع ۲.۵ میلیون بار دانلود شدهاند.
چالش برای شرکتهای بزرگ و تأثیر بر بازار
DeepSeek توانسته است در برابر رقبای بزرگ و باسابقه به موفقیت برسد و برخی از تحلیلگران معتقدند که این شرکت در حال ایجاد تغییرات اساسی در دنیای هوش مصنوعی است.
موفقیت DeepSeek تأثیرات چشمگیری داشته است، از جمله:
- افت ۱۸ درصدی ارزش سهام Nvidia در روز دوشنبه، که بخشی از آن به دلیل رشد DeepSeek بوده است.
- واکنش علنی سام آلتمن، مدیرعامل OpenAI که نشاندهنده نگرانی شرکتهای غربی از پیشرفت DeepSeek است.
بااینحال، آینده DeepSeek همچنان نامشخص است. قطعاً این شرکت مدلهای پیشرفتهتری منتشر خواهد کرد، اما درعینحال، دولت آمریکا نسبت به توسعه فناوریهای هوش مصنوعی خارجی ابراز نگرانی کرده و ممکن است در آینده محدودیتهای جدیدی برای آن اعمال کند.
منبع: تککرانچ