
موضوع چیست؟
بیایید به زبان ساده ببینیم چرا اختراعات هوش مصنوعی DeepSeek توسط چینیها جهان را شگفتزده کرده (و احتمالاً بازار ۲ تریلیون دلاری انویدیا را تهدید میکند).
اول، کمی پیشزمینه:
در حال حاضر، فرآیند آموزش مدلهای هوش مصنوعی بسیار پرهزینه است. شرکتهایی مانند OpenAI و Anthropic بیش از ۱۰۰ میلیون دلار فقط برای محاسبات هزینه میکنند. این یعنی نیاز به مراکز داده عظیم با هزاران GPU که هر کدام حدود ۴۰ هزار دلار قیمت دارند. مثل این است که برای راهاندازی یک کارخانه، یک نیروگاه برق بسازید!
اما DeepSeek چه کرده؟
آنها ادعا کردهاند که همین کارها را با تنها ۵ میلیون دلار انجام دادهاند! و این فقط حرف نیست؛ واقعاً این کار را کردهاند. مدل آنها در بسیاری از وظایف، GPT-4 و Claude را شکست داده و این باعث شگفتی دنیای هوش مصنوعی شده است.
چطور این کار را کردند؟
آنها همه چیز را از نو بازاندیشی کردند. در هوش مصنوعی سنتی، اعداد با ۳۲ رقم اعشار نمایش داده میشوند. DeepSeek پرسید: «چرا با ۸ رقم اعشار ننویسیم؟ تقریباً همان دقت را دارد!» و این باعث کاهش ۷۵٪ در مصرف حافظه شد.
سپس به سراغ سیستم Multi-Token رفتند. در حالی که مدلهای سنتی مانند یک کودک کلاس اولی کلمات را تکتک میخوانند، DeepSeek کل جمله را یکجا با سرعت دو برابر و دقت ۹۰٪ پردازش میکند. این وقتی مهم میشود که باید میلیاردها کلمه تحلیل شوند.
اما بخش هوشمندانهتر:
آنها سیستمی شبیه به «تیم تخصصی» ایجاد کردند. به جای اینکه یک هوش مصنوعی غولآسا همه چیز را بداند (مثل یک نفر که هم دکتر است، هم مهندس و هم جامعهشناس)، آنها فقط از متخصصینی استفاده میکنند که در مواقع نیاز فراخوانی میشوند. در مدلهای سنتی، تمام ۱.۸ تریلیون پارامتر بهطور همزمان فعال هستند، اما در DeepSeek تنها ۳۷ میلیارد پارامتر در هر لحظه فعال میشوند. مثل این است که یک تیم بزرگ داشته باشید، اما فقط افرادی را صدا بزنید که در آن لحظه به آنها نیاز دارید.
نتایج شگفتانگیز:
- هزینه آموزش مدل: از ۱۰۰ میلیون دلار به ۵ میلیون دلار کاهش یافت.
- تعداد GPU: از صد هزار به دو هزار کاهش یافت.
- هزینه API: ۹۵٪ ارزانتر شد.
- حتی میتواند روی کارتهای گرافیک گیمینگ هم اجرا شود، بدون نیاز به سختافزارهای گرانقیمت مراکز داده.
اما ممکن است بپرسید: «صبر کن! حتماً یک جای کار میلنگد!»
جالب اینجاست که همه چیز Open Source است! هر کسی میتواند کد آنها را بررسی کند. هیچ جادویی در کار نیست، فقط مهندسی هوشمندانه است.
چرا این داستان مهم است؟
این داستان فرضیه «فقط شرکتهای بزرگ میتوانند در حوزه هوش مصنوعی بازی کنند» را باطل میکند. برای انویدیا این ترسناک است! کل مدل کسبوکار آنها بر این اساس بود که GPUهای فوقگرانقیمت را با حاشیه سود ۹۰٪ بفروشند. اما حالا اگر هر کسی بتواند با GPUهای گیمینگ مدل هوش مصنوعی بسازد، مشکل بزرگی برای آنها ایجاد میشود.
ضربه نهایی:
DeepSeek این کار را با تیمی کمتر از ۲۰۰ نفر انجام داد. در حالی که هزینههای حقوق کارکنان متا از کل بودجه آموزش DeepSeek بیشتر است، اما مدل آنها به این اندازه خوب نیست.
یک داستان کلاسیک از تغییر وضع موجود:
در حالی که شرکتهای بزرگ در حال بهینهسازی فرآیندهای موجود خود هستند، نوآوران میآیند و کل فرآیند را از نو بازتعریف میکنند. DeepSeیک پرسید: «چرا به جای اضافه کردن سختافزار بیشتر، این کار را هوشمندانهتر انجام ندهیم؟»
عواقب این تغییر:
- دسترسی به توسعه هوش مصنوعی افزایش مییابد.
- رقابت به شدت زیاد میشود.
- برتری شرکتهای بزرگ فناوری مانند موانع کوچک به نظر میرسد.
- نیازهای سختافزاری و هزینهها به شدت کاهش مییابد.
البته غولهایی مانند OpenAI و Anthropic بیکار نمینشینند. احتمالاً همین حالا هم شروع به استفاده از این نوآوریها کردهاند. اما دیگر نمیتوان به دوران اضافه کردن سختافزار بیشتر بازگشت.
نتیجهگیری:
به نظر میرسد این لحظه یکی از آن نقاط عطفی است که در آینده به آن بهعنوان یک تغییر بزرگ نگاه خواهیم کرد. درست مانند زمانی که کامپیوترهای شخصی، کامپیوترهای بزرگ را از رده خارج کردند یا محاسبات ابری همه چیز را تغییر دادند. هوش مصنوعی قرار است با هزینه بسیار کمتر و در دسترستر شود.
سوال اصلی این نیست که آیا این تغییر باعث تحول در بازی شرکتهای بزرگ میشود یا نه، بلکه این است که این تغییر با چه سرعتی رخ خواهد داد.