تیم هوش مصنوعی مایکروسافت از هوش مصنوعی BitNet b1.58 رونمایی کرده که با معماری نوینی طراحی شده و روی پردازندههای معمولی اجرا میشود.
در مدلهای هوش مصنوعی معمول وزنهای عددی که شبکه عصبی یک مدل زبانی بزرگ را تشکیل میدهند، به اعداد اعشاری ۱۶ یا ۳۲ بیتی وابسته است. این سطح از دقت به صدها گیگابایت حافظه و منابع پردازشی قابل توجه برای انجام عملیات پیچیده ماتریسی نیاز دارد. برخلاف این مدلها هوش مصنوعی جدید مایکروسافت تنها از سه وزن -۱، ۰ و ۱ تشکیل شده؛ که به شکل چشمگیری مصرف حافظه و انرژی را کاهش میدهد. این مدل با میانگین ۱.۵۸ بیت برای هر وزن، نهتنها در مصرف منابع بهینه است، بلکه در بنچمارکهای مربوط به استدلال، ریاضیات و دانش عمومی در سطح مدلهای همرده ظاهر شده است.
پیشنهاد خواندن: هوش مصنوعی چیست و چه کاربردی دارد؟ معرفی AI به زبان ساده
ویژگیهای هوش مصنوعی مایکروسافت BitNet
تفاوت اصلی این مدل با پروژههای مشابه در نحوه آموزش آن است. بسیاری از مدلهای کمحجم فعلی، پس از مرحله آموزش بهینهسازی میشوند که موجب افت محسوس کیفیت میشود.
مدل BitNet برخلاف این رویه از ابتدا با ساختاری بومی و سبک آموزش دیده؛ رویکردی که به گفته محققان، «اولین مدل ۱ بیتی منبعباز در مقیاس وسیع» به شمار میرود. این مدل با ۲ میلیارد پارامتر، روی دیتاستی با ۴ تریلیون توکن آموزش دیده است.
جالب اینجاست که BitNet برای اجرا فقط به ۲۵۰ مگابایت حافظه نیاز دارد، در حالی که مدلهای متنباز با پارامترهای یکسان تا ۵ گیگابایت حافظه نیاز دارند.
مزایای این مدل تنها به حافظه کمتر محدود نمیشود. سیستم وزندهی ساده این مدل عملیات استنتاج را نیز بهینهتر کرده، به گونهای که وابستگی به دستورات ضرب پرهزینه به حداقل رسیده و بیشتر به دستورات سادهتر جمع متکی است. این بهینهسازیها مصرف انرژی مدل BitNet را بین ۸۵ تا ۹۶ درصد در مقایسه با مدلهای مشابه کاهش داده است.
مایکروسافت اعلام کرده به لطف طراحی هسته پردازشی اختصاصی برای این معماری، این مدل میتواند تنها با یک CPU به سرعت پردازشی ۵ تا ۷ توکن در ثانیه برسد؛ عددی که با سرعت خواندن انسان برابری میکند.
نتایج آزمایشها
بهینهسازی هوش مصنوعی مایکروسافت به قیمت افت عملکرد آن تمام نشده و BitNet خروجی همتراز با بهترین مدلهای کلاس خودش ارائه میدهد.
این مدل در بنچمارکهایی مانند GSM8K ( مسائل ریاضی ابتدایی) و PIQA (استدلال فیزیک) از مدلهای همرده مانند Llama 3.2 1B متا، Gemma 3 1B گوگل و Qwen 2.5 1.5B علیبابا پیشی گرفته است.
هنوز مشخص نیست چرا مدلی با وزنهایی تا این حد ساده، میتواند چنین خروجی دقیقی داشته باشد. حتی خود تیم تحقیقاتی مایکروسافت نیز اذعان کرده که به درک کاملی از این پدیده دست نیافته و تحقیق در اینباره ادامه دارد.
اهمیت دستاورد مایکروسافت
آنچه مایکروسافت امروز معرفی کرده را میتوان آغاز عصر «هوش مصنوعی کمهزینه» دانست؛ عصری که شاید موانع سختافزاری و انرژیبر توسعه مدلهای زبانی را از پیش رو برداشته و امکان استفاده گسترده از هوش مصنوعی را برای همه فراهم سازد. این تحول اگرچه هنوز در ابتدای مسیر است، اما میتواند صنعت هوش مصنوعی را در سالهای آینده تغییر دهد.
منبع