دسته‌ها
اخبار

چگونه معماری BitNet نسل بعدی مایکروسافت بازده LLM را توربوشارژ می کند


به خبرنامه های روزانه و هفتگی ما بپیوندید تا آ،ین به روز رس، ها و محتوای انحصاری در زمینه پوشش هوش مصنوعی پیشرو در صنعت را دریافت کنید. بیشتر بد،د


مدل‌های زبان بزرگ یک بیتی (LLM) به ،وان یک رویکرد امیدوارکننده برای دسترسی بیشتر و مقرون به صرفه‌تر ، هوش مصنوعی مولد ظهور کرده‌اند. با نمایش وزن مدل با تعداد بسیار محدود بیت، LLM های 1 بیتی به طور چشمگیری حافظه و منابع مح،اتی مورد نیاز برای اجرای آنها را کاهش می دهند.

تحقیقات مایکروسافت با معماری BitNet خود، مرزهای LLMهای 1 بیتی را جابجا کرده است. در یک کاغذ جدیدمحققان BitNet a4.8 را معرفی ،د، تکنیک جدیدی که کارایی LLM های 1 بیتی را بدون به خطر انداختن عملکرد آنها بیشتر بهبود می بخشد.

ظهور LLM های 1 بیتی

LLM های سنتی از اعداد ممیز شناور 16 بیتی (FP16) برای نمایش پارامترهای خود استفاده می کنند. این به مقدار زیادی حافظه و منابع مح،اتی نیاز دارد، که گزینه‌های دسترسی و استقرار را برای LLM محدود می‌کند. LLM های تک بیتی با کاهش شدید دقت وزن مدل در حالی که عملکرد مدل های با دقت کامل را مطابقت می دهند، این چالش را برطرف می کنند.

مدل های قبلی BitNet از مقادیر 1.58 بیتی (-1، 0، 1) برای نمایش وزن مدل و مقادیر 8 بیتی برای فعال سازی استفاده می ،د. این رویکرد به طور قابل توجهی هزینه‌های حافظه و ورودی/،وجی را کاهش داد، اما هزینه مح،اتی ضرب‌های ماتریس همچنان یک گلوگاه باقی ماند و بهینه‌سازی شبکه‌های عصبی با پارامترهای بیت بسیار کم چالش برانگیز است.

دو تکنیک به رفع این مشکل کمک می کند. Sparsification تعداد مح،ات را با هرس ، فعال‌سازی‌هایی با مقادیر کمتر کاهش می‌دهد. این به ویژه در LLM ها مفید است زیرا مقادیر فعال سازی تمایل به توزیع طول، دارند، با چند مقدار بسیار بزرگ و بسیاری از مقادیر کوچک.

از سوی دیگر، کوانتیزاسیون از تعداد بیت های کمتری برای نمایش فعال سازی ها استفاده می کند و هزینه مح،اتی و حافظه پردازش آنها را کاهش می دهد. با این حال، صرفاً کاهش دقت فعال‌سازی می‌تواند منجر به خطاهای کوانتیزاسیون و کاهش عملکرد شود.

علاوه بر این، ،یب اسپاسفیکاسیون و کوانتیشن چالش برانگیز است و مشکلات خاصی را در هنگام آموزش LLM های 1 بیتی ایجاد می کند.

فورو وی، مدیر تحقیقات شریک مایکروسافت ریسرچ، به VentureBeat گفت: «کوانتیزه‌سازی و پراکندگی هر دو عملیات غیرقابل تمایز را معرفی می‌کنند و مح،ات گرادیان در طول آموزش را به‌ویژه چالش‌برانگیز می‌سازند».

مح،ه گرادیان برای مح،ه خطاها و به روز رس، پارامترها هنگام آموزش شبکه های عصبی ضروری است. محققان همچنین باید اطمینان حاصل می‌،د که تکنیک‌های آن‌ها می‌تواند به طور موثر بر روی سخت‌افزارهای موجود پیاده‌سازی شود و در عین حال مزایای هر دو ت،یم‌بندی و کوانتیزه‌سازی حفظ شود.

بیت نت a4.8

BitNet a4.8 به چالش‌های بهینه‌سازی LLM‌های 1 بیتی از طریق آنچه که محققان به ،وان «کوانتیزه‌سازی ،یبی و پراکندگی» توصیف می‌کنند، می‌پردازد. آنها با طراحی معماری که به طور انتخابی کوانتیزاسیون یا پراکندگی را به اجزای مختلف مدل بر اساس الگوی توزیع خاص فعال‌سازی‌ها اعمال می‌کند، به این امر دست یافتند. این معماری از فعال‌سازی‌های ۴ بیتی برای ورودی‌های توجه و لایه‌های شبکه پیش‌خور (FFN) استفاده می‌کند. از sparsification با 8 بیت برای حالت های می، استفاده می کند و تنها 55 درصد از پارامترها را حفظ می کند. معماری نیز برای استفاده از سخت افزار موجود بهینه شده است.

وی گفت: “با BitNet b1.58، گلوگاه استنتاج LLM های 1 بیتی از حافظه/IO به مح،ات تغییر می کند، که توسط بیت های فعال سازی (ی،ی 8 بیت در BitNet b1.58) محدود می شود.” در BitNet a4.8، بیت‌های فعال‌سازی را به ۴ بیت فشار می‌دهیم تا بتو،م از هسته‌های ۴ بیتی (مانند INT4/FP4) برای افزایش سرعت ۲ برابری برای استنتاج LLM در دستگاه‌های GPU استفاده کنیم. ،یبی از وزن‌های مدل 1 بیتی از BitNet b1.58 و فعال‌سازی‌های 4 بیتی از BitNet a4.8 به طور مؤثری محدودیت‌های حافظه/IO و مح،اتی در استنتاج LLM را برطرف می‌کند.

BitNet a4.8 همچنین از مقادیر 3 بیتی برای نمایش حالت های کلید (K) و مقدار (V) در مک،سم توجه استفاده می کند. حافظه پنهان KV یک جزء حیاتی در مدل های ترانسفورماتور است. نمایش های نشانه های قبلی را در دنباله ذخیره می کند. BitNet a4.8 با کاهش دقت مقادیر حافظه نهان KV، نیاز به حافظه را بیشتر کاهش می‌دهد، به‌ویژه زم، که با توالی‌های طول، سروکار داریم.

وعده BitNet a4.8

نتایج تجربی نشان می دهد که BitNet a4.8 عملکردی قابل مقایسه با BitNet b1.58 قبلی خود ارائه می دهد در حالی که از مح،ات و حافظه کمتری استفاده می کند.

در مقایسه با مدل‌های Llama با دقت کامل، BitNet a4.8 استفاده از حافظه را تا 10 برابر کاهش می‌دهد و به سرعت 4 برابر می‌رسد. در مقایسه با BitNet b1.58، از طریق هسته های فعال سازی 4 بیتی به سرعت 2 برابری دست می یابد. اما طراحی می تواند بسیار بیشتر ارائه دهد.

وی گفت: “بهبود مح،اتی ،ن زده شده بر اساس سخت افزار موجود (GPU) است. “با سخت افزاری که به طور خاص برای LLM های 1 بیتی بهینه شده است، پیشرفت های مح،اتی را می توان به طور قابل توجهی افزایش داد. BitNet یک الگوی مح،اتی جدید را معرفی می کند که نیاز به ضرب ماتریس را به حداقل می رساند، تمرکز اصلی در بهینه سازی طراحی سخت افزار فعلی.

کارایی BitNet a4.8 آن را به ویژه برای استقرار LLM در لبه و در دستگاه‌های دارای محدودیت منابع من، می‌سازد. این می تواند پیامدهای مهمی برای حفظ حریم خصوصی و امنیت داشته باشد. با فعال ، LLM های روی دستگاه، کاربران می توانند از قدرت این مدل ها بدون نیاز به ارسال داده های خود به فضای ابری بهره مند شوند.

وی و تیمش به کار خود بر روی LLM های 1 بیتی ادامه می دهند.

وی گفت: “ما به پیشرفت تحقیقات و دیدگاه خود برای عصر LLM های 1 بیتی ادامه می دهیم.” در حالی که تمرکز فعلی ما بر روی معماری مدل و پشتیب، نرم‌افزاری است (ی،ی bitnet.cpp)، هدف ما این است که طراحی مش، و تکامل معماری مدل و سخت‌افزار را بررسی کنیم تا پتانسیل LLM‌های 1 بیتی را به طور کامل باز کنیم.

VB Daily

در جریان باشید! آ،ین اخبار را روزانه در صندوق ورودی خود دریافت کنید

با اشتراک، با شرایط خدمات VentureBeat موافقت می کنید.

با تشکر برای اشتراک. خبرنامه های بیشتر VB را اینجا ببینید.

خطایی رخ داد.



منبع: https://venturebeat.com/ai/،w-microsofts-next-gen-bitnet-architecture-is-turbocharging-llm-efficiency/