به خبرنامه های روزانه و هفتگی ما بپیوندید تا آ،ین به روز رس، ها و محتوای انحصاری در زمینه پوشش هوش مصنوعی پیشرو در صنعت را دریافت کنید. بیشتر بد،د
مدلهای زبان بزرگ یک بیتی (LLM) به ،وان یک رویکرد امیدوارکننده برای دسترسی بیشتر و مقرون به صرفهتر ، هوش مصنوعی مولد ظهور کردهاند. با نمایش وزن مدل با تعداد بسیار محدود بیت، LLM های 1 بیتی به طور چشمگیری حافظه و منابع مح،اتی مورد نیاز برای اجرای آنها را کاهش می دهند.
تحقیقات مایکروسافت با معماری BitNet خود، مرزهای LLMهای 1 بیتی را جابجا کرده است. در یک کاغذ جدیدمحققان BitNet a4.8 را معرفی ،د، تکنیک جدیدی که کارایی LLM های 1 بیتی را بدون به خطر انداختن عملکرد آنها بیشتر بهبود می بخشد.
ظهور LLM های 1 بیتی
LLM های سنتی از اعداد ممیز شناور 16 بیتی (FP16) برای نمایش پارامترهای خود استفاده می کنند. این به مقدار زیادی حافظه و منابع مح،اتی نیاز دارد، که گزینههای دسترسی و استقرار را برای LLM محدود میکند. LLM های تک بیتی با کاهش شدید دقت وزن مدل در حالی که عملکرد مدل های با دقت کامل را مطابقت می دهند، این چالش را برطرف می کنند.
مدل های قبلی BitNet از مقادیر 1.58 بیتی (-1، 0، 1) برای نمایش وزن مدل و مقادیر 8 بیتی برای فعال سازی استفاده می ،د. این رویکرد به طور قابل توجهی هزینههای حافظه و ورودی/،وجی را کاهش داد، اما هزینه مح،اتی ضربهای ماتریس همچنان یک گلوگاه باقی ماند و بهینهسازی شبکههای عصبی با پارامترهای بیت بسیار کم چالش برانگیز است.
دو تکنیک به رفع این مشکل کمک می کند. Sparsification تعداد مح،ات را با هرس ، فعالسازیهایی با مقادیر کمتر کاهش میدهد. این به ویژه در LLM ها مفید است زیرا مقادیر فعال سازی تمایل به توزیع طول، دارند، با چند مقدار بسیار بزرگ و بسیاری از مقادیر کوچک.
از سوی دیگر، کوانتیزاسیون از تعداد بیت های کمتری برای نمایش فعال سازی ها استفاده می کند و هزینه مح،اتی و حافظه پردازش آنها را کاهش می دهد. با این حال، صرفاً کاهش دقت فعالسازی میتواند منجر به خطاهای کوانتیزاسیون و کاهش عملکرد شود.
علاوه بر این، ،یب اسپاسفیکاسیون و کوانتیشن چالش برانگیز است و مشکلات خاصی را در هنگام آموزش LLM های 1 بیتی ایجاد می کند.
فورو وی، مدیر تحقیقات شریک مایکروسافت ریسرچ، به VentureBeat گفت: «کوانتیزهسازی و پراکندگی هر دو عملیات غیرقابل تمایز را معرفی میکنند و مح،ات گرادیان در طول آموزش را بهویژه چالشبرانگیز میسازند».
مح،ه گرادیان برای مح،ه خطاها و به روز رس، پارامترها هنگام آموزش شبکه های عصبی ضروری است. محققان همچنین باید اطمینان حاصل می،د که تکنیکهای آنها میتواند به طور موثر بر روی سختافزارهای موجود پیادهسازی شود و در عین حال مزایای هر دو ت،یمبندی و کوانتیزهسازی حفظ شود.
بیت نت a4.8
BitNet a4.8 به چالشهای بهینهسازی LLMهای 1 بیتی از طریق آنچه که محققان به ،وان «کوانتیزهسازی ،یبی و پراکندگی» توصیف میکنند، میپردازد. آنها با طراحی معماری که به طور انتخابی کوانتیزاسیون یا پراکندگی را به اجزای مختلف مدل بر اساس الگوی توزیع خاص فعالسازیها اعمال میکند، به این امر دست یافتند. این معماری از فعالسازیهای ۴ بیتی برای ورودیهای توجه و لایههای شبکه پیشخور (FFN) استفاده میکند. از sparsification با 8 بیت برای حالت های می، استفاده می کند و تنها 55 درصد از پارامترها را حفظ می کند. معماری نیز برای استفاده از سخت افزار موجود بهینه شده است.
وی گفت: “با BitNet b1.58، گلوگاه استنتاج LLM های 1 بیتی از حافظه/IO به مح،ات تغییر می کند، که توسط بیت های فعال سازی (ی،ی 8 بیت در BitNet b1.58) محدود می شود.” در BitNet a4.8، بیتهای فعالسازی را به ۴ بیت فشار میدهیم تا بتو،م از هستههای ۴ بیتی (مانند INT4/FP4) برای افزایش سرعت ۲ برابری برای استنتاج LLM در دستگاههای GPU استفاده کنیم. ،یبی از وزنهای مدل 1 بیتی از BitNet b1.58 و فعالسازیهای 4 بیتی از BitNet a4.8 به طور مؤثری محدودیتهای حافظه/IO و مح،اتی در استنتاج LLM را برطرف میکند.
BitNet a4.8 همچنین از مقادیر 3 بیتی برای نمایش حالت های کلید (K) و مقدار (V) در مک،سم توجه استفاده می کند. حافظه پنهان KV یک جزء حیاتی در مدل های ترانسفورماتور است. نمایش های نشانه های قبلی را در دنباله ذخیره می کند. BitNet a4.8 با کاهش دقت مقادیر حافظه نهان KV، نیاز به حافظه را بیشتر کاهش میدهد، بهویژه زم، که با توالیهای طول، سروکار داریم.
وعده BitNet a4.8
نتایج تجربی نشان می دهد که BitNet a4.8 عملکردی قابل مقایسه با BitNet b1.58 قبلی خود ارائه می دهد در حالی که از مح،ات و حافظه کمتری استفاده می کند.
در مقایسه با مدلهای Llama با دقت کامل، BitNet a4.8 استفاده از حافظه را تا 10 برابر کاهش میدهد و به سرعت 4 برابر میرسد. در مقایسه با BitNet b1.58، از طریق هسته های فعال سازی 4 بیتی به سرعت 2 برابری دست می یابد. اما طراحی می تواند بسیار بیشتر ارائه دهد.
وی گفت: “بهبود مح،اتی ،ن زده شده بر اساس سخت افزار موجود (GPU) است. “با سخت افزاری که به طور خاص برای LLM های 1 بیتی بهینه شده است، پیشرفت های مح،اتی را می توان به طور قابل توجهی افزایش داد. BitNet یک الگوی مح،اتی جدید را معرفی می کند که نیاز به ضرب ماتریس را به حداقل می رساند، تمرکز اصلی در بهینه سازی طراحی سخت افزار فعلی.
کارایی BitNet a4.8 آن را به ویژه برای استقرار LLM در لبه و در دستگاههای دارای محدودیت منابع من، میسازد. این می تواند پیامدهای مهمی برای حفظ حریم خصوصی و امنیت داشته باشد. با فعال ، LLM های روی دستگاه، کاربران می توانند از قدرت این مدل ها بدون نیاز به ارسال داده های خود به فضای ابری بهره مند شوند.
وی و تیمش به کار خود بر روی LLM های 1 بیتی ادامه می دهند.
وی گفت: “ما به پیشرفت تحقیقات و دیدگاه خود برای عصر LLM های 1 بیتی ادامه می دهیم.” در حالی که تمرکز فعلی ما بر روی معماری مدل و پشتیب، نرمافزاری است (ی،ی bitnet.cpp)، هدف ما این است که طراحی مش، و تکامل معماری مدل و سختافزار را بررسی کنیم تا پتانسیل LLMهای 1 بیتی را به طور کامل باز کنیم.
VB Daily
در جریان باشید! آ،ین اخبار را روزانه در صندوق ورودی خود دریافت کنید
با اشتراک، با شرایط خدمات VentureBeat موافقت می کنید.
با تشکر برای اشتراک. خبرنامه های بیشتر VB را اینجا ببینید.
خطایی رخ داد.
منبع: https://venturebeat.com/ai/،w-microsofts-next-gen-bitnet-architecture-is-turbocharging-llm-efficiency/