Nvidia، Oracle، Google، Dell و 13 شرکت دیگر گزارش دادند که چقدر طول می کشد تا کامپیوترهای آنها شبکه های عصبی کلیدی را که امروزه مورد استفاده قرار می گیرند، آموزش دهند. در میان این نتایج، اولین نگاهی اجمالی به پردازنده گرافیکی نسل بعدی انویدیا، ی،ی B200، و شتاب دهنده آینده گوگل، تماس گرفت تریلیوم. عملکرد B200 در برخی از آزمایشات در مقایسه با تراشه امروزی انویدیا، H100، دو برابر شده است. و تریلیوم نسبت به تراشه ای که گوگل در سال 2023 آزمایش کرد، تقریباً چهار برابر افزایش یافت.
تستهای معیار که MLPerf v4.1 نامیده میشود، شامل شش کار است: توصیه، پیشآموزش مدلهای زبان بزرگ (LLM) GPT-3 و BERT-large، تنظیم دقیق مدل زبان بزرگ Llama 2 70B، شی تشخیص، طبقه بندی گره گراف و تولید تصویر.
آموزش GPT-3 آنقدر کار بزرگی است که انجام کل کار فقط برای ارائه یک معیار غیرعملی است. در عوض، آزمون این است که آن را به نقطهای آموزش دهید که کارشناسان تشخیص دادهاند به این م،است که اگر ادامه دهید، احتمالاً به هدف میرسد. برای Llama 2 70B، هدف آموزش LLM از ابتدا نیست، بلکه گرفتن یک مدل از قبل آموزش دیده و تنظیم دقیق آن است تا در یک تخصص خاص تخصصی شود – در این مورد،اسناد ،تی طبقه بندی گره گراف نوعی از یادگیری ماشینی است که در کشف تقلب و کشف دارو استفاده می شود.
از آنجایی که آنچه در هوش مصنوعی مهم است، بیشتر به سمت استفاده از هوش مصنوعی مولد تکامل یافته است، مجموعه تست ها تغییر کرده است. این آ،ین نسخه MLPerf نشاندهنده تغییر کامل در آنچه از زمان شروع تلاشهای معیار در حال آزمایش است. میگوید: «در این مرحله تمام معیارهای اولیه حذف شدهاند دیوید کانتر، که رهبری می کند تلاش معیار در MLCommons. در دور قبلی اجرای برخی از معیارها تنها چند ث،ه طول می کشید.
عملکرد بهترین سیستمهای یادگیری ماشین در معیارهای مختلف از آنچه انتظار میرفت اگر صرفاً از قانون مور حاصل میشد، پیشی گرفت. [blue line]. خط یکپارچه نشان دهنده معیارهای فعلی است. خطوط چین نشان دهنده معیارهایی هستند که اکنون بازنشسته شده اند، زیرا دیگر از نظر صنعتی مرتبط نیستند.MLCommons
طبق مح،ات MLPerf، آموزش هوش مصنوعی در مجموعه جدید معیارها تقریباً دو برابر نرخی است که از قانون مور انتظار می رود. با گذشت سالها، نتایج سریعتر از شروع سلطنت MLPerf افزایش یافت. کانتر این را بیشتر به این واقعیت نسبت می دهد که شرکت ها نحوه انجام تست های معیار را در سیستم های بسیار بزرگ کشف کرده اند. با گذشت زمان، Nvidia، گوگلو دیگران نرمافزار و فناوری شبکه را توسعه دادهاند که امکان مقیاسگذاری تقریباً خطی را فراهم میکند—دوبرابر ، پردازندهها زمان آموزش را تقریباً به نصف کاهش میدهد.
اولین نتایج آموزش Nvidia Blackwell
این دور اولین آزمایشهای آموزشی برای معماری پردازندههای گرافیکی بعدی انویدیا به نام بلکول را رقم زد. برای آموزش GPT-3 و تنظیم دقیق LLM، Blackwell (B200) تقریباً عملکرد H100 را بر اساس هر GPU دو برابر کرد. دستاوردها کمی کمتر قوی بود، اما همچنان برای سیستم های توصیه گر و تولید تصویر قابل توجه بود – به ترتیب 64 درصد و 62 درصد.
معماری بلک ول که در پردازنده گرافیکی Nvidia B200 تجسم یافته است، به روند مداوم استفاده از اعداد کمتر و کمتر دقیق برای افزایش سرعت هوش مصنوعی ادامه می دهد. برای بخش های خاصی از شبکه های عصبی ترانسفورماتور مانند ChatGPT، Llama2 و Stable Diffusion، Nvidia H100 و H200 از اعداد ممیز شناور 8 بیتی استفاده می کنند. B200 آن را به 4 بیت کاهش می دهد.
گوگل سخت افزار نسل ششم را معرفی کرد
گوگل اولین نتایج را برای 6 خود نشان دادهفتم نسل TPU به نام Trillium – که ماه گذشته از آن رونمایی کرد – و دور دوم نتایج برای 5 آنهفتم نوع نسل، Cloud TPU v5p. در نسخه 2023، غول جستوجو یک نوع متفاوت از 5 را وارد کردهفتم نسل TPU، v5e، بیشتر برای کارایی طراحی شده تا عملکرد. در مقایسه با دومی، Trillium عملکرد تمرینی GPT-3 را تا 3.8 برابر افزایش می دهد.
اما در مقابل رقیب همیشگی انویدیا، همه چیز به این خوبی نبود. سیستمی متشکل از 6144 TPU v5ps در 11.77 دقیقه به نقطه بازرسی آموزشی GPT-3 رسید و در رده دوم نسبت به سیستم 11616 Nvidia H100 قرار گرفت که کار را در حدود 3.44 دقیقه انجام داد. آن سیستم TPU برتر فقط حدود 25 ث،ه سریعتر از یک کامپیوتر H100 نصف اندازه آن بود.
یک کامپیوتر Dell Technologies مدل بزرگ زبان Llama 2 70B را با استفاده از حدود 75 سنت برق تنظیم کرد.
در نزدیکترین مقایسه رودررو بین v5p و Trillium، با هر سیستمی که از 2048 TPU تشکیل شده است، Trillium آینده 2 دقیقه از زمان تمرین GPT-3 را کاهش داد، که تقریباً 8 درصد پیشرفت را نسبت به 29.6 دقیقه v5p داشت. تفاوت دیگر بین ورودی های Trillium و v5p این است که Trillium با پردازنده های AMD Epyc به جای Xeons اینتل v5p جفت شده است.
گوگل همچنین مولد تصویر، Stable Diffusion را با Cloud TPU v5p آموزش داد. با 2.6 میلیارد پارامتر، Stable Diffusion یک آسانسور به اندازه کافی سبک است که از شرکت کنندگان MLPerf خواسته می شود که آن را به جای اینکه فقط به یک ایست بازرسی، مانند GPT-3، آموزش دهند تا همگرا شوند. یک سیستم 1024 TPU در رتبه دوم قرار گرفت و کار را در 2 دقیقه و 26 ث،ه به پایان رساند، تقریباً یک دقیقه عقب تر از سیستم اندازه مشابه Nvidia H100s.
قدرت آموزشی هنوز نامشخص است
هزینه سنگین انرژی آموزش شبکه های عصبی مدت هاست که منبع نگر، بوده است. MLPerf تازه شروع به اندازه گیری این است. Dell Technologies تنها شرکت کننده در رده انرژی بود، با یک سیستم هشت سرور شامل 64 پردازنده گرافیکی Nvidia H100 و 16 پردازنده Intel Xeon Platinum. تنها اندازه گیری انجام شده در کار تنظیم دقیق LLM (Llama2 70B) بود. این سیستم در طول 5 دقیقه کارکرد خود 16.4 مگاژول مصرف کرد که میانگین توان آن 5.4 کیلووات بود. این ی،ی حدود 75 سنت برق با میانگین هزینه در ایالات متحده.
در حالی که به خودی خود چیز زیادی نمی گوید، نتیجه به طور بالقوه فضایی را برای مصرف برق سیستم های مشابه فراهم می کند. به ،وان مثال، اوراکل با استفاده از تعداد و انواع ی،ان CPU و GPU، نتیجه عملکرد نزدیک 4 دقیقه و 45 ث،ه را گزارش کرد.
از مقالات سایت شما
مقالات مرتبط در سراسر وب
منبع: https://spect،.ieee.org/ai-training-2669810566