اختبار أداء Graphcore IPU-M2000 ، يتفوق على وحدة معالجة الرسومات

وقت التدريب لـ BERT-Large أسرع بـ 5.3 مرة من أحدث إصدار من NVIDIA DGX-A100 (وأكثر من 2.6x أسرع من إعداد DGX المزدوج) ، وهي نتيجة تؤكد قوة حل التدرج IPU-POD الخاص بـ Graphcore في مركز البيانات ، جنبًا إلى جنب مع برنامج Poplar قدرة المكدس على إدارة أعباء العمل المعقدة التي يمكن أن تستفيد من معالجات متعددة للعمل بشكل متوازٍ.

أصدرت Graphcore أول مجموعة من معايير الأداء لأحدث أنظمة حوسبة الذكاء الاصطناعي ، IPU-M2000 و IPU-POD64.

تتفوق تقنية Graphcore بشكل كبير على A100 من NVIDIA (القائمة على DGX) في كل من التدريب والاستدلال عبر مجموعة متنوعة من النماذج الشائعة.

تشمل النقاط البارزة ما يلي:

قطار

EfficientNet-B4: إنتاجية أعلى بمقدار 18 مرة

ResNeXt-101: معدل نقل أعلى بمقدار 3.7 مرة

BERT-Large: وقت تدريب أسرع 5.3 مرة على IPU-POD64 مقارنة بـ DGX A100 (2.6 مرة أسرع من نظام DGX المزدوج)

منطق

LSTM: تحسين الإنتاجية أكثر من 600x مع زمن انتقال أقل

EfficientNet-B0: زيادة بمعدل 60 ضعفًا في الإنتاجية / تقليل زمن الانتقال بمقدار 16 ضعفًا

ResNeXt-101: إنتاجية أعلى بمقدار 40 مرة / زمن انتقال أقل بمقدار 10 أضعاف

BERT-Large: إنتاجية أعلى بمقدار 3.4 مرة مع زمن انتقال أقل

يشتمل المعيار المعياري على نتائج BERT-Large (نموذج معالجة اللغة الطبيعية القائم على المحولات) الذي يعمل على جميع المعالجات الـ 64 الخاصة بـ IPU-POD64.

وقت التدريب لـ BERT-Large أسرع بـ 5.3 مرة من أحدث إصدار من NVIDIA DGX-A100 (وأكثر من 2.6x أسرع من إعداد DGX المزدوج) ، وهي نتيجة تؤكد قوة حل التدرج IPU-POD الخاص بـ Graphcore في مركز البيانات ، جنبًا إلى جنب مع برنامج Poplar قدرة المكدس على إدارة أعباء العمل المعقدة التي يمكن أن تستفيد من معالجات متعددة للعمل بشكل متوازٍ.

وتعليقًا على نتائج الاختبار ، قال مات فيليس ، نائب الرئيس الأول للبرمجيات في Graphcore: “هذه المجموعة الشاملة من المعايير تُظهر أن IPU-M2000 و IPU-POD64 من Graphcore يتفوقان على وحدات معالجة الرسومات في العديد من الطرز الشائعة.”

“تعتبر معايير النماذج الجديدة مثل EfficientNet مفيدة بشكل خاص ، لأنها تثبت أن الذكاء الاصطناعي يتجه أكثر فأكثر نحو الهندسة المعمارية المتخصصة للاتحاد البرلماني الدولي ، بدلاً من التصميم التقليدي لمعالج الرسومات.”

“يحتاج العملاء إلى أنظمة حوسبة يمكنها التعامل مع التباين لتشغيل نماذج كبيرة الحجم بكفاءة ، وهذا ما يتفوق فيه Graphcore IPU. مع هذا الاتجاه من طلب العملاء ، ستستمر الفجوة في الاتساع.”

رمز Graphcore المخصص لـ Alibaba Cloud HALO مفتوح رسميًا على GitHub

Graphcore هي أحد شركاء Alibaba Cloud HALO. تم فتح كود odla_PopArt المخصص لـ Alibaba Cloud HALO على HALO’s GitHub. للحصول على التفاصيل ، يرجى الرجوع إلى https://github.com/alibaba/heterogeneity-aware-lowering – والتحسين

MLCommons

بالإضافة إلى إطلاق معيار شامل لنظام حوسبة الذكاء الاصطناعي الخاص بها ، أعلنت Graphcore أيضًا أنها انضمت إلى شركة MLCommons التابعة لـ MLPerf والتي تم تشكيلها حديثًا كعضو في MLCommons.

ستبدأ Graphcore المشاركة في المعايير المقارنة لـ MLCommons في عام 2021. لمزيد من المعلومات ، راجع إعلان تأسيس MLCommons.

الآن الشحن

يتزامن إصدار أحدث معيار معياري لـ Graphcore مع إطلاق أنظمة IPU-M2000 و IPU-POD64 للعملاء في جميع أنحاء العالم. تم بالفعل تثبيت بعض الشحنات المبكرة وتشغيلها في مراكز البيانات.

يتم دعم جهود المبيعات من خلال شبكة شركاء Graphcore العالمية بالإضافة إلى فرق مبيعات الشركة وفرق الهندسة الميدانية في أوروبا وآسيا والأمريكتين.

PyTorch and Poplar 1.4.2 تحديث

يمكن لمستخدمي Graphcore الآن الاستفادة من Poplar SDK 1.4 ، بما في ذلك دعم PyTorch الكامل. أصبح PyTorch الإطار المفضل للمطورين الذين يعملون على أبحاث الذكاء الاصطناعي المتطورة ، واكتسبت عددًا كبيرًا من المتابعين سريع النمو داخل مجتمع الذكاء الاصطناعي الأوسع.

تُظهر البيانات الحديثة من PapersWithCode أن 47٪ من الأوراق المنشورة ذات الكود المرتبط تستخدم إطار عمل PyTorch (سبتمبر 2020).

دعم PyTorch التكميلي الإضافي ، إلى جانب دعم Poplar الحالي لـ TensorFlow ، يعني أنه يمكن الآن نشر الغالبية العظمى من تطبيقات الذكاء الاصطناعي بسهولة على أنظمة Graphcore.

مثل العناصر الأخرى في مجموعة برامج Poplar ، تقوم Graphcore بتوفير مصادر مفتوحة لمكتبة PyTorch الخاصة بها لمكتبة واجهة IPU ، مما يمكّن المجتمع من المساهمة في تطوير PyTorch وتسريعها.

حول IPU-M2000 و IPU-POD

IPU-Machine: إن M2000 (IPU-M2000) عبارة عن شفرة حوسبة ذكية تعمل بنظام التوصيل والتشغيل مصممة لنشر الأنظمة القابلة للتطوير على نطاق واسع وتشغيلها بسهولة.

توفر الشفرة النحيفة 1U قوة حوسبة بذكاء الماكينة 1 PetaFlop وتتضمن تقنية شبكات متكاملة مُحسَّنة لتوسيع نطاق الذكاء الاصطناعي داخل الهيكل.

يتم تشغيل كل آلة IPU: M2000 (IPU-M2000) بواسطة معالجات Graphcore الأربعة الجديدة 7nm Colossus ™ MK2 GC200 IPU وهي مدعومة بالكامل بواسطة مجموعة برامج Poplar®.

IPU-POD64 هو حل شامل من Graphcore يتكون من 16 آلة IPU-M2000 مهيأة مسبقًا ومتصلة باستخدام تقنية عرض النطاق الترددي الفائق IPU-Fabric ™ من Graphcore.

تم تصميم IPU-POD64 للعملاء الذين يحتاجون إلى إمكانات حوسبة AI واسعة النطاق ، إما تشغيل عبء عمل واحد عبر وحدات IPU متعددة للحوسبة المتوازية ، أو الاستخدام المشترك من قبل مستخدمين متعددين من خلال برنامج Virtual-IPU الخاص بـ Graphcore.

The Links:   MBRT40045 LQ64D342