- Dengan arsitektur AMD CDNA™ 2 terbaru, akselerator AMD Instinct MI200 series menghadirkan keunggulan 4.9x yang luar biasa dalam performa HPC1 dibandingkan dengan akselerator pusat data pesaing, mempercepat sains dan penemuan —
- Akselerator seri MI200 adalah GPU multi-die pertama yang mendukung memory HBM2e 128GB, dan memberikan dorongan substantial untuk aplikasi yang penting bagi fondasi sains —
SANTA CLARA, California, AS — November 9, 2021 — AMD (NASDAQ: AMD) hari ini mengumumkan akselerator AMD Instinct™ MI200 series terbaru, akselerator GPU kelas exascale pertama. Akselerator AMD Instinct MI200 series termasuk high performance computing (HPC) dan akselerator artificial intelligence (AI),1 AMD Instinct™ MI250X.
Dibangun diatas arsitektur AMD CDNA™ 2, akselerator AMD Instinct MI200 series memberikan performa aplikasi terdepan untuk serangkaian luas beban kerja HPC.2 Akselerator AMD Instinct MI250X memberikan performa hingga 4.9X lebih baik dariakselerator kompetitif untuk aplikasi HPC presisi ganda (FP64) dan melampaui 380 teraflops dari setengah presisi teoritis puncak (FP16) untuk beban kerja AI untuk memungkinkan pendekatan yang mengganggu dalam mempercepat penelitian berbasis data lebih lanjut.1
“Akselerator AMD Instinct MI200 menghadirkan performa HPC dan AI terdepan, membantu para ilmuwan membuat lompatan generasi dalam penelitian yang secara dramatis dapat mempersingkat waktu antara hipotesis awal dan penemuan,” ucap Forrest Norrod, Senior Vice President and General Manager, Data Center and Embedded Solutions Business Group, AMD. “Dengan inovasi utama dalam arsitektur, pengemasan dan desain sistem, akselerator seri AMD Instinct MI200 adalah GPU pusat data tercanggih yang pernah ada, memberikan performa luar biasa untuk superkomputer dan datacenter untuk memecahkan masalah paling kompleks di dunia.”
Exascale dengan AMD
AMD, berkolaborasi dengan Departemen Energi AS, Laboratorium Nasional Oak Ridge, dan HPE, merancang supercomputer Frontier yang diharapkan menghasilkan lebih dari 1,5 exaflops daya komputasi puncak. Didukung oleh CPU AMD EPYC™ Generasi Ketiga yang dioptimalkan dan akselerator AMD Instinct MI250X, Frontier akan mendorong batas penemuan ilmiah dengan secara dramatis meningkatkan performa AI, analitik, dan simulasi dalam skala besar, membantu para ilmuwan untuk mengemas lebih banyak perhitungan, mengidentifikasi pola baru dalam data, dan mengembangkan metode analisis data yang inovatif untuk mempercepat laju penemuan ilmiah.
“Supercomputer Frontier adalah puncak dari kolaborasi yang kuat antara AMD, HPE dan Departemen Energi AS, untuk menyediakan sistem berkemampuan exascale yang mendorong batas penemuan ilmiah dengan secara dramatis meningkatkan performa kecerdasan buatan, analitik, dan simulasi dalam skala besar,” ucap Thomas Zacharia, Director, Oak Ridge National Laboratory.
Mentenagai Masa Depan HPC
Akselerator AMD Instinct MI200 series, dikombinasikan dengan CPU AMD EPYC Generasi Ketiga dan platform software terbuka ROCm™ 5.0, dirancang untuk mendorong penemuan-penemuan baru untuk era exascale dan mengatasi tantangan kami yang paling mendesak mulai dari perubahan iklim hingga penelitian vaksin.
Kemampuan dan fitur utama dari akselerator seri AMD Instinct MI200 meliputi:
- – Core Matrix Generasi Kedua mempercepat operasi matriks FP64 dan FP32, memberikan hingga 4X performa puncak teoretis FP64 vs. GPU AMD generasi sebelumnya. [i],3,4
- – Desain GPU multi-die pertama di industri dengan teknologi 2.5D Elevated Fanout Bridge (EFB) memberikan core 1,8X lebih banyak dan bandwidth memori 2,7X lebih tinggi dibandingkan GPU AMD generasi sebelumnya, menawarkan bandwidth memori teoritis puncak agregat terbaik di industri pada 3,2 terabyte per detik. 4,5,6
- Hingga 8 tautan Infinity Fabric menghubungkan AMD Instinct MI200 dengan CPU EPYC Generasi ke-3 dan GPU lainnya di node untuk memungkinkan koherensi memori CPU/GPU terpadu dan memaksimalkan throughput sistem, memungkinkan kode CPU on-ramp lebih mudah untuk memanfaatkan kekuatan akselerator.
Software untuk Mengaktifkan Exascale Science
AMD ROCm™ adalah platform software terbuka yang memungkinkan peneliti memanfaatkan kekuatan akselerator AMD Instinct™ untuk mendorong penemuan ilmiah. Platform ROCm dibangun di atas dasar portabilitas terbuka, mendukung lingkungan di berbagai vendor dan arsitektur akselerator. Dengan ROCm 5.0, AMD memperluas platform terbukanya yang mendukung aplikasi HPC dan AI teratas dengan akselerator seri AMD Instinct MI200, meningkatkan aksesibilitas ROCm untuk pengembang dan memberikan performa terdepan di seluruh beban kerja utama.
Melalui AMD Infinity Hub, peneliti, ilmuwan data, dan pengguna akhir dapat dengan mudah menemukan, mengunduh, dan menginstal aplikasi HPC dalam container dan kerangka kerja ML yang dioptimalkan dan didukung pada akselerator AMD Instinct dan ROCm. Hub saat ini menawarkan berbagai container yang mendukung akselerator Radeon Instinct™ MI50, AMD Instinct™ MI100 atau AMD Instinct MI200 termasuk beberapa aplikasi seperti Chroma, CP2k, LAMMPS, NAMD, OpenMM, dan lainnya, bersama dengan kerangka kerja ML populer TensorFlow dan PyTorch. Kontainer baru terus ditambahkan ke hub.
Solusi Server yang Tersedia
AMD Instinct MI250X dan AMD Instinct MI250 tersedia dalam modul akselerator komputasi hardware terbuka atau faktor bentuk OCP Accelerator Module (OAM). AMD Instinct MI210 akan tersedia dalam faktor bentuk kartu PCIe® di server OEM.
Akselerator AMD MI250X saat ini tersedia dari HPE di Superkomputer HPE Cray EX, dan akselerator seri AMD Instinct MI200 tambahan diharapkan dalam sistem dari mitra OEM dan ODM utama di pasar perusahaan pada Q1 2022, termasuk ASUS, ATOS, Dell Technologies, Gigabyte, Hewlett Packard Enterprise (HPE), Lenovo, Penguin Computing, dan Supermicro.
Spesifikasi MI200 Series
Models | Compute Units | Stream Processors | FP64 | FP32 Vector (Peak) | FP64 | FP32 Matrix (Peak) | FP16 | bf16 (Peak) | INT4 | INT8 (Peak) | HBM2e ECC Memory | Memory Bandwidth | Form Factor |
AMD Instinct MI250x | 220 | 14,080 | Up to 47.9 TF | Up to 95.7 TF | Up to 383.0 TF | Up to 383.0 TOPS | 128GB | 3.2 TB/sec | OCP Accelerator Module |
AMD Instinct MI250 | 208 | 13,312 | Up to 45.3 TF | Up to 90.5 TF | Up to 362.1 TF | Up to 362.1 TOPS | 128GB | 3.2 TB/sec | OCP Accelerator Module |
Sumber Pendukung
- Pelajari lebih lanjut tentang Akselerator AMD Instinct™
- Pelajari lebih lanjut tentang Solusi HPC AMD
- Pelajari lebih lanjut tentang Arsitektur AMD CDNA™ 2
- Pelajari lebih lanjut tentang AMD EPYC™ processors
- Jadilah fans AMD di Facebook
- Ikuti AMD di Twitter
- Terhubung dengan AMD di LinkedIn
Tentang AMD
Selama lebih dari 50 tahun, AMD telah mendorong inovasi dalam teknologi komputasi, grafis, dan visualisasi berperforma tinggi – blok bangunan untuk game, platform imersif, dan pusat data. Ratusan juta konsumen, bisnis Fortune 500 terkemuka dan fasilitas penelitian ilmiah mutakhir di seluruh dunia mengandalkan teknologi AMD setiap hari untuk meningkatkan cara mereka hidup, bekerja, dan bermain. Karyawan AMD di seluruh dunia berfokus pada pembuatan produk hebat yang mendorong batasan dari apa yang mungkin. Untuk informasi lebih lanjut tentang bagaimana AMD mengaktifkan hari ini dan menginspirasi hari esok, kunjungi laman AMD (NASDAQ: AMD) website, Facebook, LinkedIn dan Twitter.
- World’s fastest data center GPU is the AMD Instinct™ MI250X. Calculations conducted by AMD Performance Labs as of Sep 15, 2021, for the AMD Instinct™ MI250X (128GB HBM2e OAM module) accelerator at 1,700 MHz peak boost engine clock resulted in 95.7 TFLOPS peak theoretical double precision (FP64 Matrix), 47.9 TFLOPS peak theoretical double precision (FP64), 95.7 TFLOPS peak theoretical single precision matrix (FP32 Matrix), 47.9 TFLOPS peak theoretical single precision (FP32), 383.0 TFLOPS peak theoretical half precision (FP16), and 383.0 TFLOPS peak theoretical Bfloat16 format precision (BF16) floating-point performance. Calculations conducted by AMD Performance Labs as of Sep 18, 2020 for the AMD Instinct™ MI100 (32GB HBM2 PCIe® card) accelerator at 1,502 MHz peak boost engine clock resulted in 11.54 TFLOPS peak theoretical double precision (FP64), 46.1 TFLOPS peak theoretical single precision matrix (FP32), 23.1 TFLOPS peak theoretical single precision (FP32), 184.6 TFLOPS peak theoretical half precision (FP16) floating-point performance. Published results on the NVidia Ampere A100 (80GB) GPU accelerator, boost engine clock of 1410 MHz, resulted in 19.5 TFLOPS peak double precision tensor cores (FP64 Tensor Core), 9.7 TFLOPS peak double precision (FP64). 19.5 TFLOPS peak single precision (FP32), 78 TFLOPS peak half precision (FP16), 312 TFLOPS peak half precision (FP16 Tensor Flow), 39 TFLOPS peak Bfloat 16 (BF16), 312 TFLOPS peak Bfloat16 format precision (BF16 Tensor Flow), theoretical floating-point performance. The TF32 data format is not IEEE compliant and not included in this comparison. https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepaper.pdf, page 15, Table 1. MI200-01
- AMD Instinct MI250X accelerator application and benchmark performance can be found at https://www.amd.com/en/graphics/server-accelerators-benchmarks.
- Calculations conducted by AMD Performance Labs as of Sep 15, 2021, for the AMD Instinct™ MI250X accelerator (128GB HBM2e OAM module) at 1,700 MHz peak boost engine clock resulted in 95.7 TFLOPS peak double precision matrix (FP64 Matrix) theoretical, floating-point performance. Published results on the NVidia Ampere A100 (80GB) GPU accelerator resulted in 19.5 TFLOPS peak double precision (FP64 Tensor Core) theoretical, floating-point performance. Results found at:https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepaper.pdf, page 15, Table 1.MI200-02
- Calculations conducted by AMD Performance Labs as of Sep 21, 2021, for the AMD Instinct™ MI250X and MI250 (128GB HBM2e) OAM accelerators designed with AMD CDNA™ 2 6nm FinFet process technology at 1,600 MHz peak memory clock resulted in 128GB HBM2e memory capacity and 3.2768 TFLOPS peak theoretical memory bandwidth performance. MI250/MI250X memory bus interface is 4,096 bits times 2 die and memory data rate is 3.20 Gbps for total memory bandwidth of 3.2768 TB/s ((3.20 Gbps*(4,096 bits*2))/8).The highest published results on the NVidia Ampere A100 (80GB) SXM GPU accelerator resulted in 80GB HBM2e memory capaicity and 2.039 TB/s GPU memory bandwidth performance.https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/a100/pdf/nvidia-a100-datasheet-us-nvidia-1758950-r4-web.pdf MI200-07
- The AMD Instinct™ MI250X accelerator has 220 compute units (CUs) and 14,080 stream cores. The AMD Instinct™ MI100 accelerator has 120 compute units (CUs) and 7,680 stream cores. MI200-027
- Calculations conducted by AMD Performance Labs as of Sep 21, 2021, for the AMD Instinct™ MI250X and MI250 (128GB HBM2e) OAM accelerators designed with AMD CDNA™ 2 6nm FinFet process technology at 1,600 MHz peak memory clock resulted in 3.2768 TFLOPS peak theoretical memory bandwidth performance. MI250/MI250X memory bus interface is 4,096 bits times 2 die and memory data rate is 3.20 Gbps for total memory bandwidth of 3.2768 TB/s ((3.20 Gbps*(4,096 bits*2))/8). Calculations by AMD Performance Labs as of OCT 5th, 2020 for the AMD Instinct™ MI100 accelerator designed with AMD CDNA 7nm FinFET process technology at 1,200 MHz peak memory clock resulted in 1.2288 TFLOPS peak theoretical memory bandwidth performance. MI100 memory bus interface is 4,096 bits and memory data rate is 2.40 Gbps for total memory bandwidth of 1.2288 TB/s ((2.40 Gbps*4,096 bits)/8) MI200-33