Mayıs 19, 2024

Play of Game

Türkiye'den ve dünyadan siyaset, iş dünyası, yaşam tarzı, spor ve daha pek çok konuda son haberler

NVIDIA AMD’ye saldırıyor, H100 AI GPU’nun geliştirilmiş yazılımla MI300X’ten %47 daha hızlı performans sağladığını iddia ediyor

NVIDIA AMD’ye saldırıyor, H100 AI GPU’nun geliştirilmiş yazılımla MI300X’ten %47 daha hızlı performans sağladığını iddia ediyor

Nvidia’da var Piyasaya sürülmüş H100 AI GPU için yeni bir dizi kıyaslama ve AMD’nin yakın zamanda açıkladığı MI300X ile karşılaştırması. Bu en son kıyaslamaların amacı, H100’ün doğru yazılımla rakiplerinden daha hızlı performansı nasıl sağladığını göstermektir (rakibinin son sunumunda durum böyle değildi).

NVIDIA, AMD’yi arka koltuğa koyuyor: Eski Hopper H100 GPU, uygun kıyaslama koşulları altında AMD MI300X’e kıyasla %47 daha hızlı performans sunuyor

AMD, ‘Gelişen Yapay Zeka’ sunumu sırasında veri merkezi sektöründe yapay zeka yolculuğunun başlangıcı olmayı hedefleyen Instinct MI300X GPU’yu tanıttı. Sunumda şirketin MI300X’i NVIDIA’nın H100 GPU’su ile karşılaştırdığı çeşitli rakamlar ve karşılaştırmalar yer aldı. AMD, MI300X’in tek bir GPU ile karşılaştırıldığında H100’e göre %20’ye kadar, 8 GPU’lu bir sunucuyla karşılaştırıldığında ise H100’e göre %60’a kadar daha hızlı performans sağladığını iddia ediyor. NVIDIA bu kriterlere hızlı bir şekilde yanıt verdi ve sonuçların gerçeklerden uzak olduğunu vurguladı.

NVIDIA H100 GPU, 2022 yılında piyasaya sürüldü ve yazılım tarafında çeşitli iyileştirmeler gördü. En son TensorRT-LLM geliştirmeleri, çekirdek düzeyinde iyileştirmelerin yanı sıra AI iş yüklerinde performansı artırdı. NVIDIA, tüm bu unsurların H100 AI GPU’ların FP8 işlemlerini kullanarak Llama 2 70B gibi modelleri çalıştırmasına izin verdiğini belirtiyor. AMD’nin etkinlik sırasında sunduğu Llama 2 70B’nin AI GPU performans rakamları şöyle:

  • MI300X, 8v8 sunucuda H100’e (Llama 2 70B) kıyasla %40’a kadar daha hızlıdır
  • MI300X, 1v1 karşılaştırmasında H100’e (Llama 2 70B) kıyasla %20’ye kadar daha hızlıdır

AMD, Instinct MI300X ile Hopper H100’ü karşılaştırırken rakamları ROCm 6.0 paketindeki optimize edilmiş kitaplıklarla değerlendirdi. Ancak TensorRT-LLM gibi optimize edilmiş yazılımlar kullanılarak test edilmeyen NVIDIA H100 GPU için aynı durum geçerli değildi. NVIDIA tarafından yayınlanan kıyaslamalarda şirket, Batch-1’de Llama 2 70B modelini çalıştıran 8 adede kadar H100 GPU’ya sahip tek bir DGX H100 sunucusunun ölçülen gerçek performansını gösteriyor.

READ  Yeni Mercedes-AMG GT, Porsche 911'e meydan okuyor - Rob'un raporu
Resim kaynağı: Nvidia

Dipnotlar:

AMD’nin H100 ile ilgili zımni iddiaları, AMD’nin lansman sunumu MI300-38’in dipnotundan alınan konfigürasyona göre ölçülmüştür. NVIDIA DGX H100 sistemi ile vLLM v.02.2.2 çıkarım yazılımını kullanan bir Llama 2 70B sorgusunun giriş sırası uzunluğu 2048 ve çıkış sırası uzunluğu 128’dir. 8x MI300X GPU’lu DGX H100 ile karşılaştırıldığında göreceli performans iddiasında bulundular sistem.

NVIDIA’dan ölçülen veriler için, halka açık NVIDIA TensorRT-LLM ile 80 GB HBM3’lü 8x NVIDIA H100 Tensor Core GPU’lu DGX H100, grup 1 için sürüm 0.5.0 ve gecikme eşiği ölçümleri için sürüm 0.6.1. İş yükü ayrıntıları MI300-38 dipnotuyla aynıdır.

Sonuçlar, AMD’nin etkinliği sırasında gösterdiğiyle karşılaştırıldığında DGX H100 sunucusunun optimize edilmiş yazılım iş akışını kullanırken iki kat daha hızlı olduğunu gösteriyor. Sunucu ayrıca AMD MI300X 8-GPU çözümünden %47 daha hızlıdır.

DGX H100, tek bir toplu iş boyutunu, yani her seferinde bir çıkarım talebini kullanarak tek bir çıkarımı 1,7 saniyede işleyebilir. Tek toplu iş boyutu, form hizmeti için mümkün olan en hızlı yanıt süresini sağlar. Bulut hizmetleri, hem yanıt süresini hem de veri merkezi verimini iyileştirmek için belirli bir hizmete sabit bir yanıt süresi atar. Bu, birden fazla çıkarım isteğini daha büyük “topluluklar” halinde birleştirmelerine ve sunucu için saniye başına genel çıkarımları artırmalarına olanak tanır. MLPerf gibi endüstri standartları da performansı bu tutarlı yanıt süresi ölçümü aracılığıyla ölçer.

Yanıt süresindeki küçük ödünler, bir sunucunun gerçek zamanlı olarak işleyebileceği çıkarım isteklerinin sayısını etkileyebilir. 2,5 saniyelik sabit yanıt süresi bütçesi kullanan 8 GPU’lu bir DGX H100 sunucusu, ilk partide saniyede birden az olan Llama 2 70B çıkarımına kıyasla saniyede beşten fazla Llama 2 70B çıkarımını işleyebilir.

Nvidia aracılığıyla

NVIDIA’nın bu yeni kıyaslamaları kullanması, AMD’nin de GPU’larının performansını değerlendirmek için optimize edilmiş yazılım kullanması açısından doğrudur; o halde neden aynı şeyi NVIDIA donanımını test ederken yapmayasınız? NVIDIA’nın yazılım yığını CUDA ekosistemi etrafında toplanmıştır ve artık yeni ortaya çıkan yapay zeka pazarı oldukça sağlamdır ve yıllarca süren çaba ve geliştirmeyi bünyesinde barındırmaktadır; AMD’nin ROCm 6.0’ı ise yenidir ve henüz gerçek dünya senaryosunda test edilmemiştir. Ancak AMD, Microsoft, META gibi büyük şirketlerle ve MI300X GPU’larını NVIDIA AI çözümlerine alternatif olarak gören diğer şirketlerle önemli miktarda anlaşma yaptı.

READ  Mortal Kombat 1 hayranları mikro dönüşümlerden kaçınmak için ellerinden geleni yapıyor

من المتوقع أن يتم تعزيز Instinct MI300X وMI300A بحلول النصف الأول من عام 2024، وهو نفس الوقت تقريبًا الذي ستقدم فيه NVIDIA وحدة معالجة الرسوميات Hopper H200 الأسرع، يليها Blackwell B100 في النصف الثاني من عام 2024. لذلك يبدو أنه من المتوقع أن تزداد المنافسة في مجال yapay zeka. Daha fazla ısıtılır.