Büyük Dil Modelleri için Donanım Karşılaştırması: A100, H100 ve H200

Yüksek başarımlı hesaplama ve yapay zekâ gibi veri yoğun çalışmaları mümkün kılan ve sınırları zorlayan önemli bir oyuncu var: NVIDIA!

Ayyüce Kızrak, Ph.D.
8 min readNov 19, 2023

Bu yazıda, A100, H100 ve H200 GPU’larını kısaca tanıtarak birbirleriyle karşılaştıracağım. Hangi çalışma için hangi GPU’nun tercih edilmesi gerektiği konusunda kısa bir rehber olarak değerlendirebilirsiniz. Ayrıca, şirketlerin Büyük Dil Modelleri (Large Language Models-LMMs) için kaç GPU’ya ihtiyaç duydukları ve enerji tüketimi gibi önemli bilgileri bulabileceksiniz. Nvidia, teknolojiyi geliştirip satma konusunda birçok şirket ve araştırmacının tercihi olmasına rağmen, arz-talep dengesizliğine değineceğim.

Görsel Kaynağı: NVIDIA

A100 — Yüksek Başarımlı Hesaplamada Devrim

A100, NVIDIA’nın Ampere mimarisinin öncüsüdür ve hesaplama yeteneğini 2020 yılının ilk yarısında tanıtarak yeniden tanımlayan bir GPU olarak karşımıza çıktı. Özellikle önceki serisi Volta ile karşılaştırıldığında, A100'de kayda değer düzeyde iyileştirmeler bulunmaktadır. Bu iyileştirmeler, LLM’ler gibi yapay zekâ (YZ) projeleri üzerinde çalışan araştırmacılar için hızla tercih edilen bir donanım haline gelmesini sağladı.

Bir öncesi Volta serisine göre YZ Eğitimi için TF32 ile 6 kata kadar daha yüksek performans

A100, 6912 CUDA çekirdeği, 432 tensör çekirdeği ve 40–80 GB yüksek bant genişliğine sahip (High-Bandwidth Memory-HBM2) ile donatılmıştır. Üçüncü nesil Tensör Çekirdekleri, YZ görevlerini hızlandırarak görüntü tanıma, doğal dil işleme ve konuşma tanıma gibi alanlarda çığır açan gelişmelere öncülük etmiştir.

H100 — Üretken Yapay Zekâ için Performans ve Optimizasyon

Hopper mimari ailesinin dördüncü nesil Tensör Çekirdekli H100'ü, NVIDIA’nın yenilikçilikle olan bağlılığını 2022 yılının ilk yarısında A100'ü unutturacak bir etkiyle tanıttı.

GPT-3'te 4 kata kadar daha yüksek YZ eğitimi performansı ve NVLink ile optimize ölçekleme imkânı sunmaktadır.

H100, 18432 CUDA çekirdeği, 640 Tensör Çekirdeği, 128 RT Çekirdeği ve 80 Akışlı Çoklu İşlemci (Streaming Multiprocessors-SMs) ile donatılmıştır, YZ görevlerini optimize etme konusunda yeni bir seviyeyi temsil eder. NVLink ara bağlantı teknolojisi sayesinde GPU’dan GPU’ya sorunsuz ve optimize bir entegrasyon sağlar. H100, 10,6 teraflopa kadar tek duyarlı performans ve 5,3 teraflopa kadar çift duyarlı performans sunarak, makine öğrenmesi ve derin öğrenme iş yüklerindeki yeteneğiyle YZ bilişim alanında öncü bir konumda bulunmaktadır.

H100'ü anlatırken, TensorRT-LLM’den de bahsetmek önemlidir. Bu açık kaynaklı kütüphane, YZ platformundaki en son LLM’lerin çıkarım (inference) performansını artırmak ve optimize etmek amacıyla geliştirilmiştir. Geliştiricilere C++ veya CUDA bilgisine ihtiyaç duymaksızın yeni LLM’leri deneme olanağı sunarak, yüksek performanslı ve hızlı özelleştirmeler yapmalarına imkân tanır.

H200 — Eli Yükseltmek

NVIDIA, oyun alanında durmak bilmiyor ve en son cevheri olan H200'ü Kasım 2023'te tanıtarak bu hızını sürdürdü. Hopper mimarisi temelinde geliştirilen H200, çığır açan HBM3e belleğiyle öne çıkıyor. Saniyede 4,8 terabaytlık akıl almaz 141 GB bellek kapasitesiyle, üretken yapay zeka (YZ) ve Yüksek Başarımlı Hesaplama (High Performance Computing-HPC) iş yüklerinde devasa veri kümelerini işleme konusunda yeni bir standart belirleyecek. 2024'ün ikinci çeyreğinde satışa sunulması planlanan H200, A100'ü aşan bir performans artışı vadetmektedir.

Karşılaşma: A100 – H100 – H200

Mimari yarışında, A100'ün 80 GB HBM2 belleği H100'ün 80 GB HBM2 belleğiyle rekabet ederken, H200'nün devrim niteliğindeki HBM3'üyle dikkat çekiyor.

KARŞILAŞTIRMA: GPT-J-6B A100'ün ve H100'ün TensorRT-LLM’li ve TensorRT-LLM’siz sonuçları— Llama 2 70B, A100 ve H100'ün TensorRT-LLM’li ve TensorRT-LLM’siz sonuçları

GPT-J 6B ve Llama2 70 B modelleri için yapılan çıkarım performansı karşılaştırmasında, H100'ün A100'e göre 4 kat daha hızlı olduğu görülmektedir. Özellikle, donanımın LLM projeleri için optimum kullanımını sağlayan H100 TensorRT-LLM’li versiyonu, A100'e kıyasla 8 kat daha yüksek çıkarım performansı sergilemektedir. Meta’nın Llama2 modeli için de performans farkı gözlemlenmekle birlikte, model parametreleri arttıkça A100 ile H100 arasındaki performans artış hızının azaldığını söylemek yerinde olacaktır.

Güç Verimliliği: Hassas Dengeler

Toplam sahip olma maliyeti (Total Cost of Ownership-TCO) ve enerji tüketimini mümkün olan en düşük seviyede tutmak, özellikle YZ ve özellikle LLM geliştiricileri için kritik bir öneme sahiptir. Çünkü bu maliyetler, projenin geri kalanında ihtiyaç duyulan ekipmanlar, insan kaynağı ve bağlantısallık gibi diğer maliyetlerden çok daha büyük olabilir.

KARŞILAŞTIRMA: A100'ün TensorRT-LLM ile H100 TCO ve enerji maliyeti — TCO ve enerji maliyeti avantajları

Gelişmiş mimarisiyle H200, performans ile güç tüketimi arasında hassas bir denge kurmayı amaçlayarak verimli YZ bilişimi için yeni ufuklar açması beklenmektedir. Bu konudaki gelişmeleri zaman içinde gözlemleyeceğiz.

Hangisini Seçmeli?

Doğru GPU seçimi tamamen ihtiyaca bağlıdır ve her GPU her senaryo için uygun olmayabilir. A100, yoğun YZ görevleri ve derin öğrenme konularında hala güçlü bir performans sergilemekte. Daha bütçe dostu bir seçenek olan H100, grafik ağırlıklı görevlerde tercih edilebilir. H100'ün TensorRT-LLM ve NVLink gibi optimizasyonları, özellikle LLM alanında A100'ü geride bıraktığını gösteriyor. Yeni gelen H200, beklenen performans artışı ve verimlilikle, özellikle üretken YZ araştırma ve ürün geliştirmelerinde iddialı bir konuma sahip.

Aşağıda, aynı Doğal Dil İşleme (Natural Language Processing-NLP) çıkarımı için 8 farklı A100 donanım konfigürasyonu karşılaştırılmıştır. 1 adet H100'ü doğrusal ölçeklendirme ile 8 ile çarpmak tam doğru sonucu vermemekle birlikte, diğer A100 deneylerinin performansını aştığı görülmektedir. Bu, NVIDIA’nın resmi paylaşımlarından oldukça farklı değildir. 8 adet H100'e sahip olmanın, Netrix-X660G45L (8x A100-SXM4–80GB, TensorRT) ile karşılaştırıldığında NLP’de ~27.000 sorgu/sn elde eden Netrix-X660G45L’nin saniyede yaptığı çıkarım sorgularının iki katından fazla (~60.000 sorgu/sn) olabileceği tahmin edilmektedir.

NLP için A100 ve H100 Karşılaştırması

NLP yerine bu sefer öneri motoru uygulaması için saniyedeki (çevrim içi) çıkarım sonuçları benzer şekilde karşılaştırılmıştır. 8 adet H100'e sahip olmanın, saniyede 2,5 milyon öneri motoru çıkarım sorgusu gerçekleştireceğini, 8 adet A100'lerde ise ilk iki konfigürasyondan daha düşük olduğu görülmüştür. Her ikisi de saniyede 2,6 milyon çıkarım sorgusu gerçekleştireceği tahmin edilmektedir. 1 numaralı çözüm aynı Nettrix-X660G45L (8x A100-SXM(4)-80GB, TensorRT) ve 2 numaralı öneri motoru çıkarım çözümü ise Inspur-NF5688M6 (8x A100-SXM(4)-80GB, TensorRT).

Öneri Motoru için A100 ve H100 Karşılaştırması

NVIDIA’nın yaptığı bir karşılaştırmaya göre; 16 bit çıkarım için H100 yaklaşık 3,5 kat daha hızlı ve 16 bit eğitim için H100 yaklaşık 2,3 kat daha hızlıdır.

KARŞILAŞTIRMA: Yüksek Başarımlı Hesaplama, YZ Çıkarım ve YZ Eğitim için farklı örneklerde A100, H100 ve H100+NVLink Sonuçları

Kullanım Örnekleri: Endüstri İhtiyaçlarına Göre Özelleştirme

A100 Kullanım Senaryoları

  • Derin Öğrenme ve YZ Eğitimi: Tensör Çekirdekleri ve yüksek hesaplama performansıyla A100, görüntü tanıma, doğal dil işleme ve daha fazlası gibi çeşitli uygulamalar için büyük sinir ağlarının eğitilmesi de dahil olmak üzere derin öğrenme görevleri için çok uygundur.
  • YZ Çıkarımı: A100 GPU’lar, eğitimli modellerin gerçek zamanlı olarak tahminler veya sınıflandırmalar yapmak üzere dağıtıldığı YZ çıkarım iş yükleri için kullanılır. Tensör Çekirdekleri verimli çıkarım işlemeye katkıda bulunur.
  • HPC: A100 GPU’lar, karmaşık bilimsel simülasyonlar, hava durumu modellemesi, moleküler dinamik simülasyonları ve diğer hesaplama açısından yoğun görevler için HPC ortamlarında kullanılır. Yüksek bellek bant genişliği ve hesaplama gücü bu tür uygulamalar için faydalıdır.
  • Veri analizi: Veri analitiği ve iş zekası gibi büyük veri kümelerinin hızlı bir şekilde işlenmesi gereken senaryolarda, A100 GPU’lar veri işleme ve analizini hızlandırabilir.
  • Bulut bilişim: A100 GPU’lar bulut bilişim platformlarına entegre edilerek kullanıcıların şirket içi donanıma ihtiyaç duymadan çeşitli iş yükleri için yüksek performanslı GPU kaynaklarına erişmesine olanak tanıyor.

H100 Kullanım Senaryoları

  • Büyük Dil Modelleri: H100 muhtemelen A100'e benzer şekilde LLM ve üretmek YZ araştırmalarında öne çıkmaktadır.
  • Sayısal Simülasyonlar: İklim modelleme, akışkanlar dinamiği ve sonlu elemanlar analizi gibi sayısal simülasyonları içeren uygulamalar, H100'ün HPC yeteneklerinden yararlanabilir.
  • Moleküler Dinamik: A100'e benzer şekilde H100, moleküllerin ve biyolojik sistemlerin davranışlarını incelemek için moleküler dinamik simülasyonlarında kullanılabilir.
  • HPC Kümeleri: H100 GPU’lar, karmaşık görevlerin birden fazla düğümde paralel olarak işlenmesi için HPC kümelerine entegre edilebilir.

Kaç Tanesine İhtiyaç Var?

İhtiyaç duyulan GPU sayısı, benzer şekilde veri türüne, büyüklüğüne ve kullanılacak modellerle ilişkilidir. Şirketlerin bu GPU’lardan kaç tanesine ihtiyaç duyduklarına örnek olarak, bazı büyük dil modelleri için aşağıdaki örnekleri inceleyelim:

Arz-Talep Dengesizliği

GPU dünyasında fiyat ve bulunabilirlik faktörleri oldukça kritik bir rol oynuyor. Yüksek performansıyla A100 ve H100, daha yüksek maliyetle gelerek, ham güce ihtiyaç duyanlar için önemli bir yatırımı temsil ediyor. A100'ün tedarik süreci genellikle daha hızlı olmasına rağmen, H100 için bazen bir yıla kadar uzanan tedarik süreleriyle karşılaşılabiliyor. NVIDIA’nın Inception programından faydalanmak isteyen start-uplar için ise beklemek garanti demek yanlış olmaz ve fiyatlar her geçen gün artış göstermeye devam ediyor.

Bu sorun, OpenAI gibi şirketler için de geçerli olup, bazen şirket yöneticilerinin bu konuda paylaştığı tweetleri görmekteyiz.

“Yeni ChatGPT Plus kayıtlarını bir süreliğine duraklatıyoruz :(

Geliştirme gününden sonra kullanımdaki artış kapasitemizi aştı ve herkesin harika bir deneyim yaşamasını sağlamak istiyoruz.” Sam Altman

2024'ün ikinci çeyreğinde piyasaya sürülmesi beklenen H200, gelişmiş yetenekler ve verimlilik vaat eden yeni bir oyuncuyu arenaya tanıtıyor.

Sonuç ve Değerlendirme

Bu yazımda GPU seçiminde kullanıcıları rehberlik etmek için hangi durumda hangi modelin tercih edilebileceğinin kısaca değerlendirmeye çalıştım. Ayrıca, şirketlerin ihtiyaç duydukları GPU sayısına ve fiyat/bulunabilirlik dengesizliğine de vurgu yaparak, donanım seçimi sürecinde karşılaşılan pratik zorluklara da dikkat çekmiş sayılırız.

  • A100 ve H100 farklı kullanım senaryolarına göre tasarlanmışlardır.
  • A100 daha çok HPC ve YZ görevleri için tasarlanmış olup H100 grafik yoğunluklu görevlere uygundur. Ancak TensorRT-LLM sayesinde H100 LLM görevlerinde radikal performans iyileştirmesine sahiptir.
  • Sağlık, finans, iklim ve doğal dil işleme gibi alan spesifik bir donanım seçimi gerektirir.
  • Tedarik sürecinin uzunluğu ve fiyatların artmaya devam edişi mümkün olan çalışmaların bulut sağlayıcılar üzerinden hizmet alarak gerçekleştirilmesine yol açıyor. Ancak bazı projeler ve veriler için bulut kullanımının engellendiği yasal yükümlülüklerin mevcut olduğunu da unutmamak gerekir.

LinkedIn, Twitter ve GitHub hesabımı da takip edebilirsiniz!

Benzer yazılarım:

Kaynaklar:

--

--

Ayyüce Kızrak, Ph.D.

AI Specialist @Digital Transformation Office, Presidency of the Republic of Türkiye | Academics @Bahçeşehir University | http://www.ayyucekizrak.com/