nvidia‐site - bozkurtmithat/glaptop GitHub Wiki
Yapay Zeka
Parallelism Teknikleri
Trilyon Parametreli Modeller için Yapay Zeka Çıkarımında İleri Paralellik Teknikleri
GPT 1.8T MoE (Uzmanların Karışımı) gibi trilyon parametreli modellerin kullanılması, yapay zeka çıkarımında, özellikle de optimum kullanıcı deneyimi sağlarken hesaplama kaynaklarını etkin bir şekilde yönetme konusunda benzersiz zorluklar ortaya çıkarmaktadır. Bu ekte, veri, tensör, boru hattı ve uzman paralelliğine odaklanarak bu zorlukların üstesinden gelmek için kullanılabilecek çeşitli paralellik teknikleri incelenmektedir.
Yapay Zeka Çıkarımında Paralellik Teknikleri
-
Veri Paralelliği (DP) Veri paralelliği, tüm modelin birden fazla kopyasını farklı GPU'larda veya kümelerde barındırmayı ve bağımsız kullanıcı isteklerini aynı anda işlemeyi içerir. Bu yaklaşım, GPU sayısıyla doğrusal olarak ölçeklenir ve kullanıcı etkileşimini etkilemeden verimi artırır. Bununla birlikte, her GPU tam bir model kopyası tuttuğu için önemli miktarda bellek gerektirir.
-
Tensör Paralelliği (TP) Tensör paralelliği, modelin her katmanını birden fazla GPU'ya bölerek bir kullanıcı isteğinin farklı bölümlerinin paralel olarak işlenmesini sağlar. Bu yöntem, istek başına daha fazla kaynak tahsis ederek kullanıcı etkileşimini artırabilir ve böylece işlem süresini kısaltabilir. Bununla birlikte, büyük ölçeklerde bir darboğaz haline gelebilen yüksek bant genişliğine sahip GPU'lar arası iletişime dayanır.
-
Boru Hattı Paralelliği (PP) Boru hattı paralelliğinde, farklı model katmanı grupları GPU'lara dağıtılır ve bir kullanıcı talebinin her bir parçası boru hattı boyunca sırayla işlenir. Bu teknik, ağırlıkları dağıtarak büyük modellerin yönetilmesine yardımcı olur, ancak işlemede verimsizliğe yol açabilir ve kullanıcı etkileşimini önemli ölçüde artırmaz.
-
Uzman Paralelliği (EP) Uzman paralelliği, model içindeki belirli uzmanlara gelen talepleri farklı GPU'lara yönlendirerek gereksiz parametrelerle etkileşimi azaltır. Uzman işleminden sonra sonuçlar, yüksek bant genişliğine sahip GPU ara bağlantısı üzerinden tümden tümden iletişim gerektirir. Karmaşık veri yönlendirme ve yeniden birleştirme yönetimi gerektirir ve etkinliği mevcut uzman sayısıyla sınırlıdır.
Paralellik Tekniklerinin Birleştirilmesi
Farklı paralellik yöntemlerinin birleştirilmesi, tek tek tekniklerin sınırlamalarını hafifletebilir. Hem uzman hem de ardışık düzen paralelliğinin kullanılması, verimde minimum kayıpla kullanıcı etkileşimini iki katına çıkarabilir. Benzer şekilde, tensör, uzman ve boru hattı paralelliğini entegre etmek, kullanıcı etkileşiminden ödün vermeden GPU verimini üç katına çıkarabilir. Doğru dağıtım senaryosu için farklı paralelizmleri birleştirmek, kapsamlı bir çözüm uzayı araştırmasıdır ve geniş bir hesaplama kaynakları kümesi gerektirir.
Verimi En Üst Düzeye Çıkarma ve Operasyonel Aşamaları Yönetme
Ön doldurma ve kod çözme aşamalarının, yani bağlam işleme ve oluşturma aşamasının verimli yönetimi, verimi en üst düzeye çıkarmak için çok önemlidir. Uçak içi gruplama ve yığınlama gibi teknikler, istek işlemenin dinamik yönetimine izin vererek ve bu aşamalar sırasında darboğazları önleyerek GPU kullanımını optimize edebilir.