Yandex Araştırmaları LLM’leri Sıkıştırmak İçin Yeni Yöntemler Geliştirerek Yapay Zeka Dağıtım Maliyetlerini 8 Kata Kadar Azalttı

Yandex Araştırma ekibi, IST Austria, NeuralMagic ve KAUST araştırmacılarla işbirliği yaparak büyük dil modelleri için iki yeni sıkıştırma yöntemi geliştirdi: Dil Modelleri için Eklemeli Niceleme (AQLM) ve PV-Tuning. Bu yöntemler bir araya getirildiğinde model boyutunda 8 kata kadar azalma sağlarken yanıt kalitesini %95 oranında koruyor. Kaynakları optimize etmeyi ve büyük dil modellerinin çalıştırılmasında verimliliği artırmayı amaçlayan bu yeni yaklaşımın detaylarına dair makale, şu an Viyana, Avusturya'da devam etmekte olan Uluslararası Makine Öğrenimi Konferansı'nda (ICML) yer aldı.

 

AQLM ve PV-Tuning'in temel özellikleri

 

AQLM, LLM sıkıştırması için geleneksel olarak bilgi erişiminde kullanılan eklemeli niceleme yönteminden yararlanıyor. Ortaya çıkan yöntem aşırı sıkıştırma altında modelin doğruluğunu koruyup geliştiriyor, böylece LLM'lerin ev bilgisayarları gibi günlük cihazlarda yaygınlaştırılmasını mümkün kılıyor. Bu, bellek tüketiminde önemli bir azalmaya neden oluyor.

 

PV-Tuning ise model sıkıştırma işlemi sırasında ortaya çıkabilecek hataları gideriyor. AQLM ve PV-Tuning birleştirildiğinde, sınırlı bilgi işlem kaynaklarında bile yüksek kalitede yanıtlar sağlayabilen kompakt bir model eşliğinde optimum sonuçlar sunuyor.

 

Yöntem değerlendirme ve tanıma

 

Sunulan yöntemlerin etkinliği, LLama 2, Mistral ve Mixtral gibi popüler açık kaynaklı modeller kullanılarak titizlikle değerlendirildi. Araştırmacılar bu büyük dil modellerini sıkıştırarak cevap kalitesini İngilizce karşılaştırma ölçütleri olan WikiText2 ve C4 ile değerlendirdi. Modeller 8 kat sıkıştırılmalarına rağmen %95 gibi etkileyici bir oranda cevap kalitesini korumayı başardı.

 

 AQLM ve PV-Tuning'den kimler yararlanabilir

 

Yeni yöntemler, tescilli dil modellerini ve açık kaynaklı LLM'leri geliştiren ve dağıtan şirketler için önemli ölçüde kaynak tasarrufu sağlıyor. Örneğin sıkıştırma sonrası 13 milyar parametreye sahip Llama 2 modeli artık 4 yerine sadece 1 GPU üzerinde çalışarak donanım maliyetlerinde 8 kata kadar azalma sağlıyor. Bu da girişimlerin, bireysel araştırmacıların ve LLM meraklılarının Llama gibi gelişmiş LLM'leri günlük kullandıkları bilgisayarlarda çalıştırabilecekleri anlamına geliyor.

 

Yeni LLM uygulamalarını keşfetmek

 

AQLM ve PV-Tuning, modellerin sınırlı hesaplama kaynaklarına sahip cihazlarda çevrimdışı olarak dağıtılmasını mümkün kılarak, akıllı telefonlar, akıllı hoparlörler ve daha fazlası için yeni kullanım alanları sağlar. Bu cihazlara entegre edilen gelişmiş LLM'ler sayesinde kullanıcılar metin ve görüntü oluşturma, sesli yardım, kişiselleştirilmiş öneriler ve hatta gerçek zamanlı dil çevirisini aktif bir internet bağlantısına ihtiyaç duymadan kullanabiliyor.

 

Ayrıca, bu yöntemler kullanılarak sıkıştırılan modeller daha az hesaplama gerektirdiğinden 4 kata kadar daha hızlı çalışabiliyor.

 

Uygulama ve erişim

 

Dünya genelindeki geliştiriciler ve araştırmacılar, GitHub'da bulunan AQLM ve PV-Tuning'i kullanabiliyor. Geliştiriciler tarafından sağlanan demo materyalleri, çeşitli uygulamalar için sıkıştırılmış LLM'leri etkili bir şekilde eğitmek için rehberlik sunuyor. Ayrıca geliştiriciler, bu yöntemler kullanılarak sıkıştırılmış popüler açık kaynaklı modelleri indirebiliyorlar.

 

ICML’de öne çıktı

 

Yandex Research'ün AQLM sıkıştırma yöntemine ilişkin bilimsel makalesi, dünyanın en prestijli makine öğrenimi konferanslarından biri olan ICML'de yayınlandı. IST Austria'dan araştırmacılar ve yapay zeka girişimi Neural Magic'ten uzmanlarla birlikte hazırlanan bu çalışma, LLM sıkıştırma teknolojisinde önemli bir ilerleme anlamına geliyor.

Kaynak: (BYZHA) Beyaz Haber Ajansı