Taalas LLM’leri silikon çipe sabitleyerek gecikmeyi azaltıyor

Yonga içine model gömerek hız ve maliyette rakiplerini ezdi.

Taalas, yapay zekâ modellerini donanıma sabitleyen özel bir çip tasarlayarak LLM (büyük dil modeli) yanıt gecikmesi ve performans sorununa çözüm buldu. Son dönemde geliştirilen bu yaklaşım, özellikle Meta’nın Llama 3.1 8B LLM’i gibi modellerde gecikme ve maliyet optimizasyonu vaadediyor.

Taalas ne yaptı?

Taalas, genel amaçlı hesaplamadan LLM’lere yönelik uygulamaya özel entegre devrelere (ASIC) yönelerek modelleri doğrudan silikon üzerine eşledi. Bununla birlikte şirket, modellerin donanım seviyesinde optimize edilmesi sayesinde önemli performans ve maliyet kazanımları sağladığını söylüyor.

Founded 2.5 years ago, Taalas developed a platform for transforming any AI model into custom silicon. From the moment a previously unseen model is received, it can be realized in hardware in only two months. The resulting Hardcore Models are an order of magnitude faster, cheaper, and lower power than software-based implementations.

– Taalas

Yaklaşım nasıl çalışıyor?

Taalas iki ana unsura odaklanıyor: LLM iş yüklerinin donanım seviyesinde özelleştirilmesi ve depolama ile hesaplamanın birleştirilmesi. Öte yandan şirket, bellek duvarlarını ve veri iletişimindeki ek yükleri aşmak için genel amaçlı sistemlerin ötesine geçtiğini belirtiyor.

Bununla birlikte Taalas, bellek ve hesaplamayı DRAM seviyesi yoğunluğunda gerçekleştirdiğini; böylece veri iletişimini hızlandırdığını aktarıyor. Öte yandan bu yaklaşım gelişmiş paketleme veya karmaşık entegrasyonlara dayanmak yerine silikonun mühendislik dinamikleri içinde optimizasyon sağlıyor.

HC1 çipi ve teknik özellikleri neler?

Taalas, Meta’nın Llama 3.1 8B LLM’ini entegre eden ilk ürünü HC1’i sergiledi. HC1, TSMC’nin 6 nm üretim düğümünü kullanıyor ve çip boyutu 815 mm²’ye kadar çıkıyor; bu, NVIDIA’nın H100 çipine yakın bir boyut.

HC1, sekiz milyar parametreli modeli barındırıyor; oysa günümüzde LLM’ler trilyon parametreye kadar ölçeklenebiliyor. Sonuç olarak Taalas, ölçeklendirme için küme tabanlı çözümler sunmak zorunda kalıyor.

Performans ve maliyet sonuçları nedir?

Taalas, HC1 ile Meta’nın Llama 8B modelinde 10x daha yüksek TPS (token-per-second) sağladığını ve üretim maliyetlerini 20x daha düşük seviyelere çektiğini söylüyor. Öte yandan şirketin verdiği performans rakamları sektör açısından dikkat çekici.

  • 10x daha yüksek TPS (saniyedeki token sayısı)
  • 20x daha düşük üretim maliyeti
  • TSMC 6 nm node, çip boyutu: 815 mm²
  • HC1, 8 milyar parametre barındırıyor
  • Küme tabanlı örnek: DeepSeek R1 ile 30 çipli konfigürasyonda 12.000 TPS/user

Ölçeklendirme ve sınırlamalar nelerdir?

Taalas, performansı ölçeklendirmek için küme tabanlı mimariyi kullanıyor ve DeepSeek’in R1’i ile 30 çiplik bir konfigürasyonda kullanıcı başına 12.000 TPS elde etti. Bununla birlikte donanımın belirli LLM’lere özgü olması, model ağırlıklarını değiştirme esnekliğini sınırlıyor.

Öte yandan Taalas’ın hız ve maliyet avantajları, bu sınırlamayı kabul edilebilir kılıyor; sonuç olarak pazar benimsenmesi ve iş modeli ilk kısıtlayıcı faktörler arasına giriyor.

Sonuç olarak neden önemli?

Taalas’ın donanıma sabitleme yaklaşımı, LLM gecikmesini ve üretim maliyetlerini aynı anda hedefleyerek AI hızlandırma alanında alternatif bir yol sunuyor. Sonuç olarak bu çözüm, yüksek performans gerektiren ajan ortamları ve gerçek zamanlı uygulamalar için önemli bir adım olabilir.

Öte yandan siz ne düşünüyorsunuz? Yorum bölümünde görüşlerinizi paylaşın.

Dijithal

Dijithal.com sitesi içerisinde güncel hayata dair bir çok konu hakkında bilgi edinebileceğiniz geniş kapsamlı blog sitesi. Sitemizdeki tüm içerikler tamamen bilgilendirme amaçlıdır. Oluşabilecek problemlerden dijithal.com sitesi sorumlu tutulamaz.

İlgili Makaleler

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu