Çin kökenli yapay zeka girişimi DeepSeek, MIT lisansı ile geliştirdiği yeni büyük dil modeli DeepSeek-V3-0324’ü kullanıcıların kullanımına sundu. Model, Hugging Face platformu üzerinden ücretsiz olarak indirilebiliyor ve ticari amaçlarla da erişime açık durumda.
Yeni DeepSeek-V3-0324 tanıtıldı
641 gigabayt boyutuna sahip bu model, özellikle tüketici seviyesindeki donanımlarda yüksek verimlilikle çalışabilmesiyle dikkat çekiyor. Hatta Apple’ın M3 Ultra çipine sahip Mac Studio cihazlarında sorunsuz bir şekilde işleyebildiği bildirilmektedir. Model, 685 milyar parametre ile tasarlanmıştır.
Türkiye’de listeler hazırlanırken, Amerika’nın yapay zeka alanındaki üstünlüğünü geçmek isteyen Çin, DeepSeek-V3-0324’ü tanıttı!
Yeni sürüm; daha güçlü akıl yürütme, etkileyici ön yüz geliştirme ve gelişmiş araç kullanımı ile MMLU-Pro’da %81.2, AIME’de %59.4 gibi yüksek başarı oranları elde etti. pic.twitter.com/LrOaoLmgRC
— Hakkı Alkan (@hakki_alkan) 25 Mart 2025
Yapay zeka araştırmacısı Xeophon, bu modelin Anthropic’in Claude Sonnet 3.5 modeline önemli bir rakip olabileceğini vurgulamaktadır. Özellikle Sonnet’in abonelik bazlı bir model olarak sunulmasına karşın, DeepSeek-V3-0324’ün tamamen ücretsiz olması bu yarışta avantaj sağlayacak.
Model, Mixture of Experts (MoE) mimarisi ile çalışıyor. Geleneksel büyük dil modellerinin aksine, DeepSeek-V3-0324 yalnızca en gerekli parametreleri devreye alıyor. 685 milyar parametreden sadece yaklaşık 37 milyarı aktif olarak kullanılmakta.
Bu yöntem, hesaplama süresini büyük ölçüde azaltmanın yanı sıra performansta da bir kayba yol açmıyor. Yapılan performans testlerinde, etkinleştirme yoğunluğu daha fazla olan diğer modellerle benzer sonuçların alındığı gözlemlenmiştir.
Ayrıca, DeepSeek-V3-0324, Multi-Head Latent Attention (MLA) ve Multi-Token Prediction (MTP) gibi iki önemli yeniliği de içermekte. MLA, uzun metinler arasında bağlamı koruma yeteneğini artırırken, MTP her adımda birden fazla token üretebilme imkanı sunuyor.
Bu yenilikler, modelin çıktı hızını yaklaşık yüzde 80 oranında artıracağı belirtiliyor. Apple araştırma ekibinden Awni Hannun, modeli Mac Studio üzerinde test ederek saniyede yaklaşık 20 token hızında çıktı alındığını ifade etti.
Kullanıcılar, modelin iletişim biçiminde önceki sürümlere göre belirgin bir değişiklik gözlemliyor. Daha önce insan benzeri ve konuşkan bir üsluba sahip olan DeepSeek modellerinin aksine, V3-0324 daha resmi ve teknik bir tarz benimsiyor.
DeepSeek’in bu atılımı, büyük dil modelleri arasındaki rekabeti yeni bir aşamaya taşıdı. Siz bu konu hakkında ne düşünüyorsunuz? Görüşlerinizi aşağıdaki yorum kısmında bizimle paylaşabilirsiniz.
Leave a comment