Kaydol
Giriş Yap
Parolanızı mı unuttunuz

Şifreni mi unuttun? Lütfen e-mail adresinizi giriniz. Bir bağlantı alacaksınız ve e-posta yoluyla yeni bir şifre oluşturacaksınız.

Üzgünüz, gönderi ekleme izniniz yok.

Alibaba’dan Qwen3-Next: Performans ve Verimlilik Bir Arada!

Alibaba’nın Qwen araştırma ekibi, açık kaynaklı büyük dil modelleri serisine yeni bir halka ekleyerek Qwen3-Next’i duyurdu. Ekip, yaz boyunca farklı modellerin tanıtımlarını gerçekleştirdikten sonra, şimdi performans ve verimliliği bir araya getiren hibrit bir mimariyle kullanıcıların karşısına çıkıyor. Qwen3-Next, yalnızca 3 milyar aktif parametre kullanmasıyla dikkat çekerken, 80 milyar parametreli bir yapıya sahip olmanın avantajını taşıyor. Bu yapı, uzun bağlamlarda yüksek verimlilikle çalışmasını sağlıyor.

Qwen3-Next resmen duyuruldu

Alibaba, Qwen3-Next adını verdiği tamamiyle ücretsiz yapay zeka modelini kullanıma sundu. Model, Instruct ve Thinking olmak üzere iki farklı varyantla kullanıcıların beğenisine sunuluyor. Her iki varyant, Apache 2.0 lisansı altında dağıtılmakta olup, Hugging Face, ModelScope, Kaggle ve Alibaba Cloud platformları üzerinden erişilebilir durumda.

yapay zeka destekli haber sitesi

Ayrıca, model doğrudan Qwen Chat platformunda kullanılabiliyor. Yeni modelde Gated DeltaNet ve Gated Attention yaklaşımları bir arada uygulanarak, elde edilen hibrit yapı kullanıcıya hem hız hem de doğruluk avantajı sunuyor. DeltaNet katmanları, uzun metinlerde hızlı okuma sağlarken, Gated Attention katmanları ise detaylı ve hassas kontrol imkanı tanıyor.

Teknik açıdan en dikkat çekici özelliklerden biri, modelin yalnızca 3 milyar aktif parametre ile çalışması. Bu sayede, 15 trilyon token üzerinde eğitim gören Qwen3-Next, selefi Qwen3-32B’den çok daha düşük maliyetle eğitildi ve çalıştırıldı.

Uzun bağlam testlerinde ise 32.000 token ve üzerindeki yorumlarda 10 kat daha yüksek hız sunabiliyor. Qwen3-Next, doğal olarak 256.000 token bağlam penceresini desteklerken, RoPE ölçekleme yöntemleriyle 1 milyon token uzunluğuna kadar doğrulanmış durumda.

Performans testlerinde, Qwen3-32B’nin üzerinde sonuçlar elde edildi. Reasoning odaklı Thinking varyantı, Gemini-2.5-Flash-Thinking gibi kapalı kaynaklı modellere karşı üstünlük sağlarken, Instruct modeli Qwen3’ün 235 milyar parametreli amiral gemisi ile benzer uzun bağlam performansı sergiledi.

Qwen ekibi, Qwen3-Next’in hem ölçeklenebilir hem de maliyet açısından uygun bir çözüm sunduğunu vurgularken, serinin bir sonraki aşaması olan Qwen3.5 üzerinde çalışmaların sürdüğünü de açıkladı.

Leave a comment

Related Posts