- Samsung Electronics Dijital Deneyimler CTO'su ve Samsung Research Başkanı Paul Kyungwhoon Cheun:
- "TRUEBench'in üretkenlik işlerinde değerlendirme standartları oluşturacağına ve Samsung'un teknolojideki liderliğini daha da güçlendireceğine inanıyoruz"
İSTANBUL - Samsung Electronics, yapay zeka verimliliğini değerlendirmek üzere Samsung Research tarafından geliştirilen tescilli benchmark çözümü TRUEBench'i (Trustworthy Real-world Usage Evaluation Benchmark) tanıttı.
Şirketten yapılan açıklamaya göre, büyük dil modellerinin (LLM'ler) gerçek dünyadaki iş verimliliği uygulamalarında nasıl performans gösterdiğini ölçen kapsamlı bir metrik seti sunan TRUEBench, gerçekçi bir değerlendirme sağlamak için çeşitli diyalog senaryoları ve çok dilli koşullardan faydalanıyor.
Samsung'un verimlilik çalışmalarında kullandığı kendi yapay zeka teknolojilerini temel alan TRUEBench, içerik oluşturma, veri analizi yapma, özet çıkarma ve çeviri yapma gibi yaygın kullanılan kurumsal görevleri 10 temel kategori ve 46 alt kategoride değerlendiriyor.
Benchmark, yapay zeka destekli otomatik değerlendirmeler yaparak görevlere güvenilir bir puanlama veriyor. Bu değerlendirmeler, insan ve yapay zeka işbirliği içinde tasarlanan ve geliştirilen kriterlere dayanıyor.
- Yansıtma doğruluğu sınırlarını kaldırmayı hedefliyor
Şirketler, yapay zekayı daha çok benimsedikçe büyük dil modellerinin üretkenliğini ölçme talebinde de artış yaşanıyor. Ancak çoğunlukla İngilizce odaklı mevcut kriterler, öncelikle genel performansı ölçüyor ve tek turdan oluşan soru-cevap yöntemleriyle sınırlı bir değerlendirme yapıyor. Bu durum ise değerlendirmelerin gerçek çalışma ortamlarını yansıtma doğruluğunu sınırlandırıyor.
Bu sınırlamaları kaldırmak için geliştirilen TRUEBench, hem 10 kategori ve 12 dilde çalışan 2 bin 485 test setinden oluşuyor hem de diller arası senaryoları destekliyor. Test setleri, yapay zeka modellerinin gerçekte hangi noktalara çözüm sunabileceğini inceliyor. Çözüm, kolay taleplerden uzun belgeleri özetlemeye kadar çeşitli görevleri inceliyor ve içeriği 8 karakterden 20 bin karakterin üzerine kadar değişen test setleri uyguluyor.
Yapay zeka modellerinin performansını değerlendirirken sağlanan yanıtların doğru olup olmadığını anlamaya imkan veren net kriterlere sahip olmak, büyük önem taşıyor. Gerçek yaşam senaryolarında, kullanıcıların tüm istekleri, talimatlarda açıkça belirtilmeyebiliyor. Bu nedenle TRUEBench, yalnızca yanıtların doğruluğunu değil aynı zamanda kullanıcıların örtük ihtiyaçlarını gözeten ayrıntılı koşulları da dikkate alıyor ve gerçekçi değerlendirmeler yapıyor.
Gerçek insanlar ve yapay zeka işbirliğiyle değerlendirme öğelerini doğrulayan bu çözümde, ilk olarak, gerçek yorumcular değerlendirme kriterlerini oluşturuyor. Ardından yapay zeka bunları inceleyerek hataları, çelişkileri veya gereksiz kısıtlamaları kontrol ediyor ve yorumların kriterini daha iyi hale getiriyor. Bu süreç tekrarlanarak, giderek daha hassas değerlendirme standartları oluşturuluyor.
Söz konusu çapraz doğrulama kriterlerine dayanan yapay zeka modellerinin otomatik değerlendirmesiyle kişisel önyargılar en aza indiriliyor ve tutarlılık sağlanıyor. Her testte, modelin değerlendirmeden geçebilmesi için tüm koşulların karşılanması gerekiyor. Bu da görevlerin daha ayrıntılı ve hassas puanlanmasını sağlıyor.
TRUEBench'in veri örnekleri ve puanlama tabloları, küresel açık kaynak platformu Hugging Face'de yer alıyor. Bu da kullanıcıların beş modele kadar karşılaştırma yapmasına ve yapay zeka model performanslarını kapsamlı bir şekilde incelemesine imkan tanıyor. Ayrıca, ortalama yanıt süresi sonuçlarına ilişkin veriler de bu platformda yayımlanıyor. Böylece, performans ve verimlilik eşzamanlı karşılaştırılabiliyor.
Açıklamada görüşlerine yer verilen Samsung Electronics Dijital Deneyimler Teknoloji Ofisleri Şefi (CTO) ve Samsung Research Başkanı Paul Kyungwhoon Cheun, Samsung Research'ün, gerçek dünyadaki yapay zeka deneyimleriyle müşterilerine güçlü bir uzmanlık ve rekabet avantajı kazandırdığını belirtti.
Cheun, "TRUEBench'in üretkenlik işlerinde değerlendirme standartları oluşturacağına ve Samsung'un teknolojideki liderliğini daha da güçlendireceğine inanıyoruz." değerlendirmesinde bulundu.(AA)