Dinlediğiniz bir sonraki şarkı, izleyeceğiniz dizi, karşınıza çıkan bir sonraki ürün önerisi… Günlük dijital hayatımızın ayrılmaz bir parçası haline gelen tavsiye sistemleri, aslında devasa veri yığınları üzerinde çalışan karmaşık algoritmaların bir sonucu. Ancak bu alandaki bilimsel araştırmalar ve yenilikçi yaklaşımlar, çoğu zaman büyük ölçekli ve kaliteli verilere erişim sıkıntısı nedeniyle istenen hızda ilerleyemiyordu. Şimdi ise teknoloji şirketi Yandex, bu durumu kökten değiştirebilecek dev bir adım atarak, kendi müzik akış platformu Yandex Music‘ten elde edilen ve yaklaşık 5 milyar anonimleştirilmiş kullanıcı etkileşimini içeren Yambda (Yandex Music Billion-Interactions Dataset) adlı, dünyanın en büyük açık veri setlerinden birini araştırmacıların ve geliştiricilerin kullanımına sundu. Hugging Face üzerinden erişilebilen bu veri seti, tavsiye sistemleri alanında yeni bir inovasyon dalgasını tetikleyebilir.
Tavsiye Sistemleri İçin Devrim Gibi Veri Seti: Milyarlarca Etkileşim Artık Erişilebilir!
Yandex, öneri sistemleri için şu anda genel erişime açık, dünyanın en büyüklerinden biri olan bu veri setini kullanıma sunarak, araştırma ve geliştirmeyi küresel ölçekte ilerletmeyi hedefliyor. Yambda adı verilen bu açık veri seti, bir müzik akış servisinden (Yandex Music) 10 ay boyunca toplanan 4,79 milyar anonimleştirilmiş kullanıcı etkileşimini (dinleme, beğenme, beğenmeme gibi) içeriyor. Veri seti, anonimleştirilmiş ses katıştırmaları (audio embeddings), kullanıcıların içerikleri organik olarak mı yoksa öneriyle mi keşfettiğini gösteren işaretler ve gerçek dünya davranış analizi için hassas zaman damgaları gibi zengin bilgiler kapsıyor.
Neden Bu Kadar Önemli? “Veri Kıtlığı” Tavsiye Algoritmalarının Gelişimini Nasıl Etkiliyordu?
Eğitim verilerinin kalitesi ve ölçeği; müzik ve video akış hizmetleri, sosyal ağlar, kısa video uygulamaları ve e-ticaret pazar yerleri gibi platformlarda kullanıcıya gerçekten “hitap eden” öneriler sunabilmek için kritik önem taşıyor. Ancak, öneri sistemlerine yönelik araştırmalar, büyük dil modelleri (LLM’ler) gibi hızla ilerleyen diğer yapay zeka alanlarının gerisinde kalmıştı. Bunun en büyük nedeni, büyük ölçekli ve gerçek dünya karmaşıklığını yansıtan veri setlerine sınırlı erişimdi. Etkili öneri modelleri geliştirmek, ticari platformların sahip olduğu ancak gizlilik ve rekabet gibi nedenlerle nadiren kamuya açık olarak paylaştığı terabaytlarca davranışsal veri gerektiriyor.
Araştırmacılar genellikle, modern kullanımın karmaşıklığını tam olarak yakalayamayan küçük ve görece eski veri setleriyle çalışmak zorunda kalıyordu. Örneğin, Spotify Million Playlists veri seti, ticari ölçekli sistemler için oldukça küçük kalırken; Netflix Prize veri seti, içerik sayısı ve sadece tarih damgalarıyla sınırlı olması nedeniyle zamansal modelleme ve büyük ölçekli araştırmalar için elverişli değildi. Criteo 1TB Click Logs gibi diğer büyük veri setleri ise genellikle uygun dokümantasyon ve tanımlayıcılardan yoksun olup, daha niş alanlara (örneğin reklam tıklamaları) odaklanıyordu.
Yandex Öneri Sistemleri Başkanı Nikolai Savushkin, bu durumu şöyle açıklıyor: “Öneri sistemleri, yapısı gereği hassas verilere bağlıdır. Şirketler öneri sistemi veri setlerini ancak kapsamlı ve yorucu bir anonimleştirme işleminden sonra kamuya açık olarak yayınlayabilirler. Bu da açık inovasyonu yavaşlatan, yoğun kaynak gerektiren bir süreçtir.” Bu veri kıtlığı, akademik ortamlarda teorik olarak mükemmel görünen modellerin gerçek dünya uygulamalarında genellikle beklenenden düşük performans sergilemesine neden olan bir boşluk yaratıyordu.
Perde Arkası: Yeni Veri Seti Yambda Neler Sunuyor? (Anonimlik, Zaman Damgaları ve Organik Keşifler)
Yambda, aylık yaklaşık 28 milyon kullanıcısı olan bir müzik akış servisinin (Yandex Music) büyük ve tamamen anonimleştirilmiş veri setini sunarak bu zorluklara bir çözüm getirmeyi amaçlıyor. Gizliliği korumak için tüm kullanıcı ve parça verileri, en güncel gizlilik standartları doğrultusunda sayısal tanımlayıcılarla anonimleştirilmiş durumda.
Veri setinin temel özellikleri şunlar:
- 10 ay boyunca toplanan 4,79 milyar anonimleştirilmiş kullanıcı etkileşimi.
- 1 milyon kullanıcıdan alınan veriler ve 9,39 milyon parça için anonimleştirilmiş tanımlayıcılar (en büyük versiyonunda).
- İki temel geri bildirim türü: örtülü etkileşimler (dinleme süreleri gibi) ve açık etkileşimler (beğenme, beğenmeme ve bunların iptali).
- Parçalar hakkında anonimleştirilmiş bilgiler ve ses katıştırmaları (konvolüsyonel sinir ağları aracılığıyla oluşturulan ve sesin özelliklerini temsil eden vektörler).
- Kullanıcıların parçaları bağımsız olarak mı yoksa öneriler yoluyla mı keşfettiğini gösteren bir “is_organic” (organik mi?) işareti, bu da daha derin davranış analizi yapılmasına olanak tanıyor.
- Tüm etkinliklerin zaman damgalı olması, kullanıcı davranışının zaman içindeki değişiminin analizini destekliyor ve modellerin gerçek dünya kullanımına çok benzeyen koşullar altında değerlendirilmesine olanak tanıyor.
- Veri seti, Spark ve Hadoop gibi dağıtık işleme sistemlerinin yanı sıra Pandas ve Polars gibi popüler analiz kütüphaneleriyle uyumlu Apache Parquet formatında yayınlanıyor.
Akademik Araştırmadan Gerçek Dünya Uygulamalarına Köprü Kurmak
Bu veri seti, araştırmacıların yeni öneri algoritmalarını, MostPop, ItemKNN, iALS, BPR, SANSA ve SASRec gibi temel ve yaygın olarak kullanılan modellerle karşılaştırarak geliştirmelerini ve test etmelerini sağlayarak inovasyonu hızlandırmayı hedefliyor. Özellikle sınırlı veriye sahip startup’lar, kendi sistemlerini büyük ölçekte test etmeden önce Yambda’yı kullanarak algoritmalarını oluşturmak ve denemek için bu veri setinden faydalanabilecek. Böylece, dünya çapında farklı iş ihtiyaçlarına göre uyarlanmış daha ileri teknolojilerin oluşturulması da hızlandırılmış olacak.
Değerlendirme metodolojisi olarak, etkinlik dizilerini korumak amacıyla verileri zaman damgalarına göre bölen bir yöntem olan Global Temporal Split (GTS) kullanılıyor. Bu, eğitim ve test setleri arasındaki zaman bağlarını koparmayarak, geleceğe dair verilerin olmadığı gerçek dünya koşullarını taklit eden daha gerçekçi bir modelleme sağlıyor.
Farklı İhtiyaçlara Farklı Boyutlar: Veri Setine Nasıl Erişilecek?
Yaklaşık 5 milyar (Yambda-5B), 500 milyon (Yambda-500M) ve 50 milyon (Yambda-50M) etkinlik içeren üç farklı büyüklükte sunulan Yambda veri seti, farklı ihtiyaçları ve hesaplama kapasiteleri olan geniş bir araştırmacı ve geliştirici kitlesine hitap ediyor. Bu veri setlerine, yapay zeka ve makine öğrenimi topluluklarının uğrak noktası olan Hugging Face platformu üzerinden erişilebiliyor.
“Yükselen Dalga Etkisi”: Endüstri Liderlerinden Açık Veri Paylaşımının Önemi
Nikolai Savushkin, bu tür bir paylaşımın önemini şu sözlerle vurguluyor: “Yambda, araştırmacıların yenilikçi hipotezleri test etmelerini ve işletmelerin daha akıllı öneri sistemleri oluşturmalarına yardımcı oluyor. Sonuçta, kullanıcılar da mükemmel şarkıyı, ürünü veya hizmeti bularak bundan yararlanıyor… Sektör liderleri zor kazanılan araçları ve verileri paylaştığında, bu durum yükselen bir dalga etkisi yaratır. Araştırmacılar gerçek dünya ölçütlerine kavuşur, startup’lar sadece teknoloji devlerinin erişebildiği kaynaklara erişir ve en önemlisi kullanıcılar da daha iyi bir kullanım deneyiminin keyfini çıkarır.“
Yandex’in bu adımı, diğer büyük teknoloji şirketlerini de benzer şeffaflık ve veri paylaşımı konusunda teşvik edebilir. Yambda’nın, öneri sistemleri alanındaki araştırmalara yeni bir soluk getireceği ve daha kişiselleştirilmiş, daha akıllı dijital deneyimlerin önünü açacağı kesin gibi görünüyor.