Öne Çıkan Haber Başlıkları
Kubernetes’e AI Dokunuşu: CNCF’den Şaşırtan Hamle!
Yapay zekâ (AI) modelleme ve çıkarım iş yüklerinizi farklı bulut ortamları arasında sorunsuz bir şekilde taşımak istiyorsanız, Kubernetes’ten ne beklersiniz? Bu sorunun cevabını Cloud Native Computing Foundation (CNCF) arıyor.
CNCF, seçili yapay zekâ iş yüklerini çalıştırabilen Kubernetes dağıtımları için yeni bir sertifikasyon programıgeliştiriyor. Ancak bu sertifikasyonun temeli olacak gereksinimlerin ve önerilerin önce netleştirilmesi gerekiyor. Amaç, CNCF’nin daha önce Kubernetes uyumluluğu için oluşturduğu standartlara benzer bir sistem kurmak.
Bugüne kadar 100’den fazla Kubernetes dağıtımı, bu genel uyumluluk listesine girmeyi başardı. CNCF, benzer bir yaklaşımı bu kez AI/ML (Makine Öğrenimi) iş yükleri için uygulamak istiyor.
Hedef: Tüm Bulutlar Arasında Uyumlu ve Taşınabilir AI İş Yükleri
CNCF’nin CTO’su Chris Aniszczyk, bu yeni çalışmanın temel hedefinin “farklı ortamlar arasında temel uyumluluk” sağlamak olduğunu açıkladı. Aniszczyk, KubeCon + CloudNativeCon etkinliklerinde yaptığı açıklamalarda, CNCF’nin başından beri her tür bulut ortamında çalışabilecek altyapılar inşa etmeyi hedeflediğini vurguladı.
Yeni çalışma, CNCF içindeki SIG-Architecture altında oluşturulan bir çalışma grubu tarafından yürütülüyor. Bu grup, Kubernetes kümelerinin AI/ML iş yüklerini verimli ve güvenilir bir şekilde çalıştırabilmesi için standart API’ler, yetenekler ve yapılandırmalar tanımlamayı amaçlıyor.
Bu girişim aynı zamanda, gözlemleme (telemetry), depolama ve güvenlik gibi bulut yerlisi diğer bileşenleri de kapsayacak olan Cloud Native AI Uyumluluğu kavramının temelini atıyor.
Sertifikasyonun Odak Noktası: Üç Temel AI İş Yükü Türü
Çalışma grubu, Kubernetes üzerinde sık karşılaşılan üç ana AI iş yükü türüne odaklanıyor:
- Büyük Ölçekli Eğitim ve İnce Ayar (Fine-tuning):
Gerekli özellikler arasında yüksek performanslı hızlandırıcılar (ör. GPU’lar), yüksek bant genişlikli ve topolojiye duyarlı ağlar, birlikte zamanlama (gang scheduling) ve ölçeklenebilir veri erişimi yer alıyor. - Yüksek Performanslı Çıkarım (Inference):
Bu tür iş yükleri için gelişmiş trafik yönetimi, düşük gecikmeli yanıt süresi takibi ve hızlandırıcılara erişim ön plana çıkıyor. - MLOps İş Akışları (Pipelines):
Bu iş yükleri, sağlam bir toplu iş (batch job) sistemi, kaynak kullanımını yönetecek kuyruk mekanizmaları, nesne depolama ve model kayıt sistemleri gibi servislerle güvenli entegrasyon ve güvenilir CRD/operator desteği gerektiriyor.
Kubernetes’te Olması Gereken Yetenekler
Hazırlanan taslak dökümanda, Kubernetes üzerinde çalışacak AI iş yüklerinin başarılı olabilmesi için olmazsa olmaz (“must”) ve önerilen (“should”) özellikler listeleniyor. Bunlar arasında Kubernetes’in AI ile ilgili son sürümlerinde tanıtılan gelişmiş özellikler de yer alıyor:
- Dynamic Resource Allocation (DRA):
Kubernetes 1.34 ile tam destek kazanacak bu özellik, GPU gibi kaynakların daha esnek ve hassas şekilde yönetilmesini sağlıyor. - Kubernetes Gateway API Inference Extension:
Bu API, büyük dil modelleri (LLM’ler) için trafik yönlendirme desenlerini tanımlıyor. - Cluster Autoscaler:
Belirli hızlandırıcı türlerine göre düğüm gruplarının yukarı/aşağı ölçeklenmesini desteklemeli.
Bu gereksinimler, AI iş yüklerinin Kubernetes üzerinde minimum çaba ve yapılandırmayla taşınabilir olmasını sağlamayı amaçlıyor.
Sertifikasyon Süreci Nasıl İşleyecek?
Sertifikasyon süreci, CNCF bünyesinde oluşturulan ancak henüz ismi açıklanmayan bağımsız bir akreditasyon grubutarafından yürütülecek. Bu grup, Kubernetes dağıtımlarının yapay zeka (AI) ve makine öğrenimi (ML) iş yüklerini çalıştırmaya uygun olup olmadığını belirlemek için kullanılacak olan kriterleri geliştirmekten, test süreçlerini yürütmekten ve değerlendirme sonuçlarını denetlemekten sorumlu olacak.
Sertifika başvurusunda bulunan Kubernetes dağıtımları, detaylı bir uyumluluk testinden geçirilecek. Bu testler, belirlenen API gereksinimleri, sistem yapılandırmaları, donanım destekleri ve AI/ML iş yüklerini yönetme kapasiteleri gibi bir dizi teknik ölçütü kapsayacak. Her dağıtım, YAML formatında hazırlanmış kapsamlı bir kontrol listesi üzerinden değerlendirilecek. Bu liste, sistemin standartlara uygunluğunu somut ve şeffaf bir şekilde belgelemeye yardımcı olacak.
Sertifikayı almaya hak kazanan dağıtımlar, herkesin erişebileceği şekilde kamuya açık bir web sitesinde listelenecek. Böylece geliştiriciler, kurumlar ve platform sağlayıcıları, hangi Kubernetes çözümlerinin AI uyumlu olduğunu kolayca görebilecek. Ancak bu uyumluluk bir kez alınıp sonsuza kadar geçerli olacak bir belge değil; her dağıtım her yıl düzenli olarak yeniden test edilecek. Böylece sistemlerin zaman içinde değişen standartlara ve teknolojik gelişmelere uygun kalması garanti altına alınmış olacak.
Bu Girişim Neden Önemli?
Bu yeni sertifikasyon sistemi sayesinde:
- Farklı Kubernetes dağıtımları arasında AI iş yüklerinin taşınabilirliği artacak,
- Platform sağlayıcılar, geliştiriciler ve kullanıcılar için net teknik beklentiler tanımlanacak,
- DIY çözümlere, manuel yapılandırmalara ve platforma özel yamalara olan ihtiyaç azalacak,
- AI ekosisteminin büyümesi ve güvenliği desteklenecek.
CNCF, bu çalışmaya topluluk katılımını da önemsiyor. Kubernetes platformu geliştiricileri, AI kullanıcıları ve altyapı sağlayıcıları, tanımlanan gereksinimlerin son halini belirlemede katkı sunabilir.
