HubX – Örnek Çalışma
Müşteri Hakkında
HubX, yapay zeka destekli, yüksek ölçeklenebilir mobil uygulamalar ve oyunlar geliştiren, 170’ten fazla ülkede 300 milyondan fazla kullanıcıya ulaşan önde gelen bir teknoloji merkezidir. Şirket, merkezi kaynakları otonom dahili stüdyolarla paylaşan işbirlikçi bir yapıyla çalışır. Bu vaka çalışmasının konusu olan dahili ekip, milyonlarca kişi tarafından kullanılan ürünlerin temelini oluşturan yapay zeka destekli görsel üretim hizmetlerinin operasyonel verimliliğini ve hızını artırmaya odaklanmıştır. HubX, kullanıcılarına hızlı ve kesintisiz yapay zeka deneyimleri sunmayı taahhüt eder.

Müşteri Problemi
HubX’in yapay zeka destekli görsel üretim modeli, AWS ekosistemi üzerinde oluşturulmuş, olay tabanlı ve sunucusuz benzeri bir mimaride çalışacak şekilde tasarlandı. Amazon SQS ve KEDA ile otomatik olarak ölçeklenen bu yüksek performanslı mimaride, yüksek eşzamanlı talebe rağmen tutarlı ve hatasız şekilde ölçeklenebilen güvenilir ve hızlı bir operasyonel yapı tasarlamak kritik bir zorluktu.
Her ne kadar mimari ölçeklenebilirlik vaadini yerine getirse de, ilk ölçümler işlem sürelerinin optimizasyona ihtiyaç duyduğunu gösterdi. Her bir görsel üretim isteği için uçtan uca işlem süresi kabul edilemez derecede yüksek — 518 saniye (yaklaşık 8,5 dakika) — olarak ölçüldü. Bu gecikme, uygulamanın küresel çapta benimsenme potansiyelini önemli ölçüde etkileyebilecek bir risk taşıyordu.
Sorunun temelinde iki büyük darboğaz vardı:
• Node’un ısınma süresi: Standart NVIDIA AMI kullanımı nedeniyle düğümlerin (g6e.xlarge ve g6e.2xlarge GPU’lar) hazır hale gelmesi 3–4 dakika sürüyordu.
• Büyük imaj ve model boyutları: 15 GB’lık konteyner imajı ve 40 GB’lık yapay zeka modelinin her yeni pod için çekilmesi, yalnızca imaj çekme süresinin 8 dakikayı aşmasına neden oluyordu.
Bu uzun süreler, HubX’in yüksek standartlara sahip yapay zeka projeleri için ideal olmayan bekleme süreleri oluşturdu ve operasyonel verimliliği olumsuz etkileyerek maliyetleri artırma riski taşıdı. Bu kritik zorluklara yanıt olarak HubX ve Onkatec ekipleri, kapsamlı bir optimizasyon çalışması için senaryolar oluşturarak projeye başladı.
Partner Çözümü
HubX’in DevOps ve ML mühendislik ekipleri, AWS Advanced Partner statüsündeki Onkatec ile işbirliği yaparak bu kritik gecikme sorununu çözmek için kapsamlı, üç aşamalı bir optimizasyon stratejisi uyguladı. Ana hedef, mimarinin her katmanını optimize ederek yüksek performanslı ML iş yükleri için hızlı ve ölçeklenebilir bir üretim hattı oluşturmaktı.
Faz 1: Node Isınma Süresinin Optimizasyonu
Yüksek başlangıç gecikmesini ortadan kaldırmak için işletim sistemi katmanına odaklanıldı. EKS üzerinde standart NVIDIA AMI’lardan Bottlerocket AMI’lara geçildi. Bottlerocket’in minimalist OS tasarımı ve atomik güncellemeleri boot sürelerini önemli ölçüde azalttı. Ayrıca, KEDA ve Kubernetes PriorityClasses kullanılarak uygulanan ‘Warm Pool’ stratejisi sayesinde soğuk başlatma süresi 3–4 dakikadan yalnızca 10 saniyeye indirildi.
Faz 2: İmaj ve Model Boyutunun Optimizasyonu
İkinci aşamada, konteyner imaj boyutu küçültülerek 8 dakikalık çekme gecikmesi ortadan kaldırıldı. Bu doğrultuda iki ana adım atıldı:
• Modelin EFS’ye Taşınması: 40 GB’lık yapay zeka modeli konteyner imajından tamamen çıkarıldı ve Amazon EFS üzerinden alınacak şekilde yapılandırıldı. Bu stratejiyle imaj boyutu 15 GB’tan 8 GB’a indirildi.
• Multistage Dockerfile ve İmaj Temizliği: Onkatec’in teknik bilgi birikimiyle gereksiz bağımlılıklar kaldırıldı ve yapı yeniden düzenlendi. Sonuçta üretim imajı boyutu etkileyici bir şekilde 3,6 GB’a düşürüldü.
Faz 3: Bottlerocket Data Volume ile İmaj Önyükleme
En kritik iyileştirme Bottlerocket’in disk ayrımı özelliği kullanılarak sağlandı. Temel bir imaj bir kez çekildikten sonra EBS Data Volume’unun bir snapshot’ı alındı ve yeni node grupları bu snapshot üzerinden başlatıldı. Böylece konteyner imaj çekme süresi 2 dakika 45 saniyeden yalnızca 8 saniyeye indirildi.
Sonuçlar ve Faydalar
Uygulanan stratejik optimizasyonlar, AI iş yükü için dramatik bir performans iyileşmesi sağladı. Başlangıçtaki tüm sorunlar başarıyla çözüldü ve aşağıdaki metrikler bu başarıyı kanıtlıyor:
Metrik | İlk Performans | Optimize Edilmiş Performans |
Uçtan Uca İşlem Süresi | 518 saniye (8.5 dakika) | 73.94 saniye |
Node Isınma Süresi | 3–4 dakika | 10 saniye |
İmaj Çekme Süresi | 8 dakika | 8 saniye |
Bu iyileştirmeler, operasyonel performansı ve mimarinin verimliliğini tamamen dönüştürdü. Hızlı node hazırlığı ve konteyner imaj çekme süreleri sayesinde GPU kaynaklarının boşa harcanan süresi minimize edildi, ölçeklenme hızı maksimize edildi ve bulut maliyetleri önemli ölçüde düşürüldü.
Partner Hakkında
Onkatec, 2017 yılında stratejik bir teknoloji danışmanlık şirketi olarak kurulmuş ve kısa sürede AWS Advanced Consulting Partner statüsüne yükselmiştir. Finans, e-ticaret, dijital oyun ve turizm dahil birçok sektörde dayanıklı, güvenilir ve maliyet açısından verimli mimariler tasarlar. Hız ve inovasyonu temel farklılaştırıcılar olarak benimseyen Onkatec, bugüne kadar 150’den fazla PoC, migrasyon ve modernizasyon projesi gerçekleştirmiştir. 2024 yılında AWS tarafından ‘Yılın Partneri’ seçilmiştir.
