2026 Süreci: Wildberries'ten Günde 1.000.000 Ürün Kartı Nasıl Parselenecek — Mimari, Proxy ve Anti-Ban
Giriş: Neden Bu Konu Önemli ve Ne Öğreneceksiniz
2026 yılı itibarıyla, Wildberries bölgedeki en büyük e-ticaret ekosistemlerinden biri haline geldi ve ürün kartları hakkında veri kalitesi ve hızı, üreticiler, distribütörler, analistler, arbitraj ekipleri, fiyatlandırma departmanları ve kategori yöneticileri için kritik bir faktör oldu. Fiyat, stok, Buy Box, konum, içerik ve yorumların günlük olarak izlenmesi, artık manuel ya da küçük scriptlerle yapılamaz hale geldi. Anlaşılır bir maliyet ve öngörülebilir SLA ile günde bir milyon kartı güvenilir bir şekilde toplayabilen endüstriyel bir mimariye ihtiyaç var.
Bu yazıda bu tür bir sistemi nasıl tasarlayacağımızı ve çalıştıracağımızı inceleyeceğiz: kuyruk ve görev orkestrasyonu tasarımından mobil proxy'nin doğru döngüsüne ve WB anti-bot aşma yöntemlerine kadar. Veri saklama yapısını, analiz vitrinlerine veri akışını, hata ve iade analizini göstereceğiz. Ayrıca 2026 yılına ait gerçek hız, maliyet ve başarı oranları ile ilgili rakamları paylaşacağız. Bu sayede çalışır durumda çerçeveler, Python kod parçacıkları, üretim için kontrol listeleri ve her türlü anti-bot güncellemesine dayanacak prensipler elde edeceksiniz.
Biz, herkesin erişebileceği verilerin sorumlu ve yasal bir şekilde toplanmasına odaklanıyoruz. Servis kurallarına, yasalara ve etik normlara saygı gösterin. Amacımız mühendislik disiplini: öngörülebilirlik, dayanıklılık, güvenlik ve verimlilik.
Temeller: Anahtar Kavramlar ve Terimler
Ürün Kartı — SKU özellikleri (isim, marka, fotoğraf, özellikler), fiyatlar (baz fiyat, indirimler, pazarlama promosyonları), stok durumu ve lojistik (depo, teslimat süresi), içerik (açıklamalar, videolar) ve sosyal sinyaller (puanlar, yorumlar, sorular) ile ilgili bir sayfadır. Ürün kartlarını stabil bir şekilde izlemek için bileşenlerin ayrılması önemlidir: çekirdek (değişmeyen alanlar), dinamik unsurlar (fiyatlar, stok), türev metrikler (Buy Box, satıcıların minimum fiyatları).
Kaynak Tipleri: 1) kamuya açık HTML sayfaları; 2) alım için verileri döndüren JSON uç noktaları; 3) görüntüler ve statik içerikler (CDN) — her zaman gerekli olmasa da içerik kalitesini kontrol etmek için faydalıdır. 2026 yılında ön uç API'leri yoğun bir şekilde korunmaktadır: davranışsal ve ağ işaretleri, HTTP/2'nin doğru uygulanması, başlıklar ve çerezler, TLS parmak izleri ve geçerli bir mobil/masaüstü profili bulunması gerekmektedir.
Yasal Veri Toplama — hakları ihlal etmemek, ücretli erişimleri aşmamak, servis fonksiyonelliğine müdahale etmemek, platformu aşırı yüklememek, tasarruf limitlerine ve kullanıcı gizliliğine saygı göstermek. Kamuya açık ürün kartları ile sınırlı kalın, kapalı bölümlere dokunmayın.
Ağ Seviyesi: ASN (operatör), IP tipi (mobil NAT, yerel), protokol (HTTP/2, bazen statik için HTTP/3), TLS 1.3 desteği, doğru JA3/JA4 parmak izleri ve ClientHello içeriği önemlidir. WB'de sürekli başarı için gerçek müşterileri taklit etmek, davranışsal kalıplar ve mobil profil ile akılcı bir IP coğrafyası tercih edilir.
Oturumlar ve Çerez Jar: yeniden üretilemeyen işaretler ve davranışsal çerezler, kabulü etkiler. Proxy oturum seviyesinde stabil bir çerez jar, talepler arasında bağlamı dikkatli bir şekilde geçiştirme ve TTL'ye saygı duyulması, yüksek dönüşüm oranları için temeldir.
Veri Mimarisi: görev kuyruğundan (önceliklendirme ile) oluşan bir hat, işçiler (uyumlu hız ve limitlerle), saklama alanı (ham anlık görüntüler, Postgres/ClickHouse'ta normalize edilmiş tablolar, vitrin katmanları) ve gözlem katmanı (metrikler, günlükler, alarmlar)...