• Web Kazıma

Düşmanca Arazide Veri Kazıma: Rakamlar Vekil Esnekliği Hakkında Neler Söylüyor?

  • Felix Rose-Collins
  • 2 min read

Giriş

Engellenen her istek bir aksaklıktan daha fazlasıdır; CPU zamanı, bant genişliği ve analistlerin dikkati açısından sessiz bir kayıptır. Herhangi bir tarayıcıyı ölçeklendirmeden önce, deneyimli mühendisler anekdotlarla değil rakamlarla işe başlar. Web artık anti-bot tuzak telleriyle dolu: Cloudflare'in öğrenme merkezi , "tüm İnternet trafiğinin %40'ından fazlasının bot trafiği olduğunu" ve bunların çoğunun kötü niyetli olduğunu tahmin ediyor. Kârlı kalabilmek için, bir kazıyıcı bu düşmanca istatistiği modelleyebileceğiniz, azaltabileceğiniz ve bütçeleyebileceğiniz öngörülebilir bir kalem haline getirmelidir.

Aşağıda, veriye dayalı dört kontrol noktasıyla aldatmacayı kesip atıyor ve tek bir dersle bitiriyoruz. Toplam uzunluk: ~710 kelime.

1 Gizli başarısızlık vergisi: 40 botlar ≠ %40 kötü aktörler

Genel uç noktalara ulaşan paketlerin neredeyse yarısı otomatik olarak sınıflandırıldığında, kaynak siteler JavaScript zorlukları, davranışsal puanlama ve ağ katmanı daraltma gibi artan savunmalarla yanıt verir. Her ekstra gidiş-dönüş veya CAPTCHA ölçülebilir bir gecikme ekliyor. Geçen çeyrekte yaptığım performans kıyaslamalarında, tek bir zorunlu yeniden deneme, 10 URL'lik bir örneklemde ortalama kazıma süresini %38 oranında artırdı. Bunu milyonlarca URL ile çarpın ve "başarısızlık vergisi" donanım maliyetlerini gölgede bırakır. Her GET'i bir garanti olarak değil, bir olasılık olayı olarak ele alın. Cloudflare'in yüzde 40 metriği bu denklemde bir dipnot değil, başlangıç katsayısıdır.

2 Başarı oranı ekonomisi: konut havuzları kendini amorti eder

Araştırma, en yakın rakibin %98,96' sına karşılık, bazı konut ağları için %99 ,82 başarılı istek ve 0,41 saniyelik medyan yanıt elde etti. Kağıt üzerinde bu fark küçük görünse de pratikte başarıdaki bir puanlık artış, yeniden sıraya koyma ek yükü olmadan milyon başına on bin ekstra sayfa anlamına geliyor. Ölçekte bu marj, konut trafiğinin GB başına prim oranını dengelemektedir. Hesaplama basittir:

extra_pages = (success_res - success_alt) × total_requests

Herhangi bir proxy'yi "çok pahalı" ilan etmeden önce kendi hacimlerinizi bu formüle ekleyin. Ve unutmayın: SOCKS Protokolü aracılığıyla taşıma katmanı tünelleme, tarayıcınız Selenium'u ham soket problarıyla karıştırdığında kullanışlı olan aynı kimliği doğrulanmış kanal üzerinden hem TCP hem de UDP'yi aktarmanıza olanak tanır.

3 Parmak izi entropisi: Kullanıcı Aracınız hala size ihanet ediyor

Electronic Frontier Foundation'ın Panopticlick çalışması, tipik bir tarayıcı parmak izinde 286.777 tarayıcıdan birini ayırt etmeye yetecek 18,1 bit entropi ölçmüştür. Flash ya da Java kullanan tarayıcıların %94.2'si benzersizdi. Kazıyıcılar için bu, IP'leri değiştirmenin tek başına kozmetik olduğu anlamına gelir; varsayılan ayarlara sahip başsız Chrome, herhangi bir cihaz profilleme radarını aydınlatacaktır. Gerçek hafifletme, IP rotasyonu ile aynı nefeste başlık rastgeleleştirme, yazı tipi bastırma ve zaman dilimi sahtekarlığı gerektirir. Parmak izi varyansını proxy havuzu entropi bütçenizin bir parçası olarak değerlendirin.

4 Rotasyon temposu ve yanlış pozitifler: %0,01'i kovalayın

Mükemmel proxy'ler bile aşırı hevesli bot yöneticileri tarafından tuzağa düşürülebilir. DataDome, milisaniye seviyesindeki cihaz kontrolleri sayesinde milyarlarca istekte %0,01'in altında bir yanlış pozitif oran bildiriyor. Bu pratik bir ölçüt oluşturuyor: Kendi kazıyıcınızın meşru talepleri on binde birden daha sık engelleniyorsa, masada gelir bırakıyorsunuz demektir. Hedef etki alanı tüm bir alt ağı kara listeye almadan önce boru hattınızı bir "blok bütçesi" uyarısı ile enstrümante edin, çıkış düğümünü kısın veya değiştirin.

Anahtar ders

Proxy seçimi artık ham IP sayısı ile ilgili değil, bir risk aritmetiği alıştırmasıdır. (a) ampirik bot trafiği oranlarını, (b) doğrulanmış başarı oranı tablolarını, © parmak izi entropi metriklerini ve (d) yanlış pozitif tavanları tek bir kayıp fonksiyonunda birleştirin, ardından optimize edin. Her bir değişkeni ölçen ekipler, web giderek daha derin hendek kazarken bile kazımaya devam eden tarayıcılar gönderir.

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

Ranktracker'ı kullanmaya başlayın... Hem de ücretsiz!

Web sitenizin sıralamada yükselmesini engelleyen şeyin ne olduğunu öğrenin.

Ücretsiz bir hesap oluşturun

Veya kimlik bilgilerinizi kullanarak oturum açın

Different views of Ranktracker app