• Web Scraping

Adatkaparás ellenséges terepen: Mit mutatnak a számok a proxy ellenálló képességéről

  • Felix Rose-Collins
  • 2 min read

Intro

Minden blokkolt kérés több, mint egy csuklás, ez egy csendes veszteség a CPU-időben, a sávszélességben és az elemzői figyelemben. A tapasztalt mérnökök minden lánctalpas program méretezése előtt a számokkal kezdik, nem az anekdotákkal. A web ma már tele van bot-ellenes buktatókkal: A Cloudflare tanulási központjának becslése szerint "az összes internetes forgalom több mint 40%-a botforgalom", és ennek nagy része rosszindulatú. Ahhoz, hogy nyereséges maradjon, egy scraper-nek ezt az ellenséges statisztikát kiszámítható tétellé kell alakítania, amit modellezni, mérsékelni és a költségvetésben kezelni tud.

Az alábbiakban négy adatvezérelt ellenőrzési ponttal vágunk át a hype-on, és egyetlen tanulsággal zárjuk. Teljes terjedelem: ~710 szó.

1 A rejtett kudarcadó: 40 % botok ≠ 40 % rossz szereplők

Amikor a nyilvános végpontokra érkező csomagok közel fele automatizáltnak minősül, a származási helyek eszkalálódó védelemmel válaszolnak JavaScript-kihívásokkal, viselkedési pontozással és hálózati szintű fojtással. Minden egyes extra körutazás vagy CAPTCHA mérhető késleltetést jelent. A tavalyi negyedévben elvégzett teljesítmény-összehasonlító tesztek szerint egyetlen kényszerű újbóli próbálkozás 38%-kal növelte az átlagos átfésülési időt egy 10 URL-t tartalmazó mintán. Ha ezt több millió URL-címre szorozzuk, a "hibaadó" eltörpül a hardverköltségek mellett. Minden GET-et valószínűségi eseményként kezeljen, ne garanciaként. A Cloudflare 40 százalékos mérőszáma a kiindulási együttható ebben az egyenletben, nem pedig lábjegyzet.

2 Sikerarányos közgazdaságtan: a lakossági poolok kifizetik magukat.

A kutatás 99,82 % sikeres kérést és 0,41 s medián választ mért néhány lakossági hálózat esetében, szemben a legközelebbi versenytárs 98,96 %-ával. Papíron ez a különbség csekélynek tűnik; a gyakorlatban egy százalékpontos sikerességnövekedés tízezer plusz oldalt jelent egymillió oldalra vetítve, újbóli sorba állítási költség nélkül. Méretarányosan ez a különbözet ellensúlyozza a lakossági forgalom gigabájtonkénti többletárát. A számítás egyszerű:

extra_pages = (success_res - success_alt) × total_requests

Tegye bele a saját volumenét ebbe a képletbe, mielőtt bármelyik proxy-t "túl drágának" nyilvánítaná. És ne feledje: a SOCKS protokollon keresztüli transzportréteg-alagutazás lehetővé teszi, hogy a TCP-t és az UDP-t ugyanazon a hitelesített csatornán keresztül vezesse, ami praktikus, amikor a lánctalpas keveri a Seleniumot a nyers aljzatszondákkal.

3 Ujjlenyomat-entrópia: a User-Agent még mindig elárulja Önt.

Az Electronic Frontier Foundation Panopticlick tanulmánya 18,1 bit entrópiát mért egy tipikus böngésző ujjlenyomatában, ami elég ahhoz, hogy 286 777 böngészőből egyet kiemeljen. A Flash-t vagy Javát tartalmazó böngészők 94,2 %-a volt egyedi. Az IP-címek cseréje önmagában csak kozmetikai célú; a fej nélküli Chrome alapértelmezett beállításokkal minden eszközprofilozó radaron fel fog tűnni. A valódi védekezés az IP-csere mellett a fejlécek véletlenszerűvé tételét, a betűtípusok elnyomását és az időzóna hamisítást is megköveteli. Kezelje az ujjlenyomat-variációt a proxy-pool entrópia költségvetésének részeként.

4 Forgatási gyakoriság és hamis pozitív eredmények: a 0,01%-os értékek üldözése

Még a tökéletes proxykat is megbuktathatják a túlbuzgó botmenedzserek. A DataDome a milliszekundumos szintű eszközellenőrzéseknek köszönhetően 0,01 % alatti hamis pozitív arányról számol be több milliárd kérés esetén. Ez gyakorlati mércét állít fel: ha a saját scrapered jogos kéréseit tízezerből egynél gyakrabban blokkolják, akkor bevételeket hagysz az asztalon. Eszközölje a csővezetékét egy "blokkolási költségvetés" riasztással, amint túllépi azt, korlátozza vagy cserélje ki a kilépő csomópontot, mielőtt a céltartomány egy egész alhálózatot feketelistára helyezne.

A legfontosabb lecke

A proxy kiválasztása már nem a nyers IP-számról szól, hanem a kockázati aritmetikáról. Kombináljuk a) a bot-forgalom empirikus arányait, b) az ellenőrzött sikerességi aránytáblákat, © az ujjlenyomat-entrópia mérőszámokat és d) a hamis pozitív felső határokat egyetlen veszteségfüggvényben, majd optimalizáljuk. Az egyes változókat számszerűsítő csapatok olyan lánctalpasokat szállítanak, amelyek még akkor is tovább kaparnak, amikor a web egyre mélyebb árkot ás.

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

Kezdje el használni a Ranktracker-t... Ingyen!

Tudja meg, hogy mi akadályozza a weboldalát a rangsorolásban.

Ingyenes fiók létrehozása

Vagy Jelentkezzen be a hitelesítő adatokkal

Different views of Ranktracker app