Puncte:1

Site-ul îmi blochează solicitările de la serverul linux ubuntu

drapel us

Sunt un inginer Java cu experiență în operațiuni de dezvoltare zero.În ultimul timp, m-am jucat pentru prima dată cu serverul linux ubuntu și am folosit docker cu proiectul meu selenium și m-am confruntat cu această problemă:

Încerc să răzuiesc HTML de pe un site web, dar apelurile mele sunt blocate și primesc răspuns 403 interzis. Am încercat să curl același site și, de asemenea, să obțin același răspuns.

În plus, sunt blocat doar în mașina mea Linux, totul funcționează în dev env local cu aceeași imagine docker, așa că de aceea cred că este „defecțiunea serverului”.

Aveți idee despre ce lipsește serverul meu Linux aici? Poate nu am un fel de certificat sau am probleme cu cors? Ceva idei, ce as putea incerca? (Numai în scopuri de învățare)

curl sunați aici

drapel in
Treceți browserul web și aplicațiile dvs. curl și Java printr-un proxy precum mitmproxy și verificați solicitarea, în special anteturile. Sunt sigur că voi vedea diferențele care fac ca serverul web să trimită răspunsuri diferite.
drapel cn
Bob
Nu este vorba cu adevărat de subiect pentru ServerFault, a face să funcționeze comenzile de seleniu și curl este mai mult StackOverflow.Dar cel mai probabil: site-ul încearcă să detecteze scraper-uri și folosește mecanisme precum cookie-uri și sesiuni pentru a identifica utilizatori/browsere interactivi reali.
drapel us
@Bob Aș spune că este ServerFault, deoarece funcționează cu mașina mea locală cu aceeași imagine docker.
drapel us
@Robert apreciez sugestia ta, voi investiga și voi actualiza această întrebare.
drapel in
Doar a fi vina serverului nu face referire la subiect pentru ServerFault. Dacă acesta este serverul dvs. pe care încercați să îl răzuiți, furnizați configurația serverului și fișierele de jurnal și putem încerca să vă ajutăm. Dacă acesta nu este serverul dvs., este în afara subiectului aici. Și în acest caz, aș înceta să mai fac ceea ce faci tu. Acum tocmai primiți un 403, următoarea notificare ar putea fi de la un avocat.
drapel us
După cum am menționat, sunt un noob total în asta și pot oferi orice fișiere de configurare care credeți că ar putea ajuta. Practic, în acest moment, nu știu ce nu știu. Habar n-aveam că acest lucru poate fi ilegal, dar nu cred că puține apeluri într-o zi ar putea duce la aceste consecințe, nu am un server care rulează și să trimită apeluri spam. Cu siguranță, acum sunt mai precaut și îmi voi cerceta și asta. De asemenea, aș dori să menționez că scopul meu principal este să învăț prin practică și nu am alt scop aici decât să înțeleg „cum sunt recunoscut și blocat”. Mulțumiri
Puncte:1
drapel cn

Cred că sunteți limitat la tarif sau blocați de site-ul web. Dacă rulez aceeași comandă curl de pe laptop, primesc pagina web înapoi.

Amintiți-vă să respectați robots.txt dacă faci web scraping.

drapel us
Nu știam despre robots.txt, descoperiri grozave, mulțumesc. Habar nu aveam de limitarea ratei, dar cred că nu este cazul, pentru că de la început după implementare primul apel a fost blocat.

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.