Puncte:0

Cum să evitați e-mailurile trimise către crawler-ul Google deep web

drapel jp

Site-ul meu are o zonă limitată la utilizatorii care se înscriu cu un e-mail valid. Am primit solicitări cu e-mailuri false și vreau să evit să trimit e-mailuri către adrese inexistente, ca nu cumva să mărească rata de respingere și să-mi afecteze reputația de trimitere.

E-mailurile sunt:

[email protected]
[email protected]
kWQcHVzn%40ypEcDvh.NwB

Ultimul are %40, entitatea HTML pentru @. E-mailurile sunt trunchieri ale aceleiași secvențe de caractere.

Inspectând adresa IP a cererilor cu DNS invers, toate cele trei solicitări provin de la cache.google.com. Dacă solicitările provin de la crawler-ul Google, m-aș aștepta ca aceste adrese de e-mail să fie documentate, dar nu am găsit nicio referință.

În cazul în care este crawler-ul Google, vreau să indexeze site-ul web, evitând în același timp să trimită adrese de e-mail către adrese false. Am implementat deja filtrarea pe adresa căutând acea secvență de caractere.

Există o listă de adrese false pe care le folosesc crawlerele deep web pentru a obține acces și pentru a indexa paginile ascunse?

Actualizați

În urma răspunsului și comentariului care indică verificând că Googlebot este crawler-ul, am confirmat că nu este:

$ gazdă 212.113.167.197
197.167.113.212.in-addr.arpa indicator pentru nume de domeniu cache.google.com.
$ host cache.google.com
Gazdă cache.google.com nu a fost găsită: 3(NXDOMAIN)

Deci, într-adevăr, pare un utilizator rău intenționat, ceea ce explică de ce acea adresă de e-mail nu este documentată ca provenind de la Google.

drapel vn
Luați în considerare blocarea adresei URL a formularului de e-mail în robots.txt.Sau un captcha? *Presumez* Google bot nu va încerca să-și spargă propriile captchas...
miguelmorin avatar
drapel jp
E o idee bună. Poti sa scrii un raspuns?
Puncte:3
drapel kr
Bob

Inspectând adresa IP a cererilor cu DNS invers, toate cele trei solicitări provin de la cache.google.com.

Când faceți o căutare inversă, nu uitați să verificați dacă o căutare înainte a numelui gazdei indică adresa IP pe care o investigați.

> gazdă 66.249.66.1
1.66.249.66.in-addr.arpa indicator pentru nume de domeniu crawl-66-249-66-1.googlebot.com.

> host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com are adresa 66.249.66.1

Când înregistrările DNS inverse și directe vă aliniază, ca în acest exemplu, atunci puteți avea încredere în el. În caz contrar, este posibil să aveți un administrator neglijent sau un exemplu de încercare a unui atacator de a-și ascunde originea.

Vă rugăm să utilizați o interogare Whois pe adresa IP, mai degrabă o căutare inversă DNS pentru a determina proprietarul atunci când investigați abuzul.

Indiferent de înregistrarea DNS inversă a adresei IP a atacatorilor, în special, nu este întotdeauna o informație de încredere.

Rețineți că proprietarul unui interval de adrese IP poate seta orice valoare dorește pentru înregistrările DNS inverse. Nu există nicio limitare conform căreia aceștia pot utiliza numai numele de gazdă pe care le dețin și nici o limitare tehnică inerentă conform căreia o înregistrare DNS inversă trebuie să se potrivească cu o înregistrare DNS directă.
(Deși cei mai mulți furnizori diligenti încearcă să impună acest lucru atunci când le permit clienților să configureze înregistrări DNS inversate personalizate pe adresa IP publică pe care o folosesc.)

Configurarea unei înregistrări DNS inversate false este un truc din arsenalul pe care unii atacatori îl pot folosi pentru a-și ascunde urmele și/sau pentru a părea mai buni atunci când încearcă să ocolească controalele de acces.

miguelmorin avatar
drapel jp
Mulțumesc! Interogarea Whois pe adresa IP (https://www.whois.com/whois/x.x.x.x) arată că aceasta provine de la un furnizor de servicii de internet și nu listează `cache.google.com` nicăieri în înregistrări. Dacă solicitările sunt într-adevăr de la botul Google, ar trebui să listeze un nume de domeniu `google.com`?
drapel kr
Bob
Consultați https://developers.google.com/search/docs/advanced/crawling/verifying-googlebot pentru recomandarea acestora, care include verificarea faptului că înregistrarea DNS inversă utilizată se potrivește efectiv cu înregistrarea directă.

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.