Site-ul meu are o zonă limitată la utilizatorii care se înscriu cu un e-mail valid. Am primit solicitări cu e-mailuri false și vreau să evit să trimit e-mailuri către adrese inexistente, ca nu cumva să mărească rata de respingere și să-mi afecteze reputația de trimitere.
E-mailurile sunt:
[email protected]
[email protected]
kWQcHVzn%40ypEcDvh.NwB
Ultimul are %40
, entitatea HTML pentru @
. E-mailurile sunt trunchieri ale aceleiași secvențe de caractere.
Inspectând adresa IP a cererilor cu DNS invers, toate cele trei solicitări provin de la cache.google.com
. Dacă solicitările provin de la crawler-ul Google, m-aș aștepta ca aceste adrese de e-mail să fie documentate, dar nu am găsit nicio referință.
În cazul în care este crawler-ul Google, vreau să indexeze site-ul web, evitând în același timp să trimită adrese de e-mail către adrese false. Am implementat deja filtrarea pe adresa căutând acea secvență de caractere.
Există o listă de adrese false pe care le folosesc crawlerele deep web pentru a obține acces și pentru a indexa paginile ascunse?
Actualizați
În urma răspunsului și comentariului care indică verificând că Googlebot este crawler-ul, am confirmat că nu este:
$ gazdă 212.113.167.197
197.167.113.212.in-addr.arpa indicator pentru nume de domeniu cache.google.com.
$ host cache.google.com
Gazdă cache.google.com nu a fost găsită: 3(NXDOMAIN)
Deci, într-adevăr, pare un utilizator rău intenționat, ceea ce explică de ce acea adresă de e-mail nu este documentată ca provenind de la Google.