Puncte:1

spamassasin nu poate citi japoneză când este codificat html

drapel ug

Aș dori să blochez unele e-mailuri care conțin anumite cuvinte japoneze, dar spamassassin nu reușește să detecteze astfel de cuvinte atunci când e-mailul este codificat HTML, de exemplu:

Acesta este un mesaj cu mai multe părți în format MIME.
--------------050206070005060005050706
Tip de conținut: text/plan simplu; set de caractere=ISO-2022-JP; format=curgere
Conținut-Transfer-Codificare: citat-printabil

こんにちは!残念な&=
#12364;ら凶報がございま&#=
12377;。数ヶ月前、あな...

--------------050206070005060005050706
Tip de conținut: text/html; charset="ISO-2022-JP"
Conținut-Transfer-Codificare: citat-printabil

<html>
  <cap>

    <meta http-equiv=3D"content-type" content=3D"text/html; =
set de caractere=3DISO-2022-JP">
  </cap>
  <body bgcolor=3D"#FFFFFF" text=3D"#000000">
    こんにちは!</br>
</br>
残念ながら凶報がご&=
#12374;います。</br>
...
  </corp>
</html>
--------------050206070005060005050706--

Exemplu de regulă în spamassassin:

body JAP_BAD_1 /æ®å¿µãªããå¶å ±ããããã¾ã/
scor JAP_BAD_1 5.0

Totuși, când rulez testul:

spamassassin -D textcat -t spam.test

Nu apare meciul. Ce trebuie să fac?

anx avatar
drapel fr
anx
Vreun motiv pentru a nu respinge pur și simplu *toate* e-mail-urile cu entități html numerice în părți presupus de tip `text/plain`?
lepe avatar
drapel ug
@anx Nu sunt sigur dacă acest lucru ar putea respinge mesajele autentice.
drapel gb
Nu sunt cu adevărat un expert în [ISO-2022-JP](https://en.wikipedia.org/wiki/ISO/IEC_2022#ISO-2022-JP), dar am înțeles că această codificare folosește coduri de evacuare în timp ce eșantionul dvs. utilizează în schimb coduri de caractere de mare valoare prin entități HTML.Dacă acest Unicode, acestea ar fi semne [Cuneiform](https://en.wikipedia.org/wiki/Cuneiform_(Unicode_block)) (începând cu `` presupunând că fontul dvs. poate reda asta), deși `!` nu este definit de Unicode afact.
lepe avatar
drapel ug
@AdamKatz Dacă decodați entitățile HTML, de exemplu, cu acest [instrument](https://mothereff.in/html-entities), veți descoperi că `こんにちは!` este de fapt `ããã „ã¡ã¯ï¼`.
drapel gb
Hah, mă gândeam în hexazecimal. Totuși, aceasta nu este o utilizare tipică a ISO-2022-JP după înțelegerea mea, deoarece ISO-2022-JP ar fi umplut cu caractere de evacuare.
lepe avatar
drapel ug
@AdamKatz probabil că ai dreptate. Nu sunt familiarizat cu ISO-2022-JP.

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.