Filtraggio delle e-mail di Spam

Le e-mail di spam sono messaggi indesiderati e inviati in modo indiscriminato a un gran numero di destinatari con cui il mittente non ha nessun tipo di relazione. Le e-mail di spam sono di solito di natura pubblicitaria e commerciale (spesso riguardante prodotti illegali), oppure sono inviate a scopo di frode (come nel fenomeno del phishing, il cui obiettivo è appropriarsi di informazioni personali dei destinatari, come i codici di accesso a un conto bancario), o per diffondere virus e altri attacchi informatici (malware). Oltre alle contromisure di natura legale ed economica, le contromisure tecnologiche consistono nell'uso di filtri anti-spam, cioè programmi che hanno lo scopo di riconoscere automaticamente tali e-mail. I filtri sono usati sia negli e-mail server, per cancellare automaticamente le e-mail classificate come spam, o più spesso per etichettarle come tali, sia negli e-mail client (i comuni programmi per la gestione della posta elettronica), per archiviare lo spam in una cartella dedicata (junk folder). Tutti i filtri anti-spam usano tecniche di riconoscimento automatico per analizzare il contenuto testuale delle e-mail e i loro allegati. L'efficacia di queste tecniche è messa a dura prova dai trucchi introdotti dagli spammer per "offuscare" il reale contenuto delle loro e-mail, in modo tale da renderlo non riconoscibile da tecniche di analisi automatica, senza però pregiudicarne la comprensione da parte dei destinatari umani.

Il PRA Lab si è occupato di un trucco noto come “image-based spam” (o "image spam"), che consiste nell'inserire il messaggio di spam in un'immagine allegata, in modo che non sia rilevabile dall'analisi del testo della e-mail. In alcuni casi il testo all'interno delle immagini viene anche offuscato per renderlo non rilevabile da filtri che utilizzano strumenti di riconoscimento automatico di caratteri (OCR).

 

Al PRA Lab abbiamo sviluppato tecniche di filtraggio dello image spam basate sull'analisi congiunta del testo nel corpo delle e-mail e di quello estratto con strumenti di OCR dalle immagini allegate. Abbiamo inoltre sviluppato tecniche di analisi delle immagini allegate, per il rilevamento di artefatti dovuti all'offuscamento del testo.



Abbiamo anche sviluppato due plug-in (BayesOCR, Image Cerberus) basati su queste tecniche per il più diffuso filtro anti-spam open source, SpamAssassin.