Plug-in per il software anti-spam Spamassassin© contro l'image spam
Con ImageSpam si intende comunemente una tecnica utilizzata dagli spammer, che consiste nel racchiudere in una immagine il messaggio testuale da inviare, in maniera tale che esso sia facilmente legibile da un essere umano ma non così facilmente da una macchine (e quindi dai filtri anti-spam). ImageCerberus si propone com strumento per l'identificazione dell'
image spam. A tal fine, ImageCerberus esegue un'
analisi "visuale" delle immagini allegate alle e-mail, ottenendo risultati promettenti per il filtraggio dell'image spam (vedi
CEAS 2008).
Perché usare Image Cerberus Plug-in?
Diversi moduli basati su OCR sono attuamente disponibili come plug-in per SpamAssassin:
Gli approcci asati su OCR possono essere efficaci contro l'image spam, solo quando il testo dell'immagine è "pulito" ed è quindi possibile estrarre il contenuto testuale racchiuso nell'immaigne. Tuttavia, spesso tale operazione è complessa, in quanto gli spammer usano teciche di offuscamento del testo contro gli OCR. In questi casi, gli approcci basati su OCR non sono in grado di determinare se l'immagine appartiene ad una mail leggittima o no. Inoltre questi approcci hanno un'elevata complessità computazionale (non sono molto rapidi).
Gli approccci di tipo "visuale" hanno tipicamente una complessità computazione inferiore (sono più veloci) rispetto a quelli basati su OCR, e possono essere efficaci anche quando il messaggio testuale non può essere estratto dall'immagine. Tuttavia, il risultato della loro analisi può essere considerato meno "affidabile" in quanto non viene effettuata nessuna analisi semantica del contenuto dell'immagine.
Infine, all'interno del Lab stiamo sviluppando una archittettura basata sull'uso congiunto di approcci Visuali e basati su OCR. Il nostro obbiettivo è quello di sfruttare la complementarietà fra i due approcci per migliorare le prestaizoni e l'affidabilità, limitando la complessità computazionale.
Le valutazioni sperimentali (eseguite su un dataset personale di alcune centinaia di e-mail, vedi spam repository and CEAS 2008) hanno mostrato che Image Cerberus può contribuire in modo efficace al riconoscimento dell'image spam. Una valutazione quantitativa delle tecniche implementate in Image Cerberus ed altre considerazioni pososno essere trovate nelle nostre pubblicazioni sullo spam filtering.
Installazione
- Scaricare l'archivio ImageCerberusPLG.zip contente tutti i file necessari cf e ImageCerberusPLG.pm tramite il pulsante sulla destra.
- Copiare i tre file: "ImageCerberusPLG" "data.classifier" "data.normalizer" in una directory del hard disk (e.g. /etc/spamassassin/imageCerberus or ~/.spamassassin/imageCerberus).
- Copiare "ImageCerberus.cf" e "ImageCerberus.pm" nella cartella di configurazione di Spamassassin, ricordandosi di impostare in ImageCerberus.cf il path di ImageCerberusPLG e dei file data.
- Riavviare Spamassassin per iniziare ad utilizzare ImageCerberus plug-in.
- Se necessario, modificar eil file di configurazione "ImageCerberusPLG.cf" per personalizzare il calcolo dello score. Ricordarsi di riavviare Spamassassin dopo qualunque modifica.
|
Download |
AcknowledgementsSi ringrazia per il contributo allo sviluppo del plugin con il suo software per la localizzazione del testo Radhakrishna Achanta and Sabrine Susstrunk del
Images and Visual Representation Group (IVRG) in the Audiovisual Communications Laboratory (LCAV) alla Ecole Polytechnique Fédérale de Lausanne (EPFL). Si ringraziano Victor Cruz and Maria Carmen Montalban (studenti Ersasmus spagnoli) per il contributo allo sviluppo del plug-in durante la loro permanenza a Cagliari.
Dipendenze
Per usare Bayes OCR Plug-in è sufficiente avere una versione funzionante di Spamassassin e dei software Intel OpenCV library, convert (imagemagick).
Licenza
Questo software è rilasciato con licenza
Apache Software License (versione 2.0). La distribuzione e la modifica del codice è approvata e incoraggiata.
Disclaimer
Image Cerberus plug-in is provided "as is" without warranty of any kind. We don't assume any responsibility on the performances and any possible damage arising out of the use of the software. Use it at your own risk!