Teoria degli MCS

I sistemi di classificatori multipli (multiple classifier system, MCS) sono il nucleo metodologico attorno al quale si sono sviluppate le attività di ricerca del PRA Lab nel campo del pattern recognition, a partire dalla sua fondazione, nel 1996. Il PRA Lab organizza l'International Workshop on Multiple Classifier Systems (a partire dalla prima edizione tenutasi nel 2000), che è attualmente il principale forum internazionale per il dibattito sugli MCS per i ricercatori delle comunità del pattern recognition, dell'apprendimento automatico, delle reti neurali artificiali, del data mining e della statistica.
 
 

Gli MCS costituiscono un approccio allo stato dell'arte per il progetto di algoritmi di classificazione automatica. L'approccio tradizionale si basa sulla valutazione di più possibili algoritmi alternativi per uno stesso problema, e sulla scelta di quello più accurato. Questo approccio presenta diversi limiti:

  • In molte applicazioni non si hanno dati sufficienti per individuare con affidabilità il miglior classificatore, e si rischia perfino di selezionare il peggiore. Combinare più classificatori è allora una soluzione che può evitare la scelta del peggiore, e può anche consentire di superare le prestazioni del miglior classificatore singolo.
  • Se si hanno a disposizione diversi classificatori con accuratezza simile, che però commettono errori su campioni diversi, la loro combinazione può raggiungere un'accuratezza maggiore.
  • In alcune applicazioni sono disponibili diverse sorgenti d'informazione (feature). Per esempio, nei problemi di riconoscimento dell'identità di un individuo, si possono sfruttare diverse biometrie, come il volto, la voce, e le impronte digitali. Progettare un unico classificatore basato su tutte le feature a disposizione è complesso e poco efficace. Gli MCS offrono una soluzione vantaggiosa anche in questo caso, consentendo di progettare classificatori distinti e meno complessi per ogni insieme di feature, e di combinare le loro uscite.
  • È stato dimostrato che l'accuratezza di un dato algoritmo di apprendimento automatico, per un dato problema di classificazione, può essere incrementata attraverso la combinazione di più classificatori ottenuti applicando lo stesso algoritmo su più versioni del training set a disposizione, ottenute per esempio ricampionando il training set in modo casuale (bagging) o costruendo i classificatori in sequenza, in modo che ciascuno si concentri sui campioni del training set classificati in modo errato dai classificatori precedenti (boosting).

Il PRA Lab ha contribuito allo sviluppo della teoria e dei metodi degli MCS in diverse direzioni: nello sviluppo di metodi per il progetto degli MCS basati sul paradigma overproduce and choose; nello sviluppo di tecniche di combinazione dinamica; nell'analisi di una delle regole di combinazione tra le più usate, la combinazione lineare; e nell'analisi della sicurezza degli algoritmi di classificazione basati su MCS, per problemi di apprendimento automatico in ambienti ostili. Abbiamo inoltre usato il paradigma degli MCS in diverse applicazioni.