Crowd Couting and density estimation

Il problema del crowd counting consiste nello stimare il numero di persone presenti in una certa località e in un determinato momento, analizzando i singoli frame o sequenze di più frame consecutivi di video acquisiti con telecamere fisse, ad esempio ripresi da un sistema di videosorveglianza, o telecamere appositamente posizionate per monitorare l'ordine pubblico in eventi di breve durata. Per poter essere utilizzate per questo compito le telecamere devono riprendere la folla dall'alto, per garantire il minor numero possibile di sovrapposizione tra le persone e che almeno la testa di tutti gli individui sia ben visibile.


I metodi allo stato dell'arte infatti si basano principalmente sulla localizzazione delle teste sia tramite approcci basati su detection a differenti scale, sia tramite approcci di stima della densità basati su regressione. Questi ultimi hanno l'ulteriore vantaggio di produrre una mappa di densità, la quale può essere usata per una stima globale del numero di persone nell'intera immagine, o per una stima locale ad esempio nelle aree di interesse. La mappa di densità estratta da sequenze di video permette inoltre di monitorare il flusso delle persone e anche di analizzare il comportamento della folla ad esempio in casi di spostamenti repentini e inaspettati.


I metodi allo stato dell'arte però non hanno ancora raggiunto un alto potere di generalizzazione e perciò sono ancora molto sensibili al cambiamento di dominio o scena, ad esempio il cambiamento di località (parco, piazza, strada, etc.) ma anche semplicemente dal cambio di prospettiva della telecamera (altezza o inclinazione). Ne consegue che un sistema di crowd couting addestrato con immagini o video acquisiti in una determinata scena ha delle prestazioni inferiori quando applicato ad immagini prevenidenti da una scena differente.


Per questo motivo il PRA Lab ha lavorato allo sviluppo di sistemi di crowd couting scene specific, allo scopo di incrementare le prestazioni anche in scene target per le quali non sono presenti immagini o video annotati utilizzabili per l'addestramento. A questo scopo sono stati sviluppati due differenti approcci per la creazione di immagini sintetiche che rispecchiano le caratteristiche della scena target:
  1. un approccio basato su tecniche di elaborazione di immagini che, sfruttando un catologo di immagini di indidui precedentemente collezionati, aggiunge i nuovi individui in maniera randomica in aree predefinite della scena;
  2. un appoccio basato un un motore grafico che in maniera molto simile aggiunge i nuovi individui in maniera randomica in aree predefinite della scena, ma utilizzando dei modelli umani 3D.

Nonostante i due approcci possano sembrare molto simili hanno delle peculiarità molto differenti: il primo garantisce un alto livello di fotorealismo, dato che anche i nuovi individui inseriti nelle scena sono persone reali, mentre il secondo garantisce un alto livello di realismo fisico e funzionale dato che i nuovi individui inseriti hanno delle pose realistiche e presentano le stesse distorsioni, occlusioni, illuminazioni e ombre di una scena reale. Quest'ultimo approccio inoltre, ha un ulteriore vantaggio in quanto non richiede un catalogo predefinito di inidividui, ma vengono generati secondo le necessità e con attributi visuali (maglia, pantaloni, scarpe, borse, cappelli, etc.) sempre diversi. <\div>