Statistiche dei podcast: come raccogliamo e gestiamo i dati

Questo articolo fornisce informazioni dettagliate su come Spreaker misura i dati legati agli ascolti. In particolare viene spiegato come sono gestiti i dati per rappresentare al meglio il comportamento degli utenti ed evitare traffico fraudolento o falso.

Introduzione: come gli utenti ascoltano i contenuti di Spreaker

I contenuti pubblicati su Spreaker sono disponibili in due modi:

Sulla piattaforma, dove il contenuto è ascoltato tramite i software di Spreaker (sito web o app) e contato nei download.
Fuori dalla piattaforma, dove i contenuti sono ascoltati tramite software terzi e contati come download.

Definizioni

Download

Il download corrisponde all'azione di un utente che inizia la riproduzione di un file audio specifico. Le successive azioni fatte dallo stesso utente sullo stesso file (come avvio, interruzione o ricerche) non vengono contate se rientrano in un determinato intervallo temporale e, in quel caso, sono considerate come facenti parti dello stesso download.

Inoltre, viene contato un download anche ogni volta che un software terzo richiede di riprodurre il file gestito da Spreaker (HTTP GET). Al fine di evitare il conteggio di doppi (o addirittura multipli) download, sono attivi dei filtri per ogni file audio in modo che venga contato un solo download all’interno di un intervallo temporale per uno specifico IP e richiedente.

Intervallo temporale dei download

Si tratta di un periodo di tempo all’interno del quale molteplici richieste di download dallo stesso utente o richiedente vengono considerate come un solo download. Si tratta di un filtro fondamentale per evitare il conteggio errato di varie richieste che possono avvenire in una singola sessione di download. Allo stesso tempo, evitano i tentativi di falsare le statistiche di download con avvi e interruzioni ripetuti dello stesso file audio.

Qualsiasi azione che verrebbe contata come un download, fatta prima della fine di quell'intervallo temporale, non viene conteggiata fino a quando l’intervallo temporale non è trascorso.

L’intervallo temporale attualmente è di un giorno.

Download sulla piattaforma

Tutte le attività di ascolto sui software di Spreaker:

Sito web di Spreaker
App di Spreaker (iOS e Android)
App personalizzate create tramite Spreaker (iOS e Android)
Widget di riproduzione di Spreaker

Download fuori dalla piattaforma

Quando un software terzo (come Apple Podcasts, Google Podcasts, Spotify, Overcast o Stitcher) richiede i contenuti presenti sui server di Spreaker e normalmente avviene tramite feed RSS.

Tutto quello che vede Spreaker è una richiesta HTTP GET che include alcune semplici informazioni come l’IP. Tra queste informazioni, sono contenute alcune che aiutano Spreaker a identificare la fonte e il sistema operativo.

In questo caso, Spreaker non ha informazioni definitive sul media che è stato o non è stato successivamente ascoltato dall'utente.

Il solo numero di richieste HTTP GET non è un indice affidabile del numero di download perché:

Alcuni software fanno molteplici richieste per un singolo file per minimizzare il trasferimento dei dati durante la connessione.
Alcune richieste sono considerate illegittime (come i download fatti da bots) ed eliminate dal conteggio.

Prima di riportare le statistiche degli ascoltatori, Spreaker applica una serie di filtri per evitare conteggi multipli e assicurare dati accurati. Più avanti nell’articolo sono disponibili maggiori dettagli.

Altri download (non riportati)

Alcune piattaforme come Google Play creano una copia locale dei file audio da inviare ai loro utenti. Questo significa che Spreaker non può ottenere alcuna informazione sul numero di download perché le richieste non passano per il server di Spreaker. Se queste piattaforme supportano un API, allora i download vengono contati, altrimenti non ci sarà alcun dato al riguardo su Spreaker.

Conteggio dei download

Ecco le azioni che contano come un download:

L’utente clicca sul pulsante di avvio del file multimediale su uno dei software di Spreaker
Il file audio inizia mediante una riproduzione in sequenza
Un utente fa un’azione che comporta l’inizio della riproduzione, come cliccare su un punto della barra a forma di onda
Viene ricevuta una richiesta per il file audio o di una parte di esso tramite HTTP GET.

E AL CONTEMPO

Non c’è stata un’altra richiesta da parte dello stesso utente o richiedente all’interno dello stesso intervallo temporale.

Un flusso eccessivo di richieste che provengono dalla stessa fonte verrà filtrato su base oraria o giornaliera per bloccare eventuali generatori automatici di richieste.

Filtraggio dei download

Spreaker utilizza un proprio algoritmo per analizzare i download ed eliminare le richieste ridondanti, i bot e il traffico fraudolento per potere avere informazioni veritiere sull'attività dell'ascoltatore. Il tutto per poter fornire dati attendibili a podcaster e inserzionisti.

Ecco alcune delle azioni incluse nel meccanismo di filtraggio.

Monitoraggio delle richieste HTTP GET (e di quelle HTTP HEAD utilizzate da molte piattaforme di ascolto)
Filtraggio di bot e crawler e altri meccanismi conosciuti per richieste automatizzate
Il tracciamento multiplo viene evitato non conteggiando più richieste dello stesso utente (quello che viene chiamato unicità) che ricadono all'interno della stessa finestra temporale
I download multipli vengono filtrati dalla stessa fonte in base alle valutazioni orarie e giornaliere (ed evitano falsi generatori di traffico)

Metodo di misurazione

Algoritmo di unicità

Partendo dalle informazioni legate al profilo dell’utente (se disponibili), Spreaker è in grado d'identificare con facilità l’unicità di una richiesta di download. Quando tali informazioni non sono disponibili, Spreaker usa un algoritmo creato appositamente che utilizza cookie, indirizzo IP, user agent e altri fattori per aggregare le richieste in modo che vengano considerate come una unica richiesta di download. Si tratta di un algoritmo che evolve di pari passo con l'industria del podcasting.

Anche se l’algoritmo di Spreaker mira ad acquisire l’attività delle singole persone, è limitato a interpretare le azioni dei singoli utenti. Quando molte persone utilizzano lo stesso computer o dispositivo e ascoltano lo stesso file, l’algoritmo sottostima il numero di ascoltatori che accedono all’episodio. Fortunatamente, la sempre maggiore diffusione di dispositivi di ascolto personali contribuisce a ridurre drasticamente la probabilità e la frequenza di tali scenari.

Geolocalizzazione e geocodificazione

Ecco come Spreaker identifica le informazioni legate alla posizione geografica:

GPS e altre informazioni di localizzazione se disponibili

Ricerca della posizione dell’indirizzo IP

Gli IP sono assegnati dai fornitori di servizi internet. In alcuni casi l’indirizzo IP non è un’indicazione della reale posizione geografica dell’utente finale. Un problema sempre meno rilevante con lo sviluppo della velocità di connessione e dei servizi che implicano da parte dell’utente una geolocalizzazione sempre attiva.

Informazioni sulle sorgenti

Le sorgenti sono identificate in molti modi:

Nelle app di Spreaker: sono conteggiate direttamente nell’infrastruttura di Spreaker.
Nel widget di riproduzione: questi downloads vengono conteggiati come provenienti dal dominio in cui è presente il riproduttore
Download tramite API: conteggiate direttamente
Altre sorgenti di download: l'app di provenienza e il dispositivo sono identificati dalle informazioni legate alla richiesta come l’user agent nella richiesta HTTP GET