Estatísticas de podcast - Como coletamos e processamos dados

Este artigo fornecerá informações detalhadas e percepções sobre como o Spreaker mede os dados dos ouvintes. Mais especificamente, ele fornece informações sobre como esses dados são processados para melhor representar o comportamento real do usuário e evitar tráfego fraudulento e falso.

Prefácio: como os ouvintes consomem o conteúdo do Spreaker

O conteúdo publicado no Spreaker pode ser acessado de duas maneiras diferentes:

Na plataforma: o conteúdo é consumido por meio de um aplicativo feito pelo Spreaker (o site ou aplicativos móveis), reportado como um download.
Fora da plataforma: quando o conteúdo é consumido por meio de aplicativos de escuta de clientes de terceiros (agregadores de podcast). Isso é relatado como um download.

Definições

Download

Um download é contado em resposta a uma ação iniciada pelo usuário que inicia a reprodução de áudio de um arquivo de mídia específico. As ações subsequentes feitas pelo mesmo usuário no mesmo arquivo de mídia (ou seja, reproduzir / parar / reproduzir sequências, buscas, etc ...) não são contadas se caírem em uma janela de tempo específica, caso em que são consideradas como parte da mesma reprodução . (Consulte Janelas de tempo para obter detalhes.).

Além disso, um download é contado em resposta a uma solicitação HTTP GET iniciada pelo aplicativo para um arquivo de mídia hospedado no Spreaker. Para evitar contagens duplas (ou mesmo múltiplas) de dados de download, os registros brutos do CDN são filtrados de forma que apenas uma única solicitação de um arquivo de mídia específico, proveniente de um IP e cliente exclusivo, seja contada em uma janela de tempo específica, dentro de um único dia.

Janelas de tempo de download

Um intervalo temporal, que define os limites dos quais vários downloads iniciados pelo mesmo usuário ou aplicativo cliente são contados como um único evento. Essa filtragem evita várias contagens de solicitações HTTP get subsequentes (por exemplo, solicitações de intervalo de bytes) que realmente fazem parte da mesma sessão de download e, ao mesmo tempo, evita comportamento fraudulento (várias reproduções / paradas) destinadas a aumentar as contagens de download.

Cada ação de download que ocorre antes do término da janela de tempo não é contada e o ponto inicial da janela de tempo é redefinido.

A janela de tempo atual é de um dia.

Downloads na plataforma

Todas as atividades de escuta que acontecem nos aplicativos do Spreaker:

O site do Spreaker
Aplicativos móveis do Spreaker (iOS, Android)
Aplicativos móveis personalizados (iOS, Android) feitos por Spreaker
Players incorporados do Spreaker

Downloads fora da plataforma

Quando um aplicativo de escuta de terceiros (por exemplo, aplicativos como Apple Podcasts, Google Podcasts, Spotify, Overcast, Stitcher, ...) solicita conteúdo dos servidores do Spreaker - geralmente referenciando links de mídia contidos no RSS.

Tudo o que o Spreaker vê em seu lado é uma solicitação HTTP "GET", que inclui informações como um endereço IP de origem e um conjunto de cabeçalhos. Entre essas informações, o “Agente do usuário” ajuda a identificar o aplicativo de origem e o OS.

Nesse caso, o Spreaker não possui informações definitivas sobre a mídia que foi ou não ouvida posteriormente pelo usuário.

O número bruto de solicitações HTTP "GET" de arquivos de mídia não é um indicador confiável do número de downloads porque:

Alguns clientes fazem várias solicitações "Get" para o mesmo arquivo (solicitações de intervalo de bytes) enquanto tentam minimizar a transferência de dados por meio de uma conexão
Algumas fontes de downloads são consideradas ilegítimas (por exemplo, bots de download) e são filtradas da contagem

Antes de relatar esses dados aos ouvintes, o Spreaker aplica uma série de mecanismos de filtragem para evitar múltiplos rastreamentos e garante uma contagem precisa. Veja abaixo os detalhes sobre como essa filtragem é realizada.

Outros downloads (não relatados)

Algumas plataformas (por exemplo Google Play, ...) criam uma cópia local dos arquivos de mídia a serem veiculados ou hospedados em sua base de usuários. Isso significa que o Spreaker não pode obter nenhuma informação sobre seus downloads porque as solicitações do cliente não chegam ao CDN do Spreaker. Se essas plataformas suportam uma API de relatórios, as reproduções são contadas. Caso contrário, não há informações sobre essa mídia sendo acessada no painel do Spreaker.

Contagem de downloads

Um download é contado quando ocorre uma das seguintes situações:

Um usuário clica no botão de reprodução de um arquivo de mídia (em um dos aplicativos do Spreaker)
Um arquivo de mídia começa a ser reproduzido automaticamente
Um usuário conclui uma ação que resulta na reprodução de um arquivo de mídia (por exemplo, clica em uma posição na forma de onda e a mídia começa a ser reproduzida)
Uma solicitação HTTP "Get" para um arquivo é detectada e o mesmo arquivo (ou uma parte do mesmo arquivo no caso de solicitações de intervalo de bytes)

Não foi solicitado pelo mesmo usuário / aplicativo cliente durante a janela de tempo.

Múltiplas solicitações para o mesmo arquivo de mídia originadas do mesmo aplicativo cliente também podem ser filtradas se excederem os limites máximos por hora e diários para esse tráfego; isso evita geradores de tráfego falsos e outros bots.

Filtragem de download

O Spreaker usa um algoritmo proprietário para analisar downloads a fim de eliminar solicitações redundantes, bots e tráfego fraudulento em uma medida consistente da atividade real do ouvinte. Isso fornece aos anunciantes e editores o conjunto de dados mais confiável para compreender melhor a atividade do ouvinte.

Especificamente, essas ações são realizadas ao filtrar downloads:

As solicitações GET são rastreadas (a maioria dos agregadores de podcast geralmente também faz solicitações HTTP HEAD antes de baixar um arquivo)
Os bots e rastreadores conhecidos são filtrados
O rastreamento múltiplo é evitado ao não contar várias solicitações do mesmo cliente (ver exclusividade) que caem na janela de tempo (consulte Janelas de tempo)
Vários downloads são filtrados da mesma fonte com base em taxas horárias e diárias (e evita geradores de tráfego falsos)

Metodologia de Medição

Algoritmo de singularidade

Contando com as informações da conta do usuário (quando disponíveis), o Spreaker é capaz de identificar facilmente os downloads exclusivos de seus arquivos de mídia. Quando as informações da conta do usuário não estão disponíveis, o Spreaker usa um algoritmo proprietário envolvendo cookies, o endereço IP, o agente do usuário e outros fatores para agregar várias solicitações em uma única solicitação de download exclusivo. Este algoritmo está em constante evolução à medida que a indústria evolui.

Muitas vezes, enquanto o algoritmo do Spreaker visa capturar a atividade de pessoas individualmente, ele se limita a interpretar as ações de clientes únicos. Quando várias pessoas compartilham o mesmo computador ou dispositivo e todas ouvem o mesmo arquivo de mídia, essa métrica de "Download exclusivo" subestima o número de ouvintes únicos que acessaram o episódio. Felizmente, a proliferação de dispositivos portáteis pessoais reduziu significativamente a probabilidade e a frequência desses cenários.

Geolocalização e geocodificação

A geolocalização do usuário vem do uso de:

GPS ou outras informações de localização, quando disponíveis
Pesquisa de geocodificação de endereço IP

Os endereços IP são atribuídos por Provedores de Serviços de Internet (ISPs). Para alguns ISPs, os endereços IP não se relacionam com a localização real do usuário final, embora isso esteja se tornando menos problemático com a crescente prevalência de conexões de internet de alta velocidade sempre ativas e o mapeamento de dispositivos de usuário com GPS dados.

Fontes de informação

As fontes são identificadas de várias maneiras:

Aplicativos Spreaker: são contados diretamente na infraestrutura do Spreaker
Player incorporado: esses downloads são relatados como provenientes do domínio do host onde o player está incorporado
Downloads relatados pela API: contados diretamente
Outras fontes de download: o aplicativo e o dispositivo de origem são identificados com base em informações como o Agente do Usuário ou o campo referenciador da solicitação HTTP get.