Aprenda a identificar diferenças estatisticamente significativas entre médias de grupos, resultados de pesquisas e testes A/B usando o teste t.

Mulher trabalhando em gráficos de teste t.

Embora qualquer pessoa possa ver a diferença entre dois números, descobrir se essa diferença é estatisticamente significativa exige mais trabalho.

Suponhamos que você aplicou uma pesquisa de satisfação de clientes no trabalho. Seu chefe quer analisar se homens dão um Net Promoter Score® (NPS) mais baixo para a empresa do que as mulheres. 

Nos dados, você percebe que a média das avaliações dos homens foi 9, enquanto a média das mulheres foi 12. Como saber se 9 é realmente diferente de 12? É aí que entram os testes t.

Neste artigo, vamos explicar o que é o teste t e em quais situações ele é usado, mostrar exemplos práticos e ensinar como interpretar os resultados. 

O teste t é um teste estatístico que avalia se a diferença entre duas médias é significativa usando a distribuição t. Ele ajuda a identificar se a diferença observada entre dois grupos reflete um efeito real ou se provavelmente ocorreu por acaso.

Testar a significância estatística é comum em testes de conceito e testes de produto. Em testes de conceito, testes A/B são frequentemente usados para determinar se um conceito de anúncio tem melhor desempenho que outro. Da mesma forma, os testes de produto podem mostrar se um produto terá bom desempenho ao ser lançado no mercado. 

Os testes t usam fórmulas específicas para comparar médias e verificar se a diferença é estatisticamente significativa. O teste t de duas amostras é o mais comum em análises de pesquisa:

fórmula do teste t

Veja as fórmulas para o teste t de amostra única e o teste t pareado:

Teste t de amostra única e teste t pareado.

Tanto no teste t de amostra única quanto no teste t pareado, o valor t calculado é comparado a um valor crítico da distribuição t para avaliar a significância.

O teste t é usando quando se quer saber se duas médias são significativamente diferentes e não apenas numericamente distintas nos resultados de uma pesquisa. Ele ajuda a comparar médias de grupos, avaliar diferenças entre amostras e decidir se uma diferença é estatisticamente significativa com base no valor de p e no nível de confiança.

Entre alguns cenários comuns de pesquisa, temos:

  • Comparar dois grupos. Use o teste t de duas amostras (amostras independentes) para analisar se dois segmentos, como homens e mulheres, clientes novos e recorrentes ou diferentes grupos de colaboradores, respondem de forma diferente.
  • Testar um conceito ou tratamento em comparação a um controle. Em testes A/B ou testes de conceito, o teste t mostra se uma versão tem desempenho superior à outra.
  • Avaliar diferenças de pontuação. Compare métricas como o Net Promoter Score (NPS), o Customer Satisfaction Score (CSAT) ou o Customer Effort Score (CES) para verificar se a média de um grupo é maior ou menor em relação ao outro de maneira estatisticamente significativa.
  • Verificar mudanças ao longo do tempo. O teste t pareado revela se as pontuações dos mesmos respondentes mudaram depois de um evento, lançamento ou campanha.

Use o teste t quando precisar avaliar diferenças entre médias, comparar resultados com um parâmetro de referência ou validar hipóteses em amostras pequenas. O teste t é uma escolha confiável para análise de pesquisas, testes A/B e qualquer situação em que seja necessário comprovar que uma diferença nos seus dados é real.

Antes de aplicar o teste t, verifique se seus dados atendem a algumas premissas básicas para garantir resultados confiáveis.

  • Respostas independentes. Cada resposta deve vir de uma pessoa diferente e não influenciar as outras respostas. Evite duplicidades, aparelhos compartilhados ou agrupamentos (clusters) ocultos.
  • Média aproximadamente normal. O teste t funciona melhor quando a distribuição amostral da média é aproximadamente normal, o que costuma ocorrer quando cada grupo tem cerca de 30 ou mais participantes.
  • Variância razoável. Se as variâncias dos dois grupos forem muito diferentes ou os tamanhos das amostras forem desbalanceados, use o teste t de Welch em vez do teste t padrão para duas amostras.

Fazer essa checagem básica ajuda a garantir que qualquer diferença observada represente um sinal real e não apenas ruído nos dados.

Existem três tipos de teste t usados com frequência por pesquisadores, cada um com finalidades diferentes que explicaremos a seguir.

O teste t de amostra única verifica se a média dos dados de um grupo (neste caso, o CES geral) é diferente de um valor que você determinar.

Exemplo: a média atual do índice de esforço de clientes (CES) da sua empresa é 4,2. Esse CES de 4,2 representa de forma significativa maior esforço do que o padrão do setor, que é 5,0?

O teste t para duas amostras avalia se as médias de dois grupos independentes são significativamente diferentes entre si. Se as variâncias dos grupos forem desiguais ou os tamanhos das amostras estiverem desbalanceados, use o teste t de Welch (disponível na maioria das ferramentas), pois ele não presume variâncias iguais.

Exemplo: sua hipótese é que homens atribuem um NPS menor à sua empresa do que as mulheres. A média do NPS entre homens é de 9, enquanto entre mulheres é de 12. A média 9 é significativamente diferente da de 12?

Esse teste é usado quando você aplica a mesma pesquisa ao mesmo grupo de pessoas duas vezes. O teste t pareado mostra se a média mudou entre a primeira e a segunda aplicação da pesquisa.

Exemplo: você entrevistou o mesmo grupo de clientes duas vezes: uma em abril e outra em maio, após eles verem um anúncio da sua empresa. O NPS da sua empresa mudou depois que os clientes viram o anúncio?

Mulher olhando gráficos no laptop.

Existem quatro etapas para realizar um teste t.

Nesta seção, vamos conhecer as quatro etapas usando como exemplo as avaliações de NPS mencionadas no início: 

Sua hipótese é que homens dão um NPS menor para sua empresa do que as mulheres. A média do NPS entre homens é 9, enquanto para mulheres é 12. O 9 é significativamente diferente de 12? Esse é um exemplo de aplicação do teste t de duas amostras.

Vamos nos aprofundar nas etapas e no exemplo do teste t.

Cada tipo de teste t tem uma fórmula específica para calcular a estatística t. Neste exemplo, usaremos a fórmula do teste t de duas amostras, em que: 

  • t é a estatística t
  • x1 é a média do NPS para homens → 9
  • x2 é a média para mulheres → 12
  • n1 é o número de homens que responderam à pergunta de NPS. Suponhamos que 20 homens responderam à pesquisa
  • n2 é o número de mulheres. 23 mulheres responderam
  • s1 é o desvio padrão do NPS para homens. Suponhamos que o desvio padrão calculado seja 12,48
  • s2 é o desvio padrão do NPS para mulheres. O desvio padrão calculado é 10,51
fórmula do teste t de duas amostras

Provavelmente, você fará os testes t em uma planilha ou um programa estatístico (como Excel ou SPSS). No entanto, se quiser calcular manualmente, as fórmulas dos outros dois tipos de teste t estão descritas a seguir.

Teste t de amostra única e teste t pareado.

Os graus de liberdade representam o número de maneiras como a média pode variar. Neste caso, correspondem ao número de avaliações de NPS que você pode ter em um grupo de respondentes. Assim como a estatística t, a fórmula dos graus de liberdade varia conforme o tipo de teste t realizado. 

Essa fórmula deve ser usada para determinar os graus de liberdade em testes t de duas amostras.

Fórmula dos graus de liberdade.

O valor crítico é o limite a partir do qual a diferença entre dois números é considerada estatisticamente significativa. 

De acordo com esta tabela, para um teste bicaudal com nível de alfa de 0,05 e 41 graus de liberdade, o valor crítico é 2,02. Vale destacar que a maioria dos analistas prefere o teste bicaudal ao unicaudal, pois é uma abordagem mais conservadora. 

Para saber mais sobre as diferenças entre testes unicaudais e bicaudais, confira este vídeo da Khan Academy.

Se sua estatística t for maior que o valor crítico, a diferença é significativa. Se for menor, os dois números são, do ponto de vista estatístico, indistinguíveis.

No nosso exemplo, o valor absoluto da estatística t é 0,86, que não é maior do que o valor crítico de 2,02. Portanto, podemos concluir que homens não dão notas de NPS significativamente menores do que as mulheres.

Interpretar os resultados do teste t envolve analisar a estatística t, o valor de p e o intervalo de confiança para entender se a diferença entre seus grupos reflete um efeito real ou apenas uma variação aleatória. Essas métricas mostram juntas o tamanho da diferença, a força das evidências e o nível de confiança que você pode ter no resultado. O quadro de dúvidas e respostas abaixo explica o que cada métrica indica e como analisar os resultados do teste t.

O valor t indica o tamanho da diferença entre as médias dos grupos em relação à variabilidade dos seus dados. Um t absoluto maior significa que há um sinal acima do nível de ruído, enquanto um t menor sugere que a diferença pode ser apenas fruto do acaso.

O valor de p indica a probabilidade de obter os mesmos resultados obtidos se a hipótese nula (ou seja, nenhuma diferença real) for verdadeira. Muitas equipes adotam o limite de 0,05: p ≤ 0,05 sugere uma diferença estatisticamente significativa, enquanto p > 0,05 indica que não há diferença significativa nessa amostra.

O intervalo de confiança (IC) fornece uma faixa provável para a diferença real entre as médias, oferecendo mais contexto que um simples “sim ou não” sobre a significância. Se o IC passar pelo zero, o efeito não é conclusivo; se ficar todo acima ou todo abaixo de zero, o resultado é significativo no nível de confiança escolhido.

Uma diferença significativa é aquela que é estatisticamente significativa e também tem valor prático. Analise o tamanho do efeito estimado e o intervalo de confiança para entender o tamanho que essa diferença pode ter e se realmente importará para sua decisão.

Amostras maiores reduzem a variabilidade, estreitam os intervalos de confiança e facilitam a detecção de diferenças reais. Amostras pequenas geram mais incerteza, tornando mais difícil interpretar efeitos próximos ao limite da significância.

Um bom resumo dos resultados do teste t deixa claro por que a comparação foi realizada, o que o teste revelou e qual o seu grau de confiança na diferença entre os grupos. Sua função é traduzir os resultados estatísticos para linguagem simples, vinculá-los à pergunta original e destacar o que as descobertas sugerem para as decisões futuras.

Ao resumir os resultados do teste t, inclua estes elementos essenciais:

  1. Explique o objetivo. Comece dizendo por que você realizou o teste t e qual era o objetivo do teste. Por exemplo, explique que usou o teste para verificar se havia uma diferença estatisticamente significativa entre as médias de dois grupos nos resultados da pesquisa.  
  2. Compartilhe as estatísticas descritivas. Em seguida, destaque a média e o desvio padrão de cada grupo avaliado. Isso oferece o contexto necessário para que todos compreendam as diferenças observadas. Também é importante informar o tamanho da amostra de cada grupo para complementar essa análise. 
  3. Apresente os resultados do teste t. Depois, informe o valor t, os graus de liberdade (df), o valor de p e a análise de intervalo de confiança (se houver). 
  4. Apresente suas conclusões. Por fim, compartilhe suas descobertas com os interessados. Resuma rapidamente se a diferença é estatisticamente significativa e o que isso significa em relação à sua hipótese ou à dúvida de pesquisa.
  5. Indique os próximos passos. Explique para os interessados o que suas descobertas representam para a empresa. Aponte como os resultados podem afetar as decisões de negócio daqui em diante.

Evitar alguns erros simples pode ajudar você a obter resultados de teste t mais claros e confiáveis dos dados da pesquisa.

  • Buscar apenas valores de p pequenos sem verificar a diferença real. Um resultado pode ser “estatisticamente significativo” mesmo que a diferença entre os grupos seja pequena demais para importar. Considere o tamanho da diferença e o intervalo de confiança para determinar se ela é realmente relevante.
  • Comparar muitos grupos sem ajustar sua abordagem. Testar vários segmentos ou perguntas aumenta a chance de encontrar diferenças por acaso. Comece com um teste mais amplo, como a ANOVA, ou use correções simples ao executar vários testes t.
  • Encerrar testes A/B cedo demais. Verificar os resultados com frequência e finalizar o teste assim que perceber algo promissor pode levar a conclusões erradas. Defina o tamanho da amostra ou período de análise antes de começar.
  • Usar o teste t para o tipo errado de dados. Se sua pergunta envolver classificações ou escalas de avaliação muito desviadas, o teste t pode não ser adequado, pois as médias podem ser enganosas. Certifique-se de que os dados estejam balanceados e não tenham desvios muito grandes.
  • Ignorar as premissas básicas. O teste t funciona melhor quando as respostas são independentes e os grupos têm variabilidade semelhante. Se a dispersão entre os grupos for muito diferente, use o teste t de Welch para uma análise mais confiável.
  • Teste t e ANOVA
  • Teste z e teste t

Os testes t são usados para determinar se a diferença entre as médias de dois grupos amostrais é estatisticamente significativa. Você pode usar o teste t na análise de dados de uma pesquisa para validar a confiabilidade dos seus dados. 

A SurveyMonkey facilita o processo de criação e envio de pesquisas para grupos amostrais, atendendo às necessidades de pesquisa da sua organização. Com a SurveyMonkey, você pode criar pesquisas de mercado e questionários do zero ou aproveitar nossa seleção com mais de 400 modelos prontos.

Comece já a coletar dados de pesquisa para análise e ajude sua organização a tomar decisões melhores para crescer. Crie sua conta gratuita hoje mesmo!

NPS, Net Promoter e Net Promoter Score são marcas registradas da Satmetrix Systems, Inc., Bain & Company e Fred Reichheld.

Mulher com hijab analisando insights de pesquisa em laptop.

Trabalhe melhor com a ajuda da SurveyMonkey. Saiba como criar estratégias vencedoras e mais impactantes para produtos, suas experiências e muito mais.

Homem e mulher lendo um artigo em um laptop e fazendo anotações em notas adesivas.

Aprenda como escrever uma pergunta de pesquisa qualitativa e obter insights aprofundados. Veja tipos, exemplos e dicas práticas.

Homem de óculos sorrindo e usando um laptop.

Descubra como a Hornblower usa a SurveyMonkey e a IA avançada para aproveitar os dados do NPS, coletar insights e melhorar a experiência de clientes.

Mulher analisando informações em laptop.

Novas pesquisas sobre as tendências do ambiente de trabalho e como os colaboradores estão equilibrando o tempo pessoal enquanto trabalham em casa e as diferenças entre trabalho remoto e presencial