É hora de abandonar o teste de significância de hipótese nula? Indo além da abordagem padrão
Pesquisadores da Northwestern University, da Universidade da Pensilvânia e da Universidade do Colorado publicaram um novo Journal of Marketing estudo que propõe o abandono do teste de significância de hipótese nula (NHST) como abordagem...

Pixabay
Pesquisadores da Northwestern University, da Universidade da Pensilvânia e da Universidade do Colorado publicaram um novo Journal of Marketing estudo que propõe o abandono do teste de significância de hipótese nula (NHST) como abordagem padrão para análise e relatórios estatísticos.
O estudo é intitulado "'Significância Estatística' e relatórios estatísticos: indo além do binário" e é de autoria de Blakeley B. McShane, Eric T. Bradlow, John G. Lynch Jr. e Robert J. Meyer.
O teste de significância de hipótese nula (NHST) é a abordagem padrão para análises estatísticas e relatórios em marketing e, mais amplamente, nas áreas biomédica e Ciências Sociais. Conforme praticado, o NHST envolve
assumindo que a intervenção sob investigação não tem efeito juntamente com outras suposições,
calcular uma medida estatística conhecida como valor Pcom base nessas suposições e
comparando o valor P computado com o valor limite arbitrário de 0,05.
Se o valor P for menor que 0,05, o efeito será declarado "estatisticamente significativo" a suposição de nenhum efeito é rejeitada e conclui-se que a intervenção tem um efeito no mundo real. Se o valor P estiver acima de 0,05, o efeito será declarado "estatisticamente não significativo" a suposição de nenhum efeito não é rejeitada e conclui-se que a intervenção não tem efeito no mundo real.
Críticas ao NHST
Apesar de seu papel padrão, o NHST tem sido criticado há muito tempo por estatísticos e pesquisadores aplicados, incluindo os de marketing. As críticas mais proeminentes referem-se à dicotomização dos resultados em resultados "estatisticamente significativos" e "estatisticamente não significativo".
Por exemplo, autores, editores e revisores usam "(não) significância estatística" como um filtro para selecionar quais resultados publicar. Meyer diz que “isto cria uma literatura distorcida porque os efeitos das intervenções publicadas são enviesados para cima em magnitude”. Também incentiva práticas de pesquisa prejudiciais que produzem resultados que atingem a chamada significância estatística.
Lynch acrescenta que "NHST não tem base porque nenhuma intervenção tem efeito precisamente zero no mundo real e pequenos valores de P e & #39;significância estatística' são garantidos com tamanhos de amostra suficientes. Dito de outra forma, não há necessidade de rejeitar uma hipótese de efeito zero quando já se sabe que ela é falsa."
Talvez o abuso mais difundido das estatísticas seja verificar onde alguma medida estatística, como um valor P, está em relação a 0,05 e tomá-lo como base para declarar "(não) significância estatística" e tirar conclusões gerais e certas de um único estudo.
“Estudos únicos nunca são definitivos e, portanto, nunca podem demonstrar um efeito ou nenhum efeito. O objetivo dos estudos deve ser relatar os resultados de uma forma não filtrada, para que possam posteriormente ser usados para tirar conclusões mais gerais baseadas em evidências cumulativas de vários estudos. O NHST leva os pesquisadores a tirar conclusões gerais e certas de maneira errada e a filtrar os resultados de maneira errada”, disse ele. diz Bradlow.
"P - os valores variam naturalmente muito de estudo para estudo," explica McShane. Por exemplo, um valor "estatisticamente significativo" estudo original com um valor P observado de p = 0,005 (muito abaixo do limite de 0,05) e um valor "estatisticamente não significativo" estudo de replicação com um valor P observado de p = 0,194 (muito acima do limite de 0,05) são altamente compatíveis entre si, no sentido de que o valor P observado, assumindo que não há diferença entre eles, é p = 0,289.
Ele acrescenta que "no entanto, quando visto através das lentes da '(não)significância estatística,' esses dois estudos parecem categoricamente diferentes e, portanto, estão em contradição porque são categorizados de forma diferente.
Alterações recomendadas na análise estatística
Os autores propõem uma grande transição na análise estatística e nos relatórios. Especificamente, eles propõem abandonar o NHST – e os limites de valor P intrínsecos a ele – como a abordagem padrão para análise estatística e relatórios. Suas recomendações são as seguintes:
"(Não) significância estatística" nunca deve ser usado como base para tirar conclusões gerais e certas.
"(Não) significância estatística" também nunca deve ser usado como filtro para selecionar quais resultados publicar.
Em vez disso, todos os estudos deveriam ser publicados de uma forma ou de outra.
Os relatórios devem concentrar-se na quantificação dos resultados do estudo através de estimativas pontuais e intervalares. Todos os valores dentro das estimativas de intervalo convencionais são pelo menos razoavelmente compatíveis com os dados, dadas todas as suposições usadas para calculá-los; portanto, não faz sentido destacar um valor específico, como o valor nulo.
Conclusões gerais devem ser tiradas com base nas evidências cumulativas de vários estudos.
Os estudos precisam tratar os valores P continuamente e como apenas um fator entre muitos, incluindo evidências anteriores, a plausibilidade do mecanismo, o desenho do estudo , qualidade dos dados e outros que variam de acordo com o domínio de pesquisa — que exigem consideração conjunta e integração holística.
Os investigadores devem também respeitar o facto de tais conclusões serem necessariamente provisórias e sujeitas a revisão à medida que novos estudos são realizados.
As decisões raramente são necessárias em relatórios científicos e é melhor deixá-las para os utilizadores finais, como gestores e médicos, quando necessário.
Nesses casos, eles devem ser feitos usando uma análise de decisão que integre os custos, benefícios e probabilidades de todas as consequências possíveis através de uma função de perda (que normalmente varia dramaticamente entre as partes interessadas) - e não através de limites arbitrários aplicados a dados estatísticos. resumos como P-valores ("(não)significância estatística") que, fora de certas aplicações especializadas, como controle de qualidade industrial, são insuficientes para esse propósito.
Mais informações: Blakeley B. McShane et al, EXPRESS: "Significância Estatística" e Relatórios Estatísticos: Indo além do binário, Journal of Marketing (2023). DOI: 10.1177/00222429231216910
Informações do diário: Diário de Marketing