Tabela de links
-
Teste de hipótese
2.5 Parada opcional e espreitando
-
Testes seguros
-
Simulações de teste seguro
4.1 Introdução e 4.2 Implementação de Python
-
Teste de proporção seqüencial de mistura
-
Testes A/B vintados e 7,1 teste t seguro para testes A/B vintados
7.2 Teste de proporção segura para incompatibilidade de proporção de amostra
5 Teste de razão de probabilidade seqüencial de mistura
5.1 Teste seqüencial
Como a infraestrutura sofisticada de testes A/B proliferou, também tem as oportunidades de espiar os resultados dos testes [Joh+17]. Como vimos, isso leva à conseqüência não intencional de inflar a taxa de falso positivo. Para tirar proveito de sua infraestrutura, as grandes empresas de tecnologia começaram a implementar métodos estatísticos válidos a qualquer momento. Este campo de estatísticas é conhecido como teste seqüencial ou inferência a qualquer momento. Testes seqüenciais originados com o artigo seminal de Wald sobre o assunto, testes seqüenciais de hipóteses estatísticas [Wal45]. Wald apresenta o primeiro método de teste seqüencial, conhecido como Teste da Ratio de Probabilidade Sequencial (SPRT). O SPRT é um teste de tamanho M de uma amostra que divide o espaço da amostra em três regiões mutuamente exclusivas correspondentes à decisão a ser tomada: aceite H0, rejeite H0 ou continue a amostragem. A quantidade para determinar a decisão é a probabilidade posterior dos dados sob H1 divididos pela probabilidade posterior sob H0, P (D | H1)/P (D | H0). Este é o conhecido fator Bayes entre as hipóteses alternativas e nulas e está intimamente relacionado a variáveis eletrônicas em testes seguros [GHK23].
Wald e Wolfowitz provaram que o SPRT é o teste seqüencial ideal em termos de poder estatístico [WW48]. Deve -se notar, no entanto, que a formulação de um teste seqüencial não está alinhada com a dos testes seguros. Sua prova é baseada na divisão do espaço da razão de probabilidade em três regiões: aceite H0, rejeite H0 ou continue a amostragem. Por outro lado, o teste t seguro é ideal em termos de crescimento [Pér+22]o que significa que o E-variável E crescerá mais rápido quando o H0 não for verdadeiro. A decisão de rejeitar H0 é tomada quando E ≥ 1/α, enquanto a decisão oposta de aceitar H0 pode ser tomada a qualquer momento. Entenda as diferentes formulações desses testes seqüenciais e suas provas de otimização devem ajudar a internalizar o desempenho relativo dos dois testes.
5.2 MISTURA SPRT
O desenvolvimento de um teste A/B para testes seqüenciais envolveu a expansão do SPRT para funcionar com dados de duas amostras. Isso foi realizado por Johari et al. [Joh+17] que foram pioneiros em um método de teste A/B, conhecido como Teste de Probabilidade Sequencial da Mistura (MSPRT). Este teste foi adotado em grandes empresas de tecnologia, como Uber e Netflix [SA23]. Como no teste t seguro, o MSPRT tem um desempenho ideal com dados sequenciais granulares. O MSPRT é essencialmente semelhante ao SPRT, com uma crença anterior de que o parâmetro verdadeiro está próximo de θ0. Vamos examinar os detalhes matemáticos deste teste com mais profundidade.
Manteremos a estatística MSPRT em sua forma de martingale, a fim de comparar o desempenho com o teste t seguro.
Autor:
(1) Daniel Beasley
Este artigo é