Melhor resposta
Infelizmente, não é uma terminologia padronizada. Mas a ideia geral é que é usado em “quase-experimentos”: aqueles em que o pesquisador não pode realizar uma verdadeira randomização em condições. Compare duas situações:
(1) Quando você entra pela porta para um experimento, jogamos uma moeda (ou rolamos um dado, etc.), e isso determina a qual condição você está atribuído. é uma variável “independente”, no sentido de que em si não deve estar correlacionada com os resultados experimentais. [As aspas indicam que o sentido de “independente” é diferente da regressão.]
(2) Quando você entra pela porta para um experimento, usamos algo sobre você (a cor dos seus olhos, quantos irmãos você tem, seu gênero, seu curso de graduação, se você “renasce em um ano par ou ímpar, etc.) para determinar a qual condição você” é atribuído. São “quase independentes”: os níveis ou categorias existem antes do experimento e, mais importante, podem ser correlacionados de alguma forma a resultados experimentais por si próprios .
Deve ser óbvio que gênero é uma terrível variável “independente”, uma vez que está ligado a isso muitos outros tra seus resultados experimentais. A cor dos olhos parece melhor, mas está relacionada com a etnia. Quer você tenha nascido em um ano ímpar ou par, parece quase como jogar uma moeda; mas, em uma população universitária, pode tornar mais provável que você seja, digamos, um calouro e, portanto, mais jovem. Um melhor dispositivo quase aleatório é, portanto, se você nasceu em uma data ímpar ou par.
Em estudos médicos, a randomização real é quase impossível, pois até mesmo a decisão de participar do estudo pode afetar os resultados. Mais especificamente, as pessoas que optam por um tratamento em vez de outro não o fazem aleatoriamente, então comparar seus resultados pode ser sem sentido; o exemplo clássico é que as pessoas têm mais probabilidade de morrer em grandes hospitais urbanos do que em clínicas locais, porque o primeiro tome os casos mais graves.
Nos estudos de ciências sociais, os problemas podem ser maiores, uma vez que existem tantos efeitos associados ao “tratamento”. Por exemplo, se quisermos determinar se só as crianças são mais autoconfiantes do que aqueles com irmãos, podemos ficar tentados a simplesmente comparar esses grupos. Mas as famílias com filhos únicos podem diferir sistematicamente daquelas com mais – talvez os pais se casaram mais tarde, não tinham recursos para criar mais filhos, estavam em uma cidade ambiente – fazer declarações causais pode ser extremamente difícil usando a variável quase independente “filho único”.
Resposta
Uma variável de controle é uma variável independente, apenas aquela que não é o foco do estudo. A diferença é na mente do investigador, não nas estatísticas.
Por exemplo, suponha que você queira estudar o efeito de alguma droga em alguma condição. No entanto, você sabe que a condição também é afetada pela idade do paciente. Você não está interessado em estudar o efeito da idade, mas se ignorá-lo, haverá muito ruído em seus resultados.
Uma estratégia simples com uma variável de controle é mantê-la constante em seu estudo – presumindo que você tenha essa habilidade. Você pode testar seu medicamento apenas em pessoas de 40 anos, por exemplo. Isso elimina as diferenças de efeito causadas pela idade, sem qualquer modelagem.
Uma estratégia relacionada é segregar seus dados por idade do paciente e analisá-los separadamente para cada idade. Isso poderia ser razoável se o efeito fosse totalmente diferente com base na idade, mas seria ineficiente na maioria dos casos. Embora a idade afete os resultados, provavelmente você pode usar informações sobre o efeito em pessoas de 40 anos para ter uma ideia do efeito em pessoas de 50 anos.
Isso leva à terceira estratégia principal, incluir a idade como uma variável independente e modelar seu efeito junto com o efeito da droga. Isso é o mesmo que você faria em um estudo se o principal interesse fosse o efeito da idade do paciente; ou se houvesse interesse tanto no efeito da droga quanto no efeito da idade do paciente. A única diferença é que, como você está interessado apenas no medicamento, você ignora os parâmetros do modelo para a idade.
Finalmente, a quarta abordagem comum é extrair o efeito da idade antes de olhar os resultados do medicamento . Isso é frequentemente escolhido se já existir um bom modelo para o efeito da idade. Nesse caso, você não estuda o efeito do medicamento no resultado bruto do paciente, mas no resultado ajustado para a idade do paciente.