Melhor resposta
Embora as duas primeiras respostas estejam corretas até o ponto em que vão, ambas tratam a variação de amostragem como erro. Nesse caso, o termo mais preciso em erro de amostragem.
A variação de amostragem é simplesmente a variação em uma estatística de amostra para amostra. Ele pode ser medido comparando amostras reais ou pode ser estimado teoricamente a partir do conhecimento sobre os dados ou de uma única amostra.
Um exemplo de erro de amostragem é fazer uma votação para estimar a fração de pessoas que votará no candidato democrata nas próximas eleições. Você quer saber a verdadeira fração da população. A fração que diz que votará nos democratas em sua amostra pode variar da fração real da população pela sorte do sorteio, que é o erro de amostragem. Também pode ser diferente devido a tendências ou respostas mal registradas ou outros problemas, que não são erros de amostragem.
Um exemplo de variação de amostragem que não é um erro de amostragem é um fornecedor tentando decidir quanta comida levar por pessoa para eventos. Ela não está interessada apenas no valor médio, mas na variação da amostragem. É claro que também haverá variações previsíveis de coisas como tipo de evento, idade dos convidados, hora do dia e assim por diante. Mas mesmo para dois eventos que são idênticos em todos os fatores de controle medidos, diferentes quantidades de comida serão consumidas.
O motivo pelo qual o fornecedor não quer saber exatamente o que significa é que ele pode fazer escolhas estratégicas. Por exemplo, ela pode trazer a comida cara e perecível apenas para atender ao apetite mínimo provável da multidão, então ter alguma comida menos cara e mais duradoura para trazer se parecer necessário, e talvez alguma comida não perecível de reserva de emergência em caso a multidão esteja extremamente faminta.
Resposta
Amostragem excessiva e subamostragem são 2 técnicas importantes usadas no aprendizado de máquina – problemas de classificação em ordem para reduzir o desequilíbrio de classes, aumentando assim a precisão do modelo.
A classificação nada mais é do que prever a categoria de um ponto de dados ao qual provavelmente pertence, aprendendo sobre características anteriores de instâncias semelhantes.
Por exemplo,
- Prever se uma pessoa é homem ou mulher
- Prever se um cliente de banco é capaz de pagar o empréstimo ou não.
- Prever o quê er um e-mail é um spam ou anti-spam, etc.
A capacidade de previsão é obtida pelo modelo examinando muitos casos semelhantes no passado, supondo que algo vai acontecer no futuro será um reflexo do passado. Agora, especialmente em problemas de classificação, cada categoria é conhecida como uma classe.
Digamos que, se quisermos prever se uma pessoa é do sexo masculino ou feminino, “Masculino” será considerado uma classe e “Feminino ”Também será considerada como uma classe. Ao aprender sobre as características dessas classes usando as instâncias anteriores, elas devem estar em uma separação aproximadamente uniforme para o desenvolvimento de um modelo altamente preciso.
Em outras palavras, se o modelo precisa da capacidade de prever o sexo de um pessoa, então, ele deve aprender essa habilidade com pelo menos 1000 registros anteriores, onde homens e mulheres devem ter participação igual. Se a segregação de classes não for aproximadamente igual, pode ser denominado como um problema de “ Desequilíbrio de classe ”.
Vou tentar explicar isso com um exemplo-
Vamos considerar que temos um problema de classificação binária para prever se um filme será um sucesso ou um fracasso.
Temos os seguintes recursos como variáveis independentes-
- Duração (em minutos)
- Gênero
- Mês de lançamento
Nossos dados são semelhantes a este (Exemplo 1) –
Principalmente nosso modelo de aprendizado de máquina aprenderá as seguintes inferências a partir desses dados-
- Filmes que foram lançados nos meses de abril-maio foram bem-sucedidos.
- Os filmes pertencentes ao gênero comédia tiveram maior sucesso.
-
Filmes pertencentes ao gênero terror foram em sua maioria fracassos.
- Filmes que foram lançados em junho- Os meses de julho não foram tão bem-sucedidos.
Então,
Qual será a previsão de nosso modelo se um novo filme de comédia for lançado no mês de abril?
Será previsto como um sucesso porque há uma grande chance de que este filme arrecade uma boa quantia de dinheiro na caixa escritório uma vez que todos os filmes de comédia lançados no mês de abril-maio no passado foram bem sucedidos.
Qual será a previsão do nosso modelo se um novo filme de terror for lançado no mês de julho?
Nosso modelo irá prever como um fracasso porque nenhum filme de terror teve sucesso até agora com base nos dados anteriores e isso também no mês de julho, onde o público nunca se transformou em cinemas.
Essa capacidade de previsão do modelo veio na foto porque foi capaz de diferenciar as características de um filme de sucesso e de fracasso, mesmo antes do lançamento, da experiência de examinar a história passada.
Agora , vamos considerar que temos nossos dados de entrada para o modelo como segue (Amostra 2) –
Aqui , 90\% de nossos dados anteriores pertencem às características de filmes de sucesso e apenas 10\% dos registros estão presentes para aprender sobre as características de um filme de flop. Se criarmos um modelo usando os dados acima (Amostra-2), então você acha que será capaz de dar uma boa previsão?
Não.
Vamos ver os motivos em profundidade,
Qual será a previsão de nosso modelo se um novo filme de terror for lançado no mês de julho?
Aqui, não há garantia de que o modelo dará a previsão correta (flop) porque não foi capaz de aprender o suficiente sobre as características de um filme flop.
Digamos que você produziu um filme de terror por $ 100 milhões e fixou a data de lançamento para 22 de junho de 2021. Agora , você quer saber qual será o possível resultado desse filme na bilheteria.
Então, se você rodou o modelo com Amostra -1 que contém a separação uniforme de classes (Hit / Flop), então teria previsto o resultado como “Flop” (o que é realmente correto). Nesse caso, você teria sido capaz de tomar cuidado de acordo com a possibilidade de uma falha como-
- Alterando a data de lançamento
- Aumentando a propaganda e a publicidade do filme
- Lançando um novo trailer do filme para aumentar o hype etc.
Mas, se você usou Sample – 2 no modelo então ele teria previsto o resultado como um sucesso e, portanto, você teria lançado o filme em uma data fixa (22 de junho) e poderia acabaram como um fracasso, incorrendo na perda.
A razão real para a previsão errada para o modelo com Sample-2 é que ele não foi capaz de entender que um filme foi lançado no mês de junho e que também em o gênero de terror tem uma probabilidade muito baixa de obter sucesso nas bilheterias devido à falta de exemplos semelhantes em seus dados de aprendizagem.
Essa presença desigual registra em um conjunto de dados com uma contagem muito baixa para algumas das classes e uma contagem extremamente alta para o resto das classes é chamada de desequilíbrio de classe.
Como superar esse cenário?
Existem duas maneiras principais-
- Amostragem excessiva
- Amostragem insuficiente
Oversampling nada mais é do que duplicar o número de registros pertencentes às classes que têm uma presença muito baixa . No exemplo acima, tínhamos 9 registros pertencentes à categoria “Hit” e apenas 1 registro pertencente à categoria “Flop”. Agora, podemos aumentar artificialmente o número de registros pertencentes à categoria “Flop” duplicando sua presença.
Aqui, criamos artificialmente mais 5 registros pertencentes à categoria “Flop” para que a diferença entre o número de registros pertencentes a ambas as classes seja reduzida. Este é um exemplo clássico de sobreamostragem.
A subamostragem nada mais é do que reduzir o número de registros pertencentes às classes que têm uma presença extremamente alta quando comparadas para outras classes.
Aqui, reduzimos o número de registros pertencentes a “Hit” para que a diferença entre o número de registros pertencentes a ambas as classes diminuiu. Este é um exemplo clássico de subamostragem. Os registros para exclusão são selecionados estritamente por meio de um processo aleatório e não são influenciados por nenhuma restrição ou viés.
Espero que tenha ajudado você !!!