Mejor respuesta
Si bien las dos primeras respuestas son correctas hasta donde llegan, ambas tratan la variación de muestreo como un error. En ese caso, el término más preciso en error de muestreo.
La variación de muestreo es simplemente la variación en una estadística de una muestra a otra. Se puede medir comparando muestras reales o se puede estimar teóricamente a partir del conocimiento de los datos o de una sola muestra.
Un ejemplo de error de muestreo es realizar una encuesta para estimar la fracción de personas que votará por el candidato demócrata en las próximas elecciones. Quieres saber la verdadera fracción de población. La fracción que dice que votarán por los demócratas en su muestra puede variar de la verdadera fracción de la población por la suerte del sorteo, ese es el error de muestreo. También puede diferir debido a sesgos o respuestas mal registradas u otros problemas, que no son errores de muestreo.
Un ejemplo de variación de muestreo que no es un error de muestreo es un proveedor que intenta decidir cuánta comida traer por persona a los eventos. No solo le interesa el valor medio, sino la variación muestral. Por supuesto, también habrá una variación predecible de cosas como el tipo de evento, las edades de los invitados, la hora del día, etc. Pero incluso para dos eventos que son idénticos en todos los factores de control medidos, se consumirán diferentes cantidades de alimentos.
La razón por la que el proveedor no quiere saber solo el significado es que puede tomar decisiones estratégicas. Por ejemplo, podría traer la comida cara y perecedera solo para servir el mínimo apetito probable de la multitud, luego tener comida menos costosa y más duradera para llevar si parece necesario, y quizás algo de comida no perecedera de respaldo de emergencia en caso de que la multitud tenga mucha hambre.
Respuesta
El sobremuestreo y el submuestreo son dos técnicas importantes que se utilizan en el aprendizaje automático: problemas de clasificación en orden para reducir el desequilibrio de clases aumentando así la precisión del modelo.
La clasificación no es más que predecir la categoría de un punto de datos al que probablemente pertenezca al conocer las características pasadas de instancias similares.
Por ejemplo,
- Predecir si una persona es hombre o mujer
- Predecir si un cliente bancario es capaz de pagar el préstamo o no.
- Predecir si er un correo es spam o antispam, etc.
El modelo obtiene la capacidad de predicción al examinar muchas instancias similares en el pasado asumiendo que algo va a sucederá en el futuro será un reflejo del pasado. Ahora, especialmente en los problemas de clasificación, cada categoría se conoce como una clase.
Digamos que si queremos predecir si una persona es hombre o mujer, entonces «Hombre» se considerará una clase y «Mujer ”También se considerará una clase. Mientras aprende sobre las características de estas clases usando las instancias pasadas, deben estar en una separación aproximadamente pareja para desarrollar un modelo altamente preciso.
En otras palabras, si el modelo necesita la capacidad de predecir el género de un persona entonces debería aprender esta habilidad de al menos miles de registros en el pasado donde tanto hombres como mujeres deberían tener una participación algo igual. Si la segregación de clases no es aproximadamente igual, se puede denominar como un problema de “ desequilibrio de clases ”.
Trataré de explicar esto con un ejemplo-
Consideremos que tenemos un problema de clasificación binaria para predecir si una película será un éxito o un fracaso.
Tenemos las siguientes características como variables independientes-
- Duración (en minutos)
- Género
- Mes de lanzamiento
Nuestros datos se ven así (Ejemplo 1):
En general, nuestro modelo de aprendizaje automático aprenderá las siguientes inferencias de estos datos:
- Las películas que se estrenaron en los meses de abril a mayo han tenido éxito.
- Las películas que pertenecen al género de la comedia tuvieron mayor éxito.
-
Las películas que pertenecen al género de terror fueron en su mayoría un fracaso.
- Películas que se estrenaron en junio- Los meses de julio no han tenido tanto éxito.
Entonces,
¿Cuál será la predicción de ¿Nuestro modelo si una nueva película de comedia se estrena en abril?
Se predecirá como un éxito porque existe una alta probabilidad de que esta película genere una buena cantidad de dinero en caja. office ya que todas las películas de comedia estrenadas en el mes de abril-mayo en el pasado han tenido éxito.
¿Cuál será la predicción de nuestro modelo si una nueva película de terror se estrena en julio?
Nuestro modelo lo predecirá como un fracaso porque ninguna película de terror ha tenido éxito hasta ahora a partir de datos anteriores y eso también en el mes de julio donde la audiencia nunca se ha convertido en cines.
Esta capacidad predictiva del modelo llegó en la imagen porque fue capaz de diferenciar las características de una película exitosa y fallida incluso antes del lanzamiento de la experiencia de examinar la historia pasada.
Ahora , consideremos que tenemos nuestros datos de entrada al modelo de la siguiente manera (Ejemplo 2):
Aquí , El 90\% de nuestros datos anteriores pertenecen a las características de las películas exitosas y solo el 10\% de los registros están presentes para conocer las características de una película fallida. Si creamos un modelo usando los datos anteriores (Muestra-2), entonces crees que ¿Podrás dar una buena predicción?
No.
Veamos las razones en profundidad,
¿Cuál será la predicción de nuestro modelo si se estrena una nueva película de terror en julio?
Aquí, no hay garantía de que el modelo dé la predicción correcta (flop) porque no pudo aprender lo suficiente sobre las características de una película flop.
Digamos que ha producido una película de terror por $ 100 millones y fijó la fecha de lanzamiento para el 22 de junio de 2021. Ahora , quieres saber cuál será el posible resultado de esta película en taquilla.
Entonces, si has ejecutado el modelo con Sample -1 que contiene la separación uniforme de clases (Hit / Flop), entonces habría predicho el resultado como «Flop» (que en realidad es correcto). Si es así, habría podido tomar precauciones de acuerdo con la posibilidad de una falla como:
- Cambiar la fecha de lanzamiento
- Incrementar el anuncio y la publicidad de la película
- Lanzamiento de un nuevo avance de la película para aumentar la publicidad, etc.
Pero, si ha utilizado Sample – 2 en el modelo , entonces habría predicho el resultado como un éxito y, por lo tanto, habría lanzado la película en una fecha fija (22 de junio) y podría terminaron como un fracaso incurriendo en la pérdida.
La razón real de la predicción incorrecta para el modelo con Sample-2 es que no pudo entender que una película se estrenará en el mes de junio y que también en el género de terror tiene una probabilidad muy baja de tener éxito en la taquilla debido a la falta de ejemplos similares en sus datos de aprendizaje.
Estos registros de presencia desigual en un conjunto de datos con un recuento muy bajo para algunas de las clases y un recuento extremadamente alto para el resto de las clases se denominan desequilibrio de clases.
/ span>
¿Cómo superar este escenario?
Hay 2 formas principales:
- Sobremuestreo
- Submuestreo
El sobremuestreo no es más que duplicar el número de registros que pertenecen a aquellas clases que tienen una presencia muy baja . En el ejemplo anterior, teníamos 9 registros pertenecientes a la categoría «Hit» y solo 1 registro perteneciente a la categoría «Flop». Ahora, podemos aumentar artificialmente el número de registros que pertenecen a la categoría «Flop» duplicando su presencia.
Aquí, hemos creado artificialmente 5 registros más que pertenecen a la categoría «Flop» para que la diferencia entre el número de registros que pertenecen a ambas clases se reduzca. Este es un ejemplo clásico de sobremuestreo.
El submuestreo no es más que reducir el número de registros que pertenecen a aquellas clases que tienen una presencia extremadamente alta en comparación a otras clases.
Aquí, hemos reducido el número de registros que pertenecen a «Hit» para que la diferencia entre el número de registros que pertenecen a ambas clases se ha reducido. Este es un ejemplo clásico de submuestreo. Los registros para la eliminación se seleccionan estrictamente a través de un proceso aleatorio y no están influenciados por ninguna restricción o sesgo.
¡¡¡Espero que te haya ayudado !!!