¿Cuál es el factor de replicación en HDFS y cómo podemos configurarlo?


Mejor respuesta

Bueno, el factor de replicación es 3 Por defecto en HDFS . En este, uno es el bloque original y dos réplicas.

Pero puede ser Set por nosotros.

Déjame explicarte la forma de hacerlo.

Mira, hay dos formas de hacerlo. Una se utiliza el comando y otro es un cambio directo en hdfs-site.xml archivo.

El primero es simple, solo necesita escribir el comando de la siguiente manera:

También puede cambie el factor de replicación por archivo usando el shell Hadoop FS .

[sawant@localhost ~]$ hadoop fs –setrep –w 3 /my/file

Alternativamente, puede cambiar el factor de replicación de todos los archivos en un directorio.

[sawant@localhost ~]$ hadoop fs –setrep –w 3 -R /my/dir

como ve el comando anterior, simplemente reemplace 3 con cualquier requisito.

Comprendamos el segundo…

Abra el hdfs-site Archivo .xml . Este archivo generalmente se encuentra en la carpeta conf / del directorio de instalación de Hadoop. Cambie o agregue la siguiente propiedad a hdfs-site.xml….

dfs.replication

3

Block Replication

hdfs-site.xml se utiliza para configurar HDFS. Si cambia la propiedad dfs.replication en hdfs-site.xml , se cambiará la replicación predeterminada para todos los archivos colocados en HDFS.

En la propiedad dfs.replication anterior, simplemente reemplace 3 con lo que sea que necesite.

¡¡Gracias !!

Respuesta

La verdadera razón para elegir la replicación de tres es que es el número más pequeño que permite un diseño altamente confiable. Veamos un análisis real de por qué.

Considere que perderá datos si tiene una falla de hardware en el hardware que almacena cada réplica de los datos. Para los discos giratorios modernos, la tasa de fallas es relativamente simple y es aproximadamente del 5\% por año (sus números pueden ser mayores o menores según el método de estimación y el hardware que compre). Si todas las fallas son independientes (no lo son, en realidad, ya que se obtienen lotes defectuosos), esto significa que los discos individuales fallan a una tasa de aproximadamente 1.6e-9 fallas por segundo y las fallas deben distribuirse de acuerdo con una distribución de Poisson. Mil discos deberían tener una pérdida de datos de aproximadamente 1000 veces esta tasa en períodos cortos de tiempo si asume que no hay replicación.

Podemos usar estos números para calcular algo llamado tiempo medio de pérdida de datos. En el caso de un solo disco, tiene un 95\% de posibilidades de retener sus datos después de un año, pero en el caso de mil discos, tiene una probabilidad insignificante de evitar la pérdida de datos después de un año. Francamente, no creo que ni siquiera la caja de un solo disco sea aceptable.

Así que replicamos los datos.

La caja de mil discos tendrá alrededor de 50 fallas por año, lo que se traduce en una pérdida de disco cada semana más o menos. Eso no significa que sucederá en intervalos semanales exactos. Simplemente significa que el tiempo promedio entre fallas de disco será de aproximadamente una semana. Después de una falla en el disco, tendremos que volver a replicar los datos porque no queremos un sistema que se degrade con el tiempo. Si podemos volver a replicar los datos antes de que falle el siguiente disco que contiene nuestros datos, entonces nuestro sistema evitará la pérdida de datos debido a la primera falla.

El truco, sin embargo, es que el tiempo entre disco individual las fallas disminuirán a medida que los sistemas aumenten de tamaño. Sin embargo, si diseñamos bien las cosas, el tiempo de repetición * disminuirá * en la misma proporción. El tiempo de recuperación dependerá del número de unidades por máquina y del ancho de banda de red entre las máquinas.

Eso significa que podemos hacer una estimación rápida del tiempo medio hasta la pérdida de datos con bastante facilidad. Para dos copias, necesitamos calcular la tasa de pérdida de disco y luego calcular la probabilidad de otra pérdida de disco durante el tiempo de recuperación de esa pérdida. Para dos copias, necesitamos extender esto al caso donde dos unidades mueren durante el tiempo de recuperación de la primera unidad. Esto se vuelve más complejo cuando raya los discos y tiene estrategias de recuperación sofisticadas que intentan mantener el funcionamiento normal después del primer error, pero que dedican todos los recursos a la recuperación después del segundo error.

Si hace los cálculos, una copia de datos le da una probabilidad muy alta (casi segura, de hecho) de perder datos en un clúster grande.

Para dos copias, tiene una probabilidad de perder datos que está en el rango de 0.3 \% – 5\% dependiendo de los parámetros de su clúster. Esto no es lo suficientemente bueno para la mayoría de las empresas, pero algunas aplicaciones pueden tolerarlo.

Para tres copias, normalmente puede ampliar la probabilidad de pérdida de datos a ,1\% por año, equivalente a un tiempo medio de pérdida de datos de 1000 años o más si hace las cosas bien.

Entonces esa es la razón.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *