Científico de Datos – ¿Qué es Big Data y Cuáles son sus Fundamentos en Hadoop?

Fundamentos de Big Data

El big data se define como la recopilación de datos estructurados y no estructurados que se gestionan en grandes cantidades y que siguen las características de tener variedad, velocidad, veracidad y volumen.

La variedad está relacionada con los diferentes formatos, tipos y extensiones en los que se procesan los datos en marcos de código abierto, como el hadoop en big data.

El volumen de datos es grande y normalmente se procesa en procesos por lotes o en tiempo real en los diferentes marcos de big data

La veracidad relaciona la importancia y relevancia de los datos que se están generando o que tienen más probabilidades de crecer.

La velocidad indica la velocidad a la que se generan los datos para que se tenga en cuenta a la hora de comprender la correcta gestión de los datos. Implica el factor tiempo y se tiene en cuenta en los ajustes de configuración de procesamiento de los clústeres y otros componentes centrales de big data.

Fundamentos de Hadoop

Hay tres tipos de modos que los usuarios pueden establecer en hadoop: modo independiente, modo pseudodistribuido o clúster de un solo nodo, clúster multimodo

Hadoop se compone de tres componentes principales para administrar, almacenar y analizar datos. El nodo cliente, el nodo maestro y el nodo trabajador son los componentes en los que intervienen los datos, ya sea que necesitemos realizar alguna de las acciones mencionadas anteriormente.

Hadoop contiene cinco demonios que se distribuyen a lo largo de sus tres componentes principales. Estos son namenode, namenode secundario, datanode, jobtracker y tasktracker.

Componentes principales de Hadoop

Nodo cliente

El nodo cliente (client node) es la sección en la que se establecen un conjunto de configuraciones para cargar correctamente los datos en hadoop y recibir los datos una vez procesados.

Nodo maestro (Master Node)

Los nodos maestros contienen dos componentes principales que se utilizan para almacenar y supervisar los datos, el sistema de archivos distribuido hadoop (HDFS) y Mapreduce. Ambos componentes están enfocados en mantener las funciones que Namenode, Secondary NameNode y Jobtracker realizarán en el nodo maestro. El número de puerto para conectar algunos de estos demonios es Namenode: 50070, Jobtracker: 50030 Tasktracker: 50060

HDFS es la unidad de almacenamiento que utiliza hadoop para almacenar diferentes tipos de datos en un entorno distribuido.

Namenode mantiene un registro de los datos entrantes al datanode y administra el tiempo de acceso de los archivos llamados metadatos. La información de metadatos se gestiona desde diferentes nodos de datos.

El Namenode secundario se utiliza para hacer una copia de seguridad del funcionamiento de Namenode en caso de que haya alguna falla.

Jobtracker supervisa la asignación de trabajos y usa Mapreduce para verificar que los datos se distribuyan en paralelo.

Nodo trabajador (nodos esclavos)

El nodo trabajador o los nodos esclavos se utilizan para monitorear el funcionamiento del trabajo asignado para que fomenten el almacenamiento de datos y los cálculos. Se pueden vincular varios nodos esclavos a un nodo maestro para realizar un trabajo específico. Un nodo esclavo está compuesto por un Datanode y Tasktracker.

Datanode es un esclavo de Namenode y aquí el trabajo se realiza con los datos correspondientes dentro del nodo. Datanode es responsable de almacenar los datos.

Tasktracker es un nodo esclavo del rastreador de trabajos y monitorea las tareas realizadas dentro del nodo esclavo.

YARN es la abreviatura de otro negociador de recursos y está compuesto por un administrador de recursos y un administrador de nodos. Su funcionalidad está relacionada con asegurar la ejecución del trabajo mediante el fomento de un entorno de ejecución y una adecuada gestión de los recursos.

Resource Manager es responsable de asignar los recursos necesarios en los nodos maestros (Node Managers)

Node Manager fomenta que las tareas se ejecuten en los nodos esclavos.

Básicamente, conocerás cómo se procesan los macrodatos, qué son y qué gran volumen de datos se gestiona mediante Hadoop. Existen otras herramientas y marcos de big data que puede utilizar, por lo que le sugerimos que los busque para comparar cuál es la forma de administrar sus datos. No es difícil, pero lleva algún tiempo encontrar la combinación adecuada.