¿Qué es Data engineering?

Cloudera

Automatización, monitoreo avanzado, creación de perfiles virtuales y más.

CDP Data Engineering ofrece un conjunto de herramientas con todo incluido que permite la orquestación de canalización de datos, la automatización, el monitoreo avanzado, la creación de perfiles visuales y un conjunto de herramientas de administración integral para optimizar los procesos de ETL y hacer que los datos complejos sean procesables en sus equipos analíticos.Ofrecido en AWS/AZURE Cloudera Data Platform (CDP) como un servicio Apache Spark administrado en Kubernetes, CDE tiene capacidades únicas para mejorar la productividad de las cargas de trabajo de ingeniería de datos:

  • Visual GUI-Monitoreo, resolución de problemas y ajuste del rendimiento para una depuración y resolución de problemas más rápidas
  • Apache Airflow nativo y API robustas para orquestar y automatizar la programación de trabajos y entregar canalizaciones de datos complejas en cualquier lugar     
  • Aislamiento de recursos y gestión de trabajos centralizada basada en GUI Integración del ciclo de vida de datos CDP y seguridad y gobierno SDX

Table of Contents

Características clave de Cloudera Data Engineering

Fácil implementación

Para un ingeniero de datos que ha creado su código Spark en su pc, hemos hecho que la implementación de trabajos esté a un clic de distancia. El usuario puede usar un asistente simple donde puede definir todas las configuraciones clave de su trabajo. CDE permite trabajos de Scala, Java y Python. Hemos mantenido la cantidad de campos requeridos para ejecutar un trabajo al mínimo, pero expusimos todas las configuraciones típicas que los ingenieros de datos esperan: argumentos de tiempo de ejecución, anulando configuraciones predeterminadas, incluidas dependencias y parámetros de recursos.características clave de Cloudera Data Engineering

Flexible orquestación con Apache Airflow

CDE tiene un servicio de orquestación completamente nuevo impulsado por Apache Airflow, la herramienta preferida para la ingeniería de datos moderna. Airflow permite definir canalizaciones mediante código de Python que se representan como entidades llamadas DAG y permite orquestar varios trabajos, incluidos Spark, Hive e incluso secuencias de comandos de Python. CDE se encarga automáticamente de generar la configuración de Python de Airflow mediante el operador CDE personalizado. Al aprovechar Airflow, los ingenieros de datos pueden usar muchos de los cientos de operadores aportados por la comunidad para definir su propia canalización. Esto permitirá la definición de DAG personalizados y la programación de trabajos en función de ciertos desencadenantes de eventos, como un archivo de entrada que aparece en un depósito S3 o ADLS. Esto es lo que hace que Airflow sea tan potente y flexible. Asegúrese de realizar el recorrido de Airflow para obtener más información.

Automatización de API

Un aspecto clave de ETL o ELT es la automatización. CDE está construido con un enfoque centrado en API para agilizar la automatización de canalización de datos a cualquier flujo de trabajo analítico posterior. Todas las funciones de administración de trabajos disponibles en la interfaz de usuario utilizan un conjunto consistente de API a las que se puede acceder a través de una CLI y REST, lo que permite una integración perfecta con los flujos de trabajo de CI/CD existentes y herramientas de terceros.

Algunas de las entidades clave expuestas por la API:

Los trabajos son la definición de algo que CDE puede ejecutar, generalmente compuesto por el tipo de aplicación, el programa principal y la configuración asociada. Por ejemplo, un programa Java que ejecuta Spark con configuraciones específicas. CDE también es compatible con los tipos de trabajo de Airflow. Una ejecución de trabajo es una ejecución de un trabajo. Por ejemplo, una ejecución de un trabajo de Spark en un clúster virtual de CDE.
Un recurso es un directorio de archivos que se pueden cargar en DE y luego hacer referencia a los trabajos. Esto suele ser para aplicaciones (p. ej., archivos .jar, .py) y archivos de referencia, y no para los datos sobre los que operará la ejecución del trabajo.



Comparte este artículo

Más artículos