12 principales prioridades para construir un lago de datos

Las siguientes preferencias fueron pensadas a modo de recomendaciones, requisitos y/o sugerencias que permiten a las organizaciones y sus usuarios a través de una implementación exitosa de un lago de datos y una transformación digital exitosa.

12-principales-prioridades-para-construir-un-lago-de-datos


1. Considera un lago de datos para sus beneficios comerciales. Para los usuarios de negocios, un lago de datos se trata de análisis. Incluso cuando una empresa tiene algunas formas de análisis (ej. RDBMS, OLAP), progresivamente necesitará reportes más avanzados (ej. análisis predictivos, minería de datos, mapas cognitivos) para mantenerse al día con mercados en evolución, socios y competidores. Del mismo modo, un número creciente de usuarios de negocios conocedores de datos demandan acceso, mediante autoservicio de la exploración y visualización de datos. Los lagos de datos son conocidos por la ingestión temprana, lo que le permite a una empresa ver y reaccionar antes a la información. Un lago de datos bien formado con las herramientas adecuadas para el usuario final puede satisfacer estos requisitos comerciales.
 
 2. Considera un lago de datos para sus beneficios tecnológicos. Para los usuarios de tecnología, el lago de datos tiene que ver con la agregación de datos de forma libre. Esto se debe a que la exploración y el análisis orientado al descubrimiento que las empresas están haciendo hoy en día necesitan grandes muestras de datos, ligeramente semi-estructuradas o agregados de numerosas fuentes sin formato alguno. Eso es para lo que el lago de datos está diseñado para hacer a escala.
 
 3. Conoce tus requisitos de datos y elegí una plataforma de datos que se adecue a la misma. Incluso si pensamos que utilizaremos una plataforma como Hadoop, se comienza por reunir todos los requisitos relacionales en caso de que prevalezcan este tipo de arquitectura. Además, esto te ayudará a planificar qué herramientas complementarias necesitarás dentro y fuera del ecosistema de plataforma Hadoop. Es critico contar con ambas cosas cuando los requisitos de los tipos de consulta sean diversos. Realizar las preguntas correctas, poner en marcha nuestra lista de requisitos para cumplir los requisitos funcionales, relacionales y de Hadoop.
 
 4. Considera una arquitectura híbrida para tu lago. Nunca olvides que el lago de datos es más valioso como una extensión de un entorno de datos complejo existente (ej. los de almacenamiento, comercialización, cadena de suministro, logs de seguridad, etc.), no tanto como una recopilación de datos independiente. Es por eso, que casi todos los casos de uso muestran un lago de datos integrado con estos ecosistemas de datos más grandes. El lago contribuye a un ecosistema ya híbrido, pero una tendencia en los lagos de datos es hacer del lago una construcción lógica que se distribuye físicamente en múltiples plataformas (como lo son los almacenes de datos modernos). En ese sentido, el lago se convierte en híbrido, lo que le da una gama más amplia de tipos de datos y análisis. Al igual que con los almacenes de datos, el lago de datos híbridos combina Hadoop y un RDBMS (y tal vez otras plataformas) para lograr esa amplitud.
 
 5. Complementa las limitaciones de Hadoop con herramientas adicionales. Algunas herramientas necesarias complementan Hadoop, como las de integración de datos. Otros corrigen las omisiones de Hadoop, ya sean, herramientas de visualización, seguridad y soporte de SQL. La buena noticia es que hay muchas herramientas disponibles de múltiples proveedores, así como de código abierto construidas por la comunidad online. Para simplificar el portafolio de las diversas herramientas necesarias, considera los proveedores que proporcionan múltiples herramientas en un solo entorno unificado, al tiempo que estas sean compatibles con el ecosistema de Hadoop definido. Busca casos de uso que puedan entregarse exitosamente con la mayoría de las herramientas existentes. Después de generar el valor esperado, el siguiente paso sería la búsqueda de más presupuesto, para expandirse hacia otras herramientas adicionales.
 
 6. Selecciona herramientas comerciales centrándose en la entrega de valor al usuario final. La mayoría de las empresas y algunos departamentos de TI percibirán el valor del lago de datos a través de los tableros o Dashboard de herramientas para exploración, preparación de datos, visualización y otras tareas de análisis. Es crucial entender la necesidad o requerimientos del usuario final en esta área y ayudarlos a encontrar herramientas correctas que les brinden el valor que necesitan. Asegúrate de que las herramientas para el usuario final se complementen con herramientas para la seguridad y gobierno centrada en los datos, para que los usuarios puedan explorar y analizar los activos del lago de forma segura, auditable y controlada.
 
 7. Foco en la cantidad de datos a ingestar. Las primeras exageraciones en torno al lago de datos decían que podía lanzar grandes volúmenes de datos al lago sin límite alguno, y luego dejar que los usuarios finales se las arreglaran solos, una de las suposiciones más típicas e incorrectas. Este tipo de “descarga de datos” genera datos redundantes (lo que sesga los resultados analíticos), datos no auditables (en los que nadie confiará) y un bajo rendimiento de las consultas (que destruye el objetivo principal del lago: la exploración). En el peor de los casos, solo acceder al lago de datos constituye una infracción de cumplimiento o privacidad.
No te dejes seducir por la magia de la ingestión temprana y la escalabilidad lineal de las herramientas de los ecosistemas de Big Data. Tener un plan que determine exactamente qué datos entran en el lago, según los tipos de exploración y análisis requeridos para los usuarios y las aplicaciones prioritarias, además de una correcta ingesta de datos, el almacenamiento de datos y las prácticas relacionadas. Resiste cualquier información que no esté especificada en el plan. Ten en cuenta que tu plan de ingestión debe incluir componentes para la seguridad y el gobierno de sus datos.
8. Diseña tu lago de datos. Una vez que tengamos definido un plan para la ingesta de datos entrantes, pensaremos en cómo organizar los volúmenes, particiones y zonas dentro del lago. Las mejores prácticas utilizadas son la correcta de identificación de datos y parametrización de estos, sistemas que proveen esos datos (ej. Web de datos de clientes), dominios departamentales (ej. datos utilizados por los especialistas en marketing), archivos analíticos y entornos limitados de análisis. Una vez que se conozca las zonas o procedencias, habrá que diseñar los procesos o flujos de datos para mover datos entre ellos.
No nos equivoquemos, un lago de datos no es solo un depósito de datos, donde podemos crear miles de repositorios como tablas, carpetas o dimensiones. Debemos generar una estructura uniforme de zonas, crucial para una buena organización, no hablamos de una transformación radical o reinvención de la rueda. Dentro de cada zona, los datos todavía están en su estado original o ligeramente estandarizados, consistentes con el enfoque de lago de datos en el origen de datos detallados para exploración y reutilización repetida.
 
 9. Concéntrate en los datos sin procesar, esperando una estructura más madura a medida que su lago de datos vaya creciendo. Ahora hay usuarios con un par de años (o más) de experiencia en lagos de datos y ecosistemas de Big Data, y dicen que es como utilizar muchas bases de datos. Con el tiempo, se comprenderá a qué subconjuntos de datos uno accede o se reestructura más, de modo que uno puede crear modelos de datos y conservar los datos transformados para los usuarios finales y sus aplicaciones según necesiten. De esta forma, se mejora el rendimiento del acceso y la coherencia de los datos.
De nuevo, no te dejes llevar, ni puedes llenar el lago de los datos brutos sin utilidad para el negocio. En términos de diseño de lago de datos, los datos semi-estructurados generalmente dan como resultado estructuras de registros o textos, planos bastante simples, generalmente alcanzados a través de la estandarización de datos livianos. A medida que el tiempo es más fácil, cómo se organizan los datos en su lago de datos, de forma similar a como lo haría con la base de datos, pero con acciones y resultados mucho más simples. Además, diez en cuenta que la reestructuración de esos datos puede significar que los datos necesarios abandonan el lago y el entorno más estructurado, como un Datawarehouse tradicional. Después de todo, una función del lago es alimentar otras bases de datos.
 
 10. Gobierna cada lago de datos como si fuera único . En un mundo ideal, las empresas tienen sus programas o procesos de gobierno que han sido creados en base a las políticas definidas y el uso compatible de datos empresariales, además de estándares de datos para la calidad y la estructura de los datos. Al igual que con la nueva recopilación de datos, la junta de gobierno de los datos se necesita y se investiga si las antiguas políticas necesitan una revisión para el lago de datos o si hay nuevas políticas en orden. Recuerda que Hadoop también puede ser para su organización, por lo que puede necesitar un examen por separado. Finalmente, el gobierno de que es mejor cuando es colaborativa. 
 
 11. Entrena especialistas en gestión y manipulación de datos.Como se mencionó anteriormente, hay muchos datos de administración de datos disponibles para contratar que tienen experiencia previa sobre el lago de datos, tecnologías de Big Data y Hadoop. Las personas que están disponibles tienen mucho dinero para pagar. Por estas razones, las organizaciones pueden poner los pies en el suelo en estas habilidades en lugar de intentar nuevas contrataciones. Esta estrategia se lleva a cabo con éxito porque la gente de gobierno y la gestión de datos empujan el aprendizaje de nuevas habilidades y el entrenamiento en áreas cruzadas, y su valor se ve reflejado en el proceso. 
 
 12. Aumenta tu rotación de personal con consultores que tienen experiencia en tecnologías de Big Data.A pesar de que es difícil encontrar nuevos empleados con habilidades en tecnologías Big Data y transformaciones digitales, muchas prácticas de consultoría se han actualizado para respaldar dichas habilidades, y han adquirido experiencia a través de múltiples clientes. Cuando intentes algo grande que sea nuevo para vos, recurre a consultores e integradores de sistemas que tienen la experiencia adecuada. Esto reduce los riesgos del proyecto, acorta el tiempo de entrega y proporciona una valiosa transferencia de conocimiento de los consultores a los empleados.
En Agnostic contamos con la experiencia y los conocimientos para poder llevar a cabo estas tareas y acciones. Vemos al dato como recurso más importante para la organización, cómo encontrarlo, explotarlo y re-invertirlo nuestro enfoque principal.