Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning

Presented by

Anastasio Molano y Justo Hidalgo

About this talk

Los proyectos de Big Data y Machine Learning en muchos casos no logran los beneficios esperados y los lagos de datos se convierten en nuevos silos de datos que aportan poco valor a negocio. Los principales desafíos que encuentran las empresas para un aprovechamiento de las iniciativas de Big Data y Machine Learning son los siguientes: • Identificación de fuentes de datos relevantes para el análisis del caso de negocio • Dificultad para la integración de las fuentes de datos, se invierte mucho tiempo en tareas rutinarias de limpieza y preparación • Problemas de colaboración en el equipo de trabajo: falta de visibilidad de las transformaciones realizadas, dificultad para la compartición de conocimiento y código • Dificultad para soportar distintos perfiles con niveles de conocimiento dispares (e.g. analistas de negocio vs científicos de datos) • Compartir resultados con los usuarios de negocio, evitar un nuevo silo de datos en la organización • Dificultad a la hora de operacionalizar los algoritmos, surtir de datos a los algoritmos para extraer la información Las arquitecturas de Data Fabric vienen a facilitar el ciclo de vida de las iniciativas de Big Data y Machine Learning: • Exploración e identificación de datos relevantes para el análisis mediante el Catálogo de Datos • Preparación de los datos para alimentar los algoritmos de ML (con total trazabilidad de las combinaciones y transformaciones realizadas) • Parametrización del algoritmo, tuning y adiestramiento mediante data science notebooks conectados a la capa de virtualización • Operacionalización del algoritmo como un servicio de datos para usuarios de negocio • Ofrecen una capa de gobierno y seguridad sobre las fuentes de datos Los ponentes debatirán las distintas alternativas y cómo las arquitecturas de Data Fabric se han convertido en piezas clave para soportar iniciativas de Big Data y Machine Learning.
Related topics:

More from this channel

Upcoming talks (0)
On-demand talks (14)
Subscribers (6580)
En la era de la transformación digital, la cantidad y variedad de fuentes de datos que manejan las empresas crece de forma exponencial cada año. La virtualización de datos es una tecnología crítica para cualquier organización que quiera afrontar los retos actuales de gestión de datos. Se trata de un método de integración bajo demanda, capaz de integrar datos provenientes de cualquier fuente de forma inmediata y sin necesidad de mover físicamente los datos de un lugar a otro ni copiarlos. Así, aumenta la agilidad de la gestión de la información para la toma de decisiones. En este canal, Denodo ofrece contenidos en español dirigidos a aquellos profesionales de IT interesados en conocer estrategias innovadoras de integración y gestión de datos. Hablaremos de tendencias de la industria, opiniones de los analistas y casos de uso (Cloud, Big Data, Analytics, Vista única del cliente, IOT…). Mostraremos experiencias de clientes “data-driven” que ya utilizan esta tecnología para poner los datos a disposición de los usuarios en tiempo real y conseguir así información valiosa para el negocio.