La creciente cantidad de datos que cada día se va generando propone muchos retos a las empresas y los partners tecnológicos. Esto motiva el uso de la virtualización de datos para establecer una arquitectura de integración dentro de la misma organización. Un valor al que todavía le rodean muchas falsas creencias.
Según el Gartner Market Guide for Data Virtualization, el 60% de las grandes empresas implementará la virtualización de datos como método clave en su arquitectura de integración de datos antes de que acabe el año. Una oportunidad de negocio que va pareja a otras como la propia analítica o la inteligencia de negocio que se aplica sobre los datos empresariales.
Sin embargo, sobre esta tendencia, existen muchas ideas equivocadas. Desde Denodo han elaborado un listado con los mitos más comunes que rodean este concepto. Estos son los más destacados:
La virtualización de datos proporciona un enfoque único para la integración y gestión de datos que no se encuentra en ninguna otra tecnología. Hace unos años, los datos se introducían en un servidor federado, un proceso de software que permitía que varias bases de datos operasen como una sola, pero que no funcionaba bien cuando se procesaban grandes conjuntos de datos o consultas complejas.
En la actualidad, las soluciones de virtualización de datos pueden reescribir las solicitudes de manera que se procesen en el origen de los datos eliminando la necesidad de mover los datos a través del sistema. Mejorando el rendimiento de las consultas para las fuentes de datos más lentas al utilizar los datos almacenados en la caché local. Por ello, las plataformas modernas de virtualización de datos son capaces de procesar consultas complejas de forma rápida y eficaz.
Las herramientas de inteligencia empresarial ofrecen funcionalidades para combinar datos, es decir, para coordinar, procesar y analizar datos de diferentes fuentes y crear informes a partir de ellos con una visión orientada al negocio. Sin embargo, su funcionalidad es muy limitada ya que cada herramienta necesita su propio silo de datos semánticos. Esto provoca barreras de acceso, integración y compatibilidad de datos para 8 de cada 10 empresas, según Forrester Consulting.
La conexión entre las diferentes herramientas no se da, por lo que la mezcla de datos se centra en la herramienta de un proveedor específico. En cambio, la virtualización de datos es capaz de conectar los datos de cualquier fuente con una variedad de consumidores y herramientas en una única capa de tejido de datos de toda la empresa.
Hoy en día, todos los datos corporativos se almacenan, analizan y procesan en Data Lakes, pero son extremadamente complejos, no todos los datos pueden copiarse en él y, además, carecen de los servicios de entrega de datos. En lugar de simplemente poder acceder a los datos, los usuarios tienen que buscarlos.
La virtualización de datos, por su parte, proporciona acceso a los datos de los diferentes Data Lakes, y de otras fuentes, en una sola capa unificada, lo que ayuda a los usuarios a encontrar y comprender los datos del Data Lake de forma ágil.
Las herramientas ETL pueden utilizarse para extraer datos de diferentes fuentes, transformarlos y luego cargarlos en una base de datos o un almacén de datos. Pero las estructuras de ETL son frágiles; por ejemplo, si se añade una nueva fuente de datos, las empresas prefieren construir una nueva estructura en lugar de cambiar la existente. Por un lado, esto da lugar a silos de datos, lo que dificulta a los usuarios encontrar y procesar de forma rápida los datos necesarios. Por otro lado, conduce a la duplicación de datos; las empresas llegan a tener hasta 12 copias del mismo dato repartidas dentro de su arquitectura. En cambio, con la virtualización de datos, éstos permanecen donde están y sólo se representan en una capa virtual. Esto ahorra hasta un 30% de los costes operativos y un 50% de tiempo respecto a los métodos tradicionales de integración.
La virtualización de datos permite a todos los empleados acceder a los datos de la empresa para que puedan realizar ellos mismos los análisis de forma rápida y sencilla a través del autoservicio. Sin embargo, esto hace que se pierda la visión general de quién utiliza qué datos y cómo lo hacen.
La realidad es que las plataformas de virtualización de datos ofrecen muchos controles para regular el acceso y restringir las solicitudes -por ejemplo, en términos de duración, prioridades o filas en el resultado- y para limitar su alcance, por ejemplo, mediante el uso de filtros. Las empresas también pueden proporcionar datos estandarizados y listos a sus empleados.