Big Data es uno más de los muchos conceptos que han cogido fuerza en el mundo tecnológico en los últimos años, y dicho de una forma sencilla es un gran volumen de datos digitales que provienen de diferentes fuentes.
QUÉ ES EL BIG DATA
Big Data no es una tecnología específica, sino que está vinculada a otras tecnologías relacionadas con la información digital. Para poder ahondar un poco más en el término es conveniente primero introducir algunos conceptos tecnológicos relacionados con el procesamiento de datos.
TIPOS DE DATOS
Como «datos» entenderemos cualquier información relevante para la empresa. Para el resto del artículo asumiremos que estos datos son digitales, aunque en la realidad no siempre es así.
Datos estructurados
Son los datos que forman parte de una estructura predefinida. Como ejemplos encontramos una hoja de Excel o una base de datos SQL. Estos datos son fácilmente catalogables, y pueden ser utilizados para posteriores análisis y predicciones fiables.
Datos no estructurados
Son aquellos datos que no tienen ni forman parte de una estructura definida. Como ejemplos encontramos el cuerpo de un email, una conversación por skype, datos escritos en un fichero word, o incluso bases de datos NoSQL. Estos datos contienen mucha información valiosa, pero al no estar bien estructurada y catalogada, su uso resulta complicado a la hora de crear informes y realizar análisis. Las últimas tendencias en Inteligencia Artificial, especialmente los algoritmos de Machine Learning, contemplan el análisis de datos no estructurados con el objetivo de obtener conclusiones fiables; es un campo complejo y en evolución, pero con un futuro muy prometedor.
LAS 5 «V» DEL BIG DATA
El Big Data se caracteriza por cumplir con las 5 «V», que no son más que 5 características representativas de esta tecnología.
Volumen
Una de las características del Big Data es que nuevos datos se generan constantemente. Además, como las fuentes son diversas, el volumen de datos tiende a ser inmenso.
Velocidad
No sólo se generan muchos datos y desde muchas fuentes, sino que lo normal es que la velocidad a la que se generan estos datos sea muy alta. Esto provoca un flujo de datos muy difícil de gestionar con software tradicional.
Variedad
Debido a la naturaleza unificadora del Big Data, se debe gestionar la información que llega de fuentes muy diferentes. Esto supone que, incluso siendo datos estructurados, tal estructura sea diferente en cada fuente, lo que supone un nuevo reto a solventar para la empresa.
Valor
Debido a la inmensa cantidad de datos que se debe procesar, se ha de tener especial cuidado en la elección de los datos que realmente son importantes para la empresa y sus futuras operaciones. Una buena definición de objetivos y estrategia previa al almacenamiento de datos ahorrará mucho tiempo de cómputo y facilitará la gestión a largo plazo.
Veracidad
El Big Data debe alimentarse con datos relevantes y verdaderos. No podremos realizar analíticas útiles si muchos de los datos entrantes provienen de fuentes falsas o con errores en su información.
ALMACENAMIENTO DE LOS DATOS
On-Premise
Este término es utilizado para referirse a las instalaciones locales de software y hardware (servidores, racks, sistemas de almacenamiento…). Se dice que una empresa tiene una instalación on-premise cuando ella misma se encarga de la infraestructura, gestión del software, y de los datos.
Cloud
El término cloud se utiliza para referirse al uso de infraestructuras (tanto hardware como software) de terceros, para el almacenamiento, gestión y procesado de los datos y aplicaciones. El cloud, muchas veces referido como «cloud computing», suele ser un modelo de alquiler o pago por uso, y algunas de las empresas líderes en este sector son Microsoft, Amazon o Google.
El Cloud Computing no es sólo infraestructura, sino también un conjunto de servicios computacionales que permite a cualquier empresa instalar sus diferentes soluciones software, mantenerlas, analizar su rendimiento, escalarlas, realizar copias de seguridad y mucho más.
Almacén de datos (Data warehouse)
Un Data Warehouse es un repositorio de datos que almacena la información proveniente de diversas fuentes y sistemas de la empresa. Estos almacenes de datos destacan por su gran capacidad y por proveer un acceso óptimo a los datos, independientemente de que se encuentren On-Premise o en la nube.
PROCESADO DE LOS DATOS
Como ya se ha comentado previamente, el objetivo del Big Data es unificar el almacenamiento y procesado de diferentes fuentes de datos con el objetivo de realizar diversos análisis de datos con toda la información de la empresa. Para un correcto procesado de los datos se debe pasar por 3 fases conocidas como ETL («extract, transform, load»).
Extracción
Esta fase consiste en la centralización de las capturas de datos provenientes de diversas fuentes.
Transformación
Esta fase trata de estandarizar los diferentes conjuntos de datos con el objetivo de que a la salida tengan una estructura similar. Esta es una etapa compleja que requerirá de código a medida en función de nuestros datos. Esta fase también es conocida como limpieza de los datos.
Load o Carga
El «Load» o «Carga» consiste en el almacenamiento de los datos en un almacén de datos (Data Warehouse), para su posterior análisis.
ANALÍTICA DE DATOS EN BIG DATA
Una vez hayamos recopilado, unificado y limpiado los datos podremos comenzar a analizar la información de una forma fiable, para lo que necesitaremos software especializado.
Análisis de datos
Esta es una etapa posterior a la gestión de los datos y, aunque el Big Data tiene como objetivo establecer una base sobre la que realizar análiticas complejas, es un campo más bien asociado al Business Intelligence. Es por ello que muchas de las plataformas o soluciones de Big Data ya incorporan herramientas de analítica integradas.
Herramientas Big Data
Existen en el mercado diferentes soluciones para la gestión del Big Data, lo que daría para un artículo aparte. Entre ellas resultan destacables, por su veteranía en este campo, Hadoop (framework estándar para el almacenamiento de grandes volúmenes de datos y posterior procesamiento distribuido en clusters) y Spark (visto como evolución natural de la analítica de Hadoop en busca de modelos más optimizados); ambos frameworks pertenecen al proyecto Apache y son Open Source.
- Te puede interesar: Estamos próximos a iniciar nuestro Diploma de Especialización en Business Intelligence, Analytics & Big Data.