Los mitos de Big Data

El ICI Jorge Retamales, Data Scientist CEINE, reflexiona sobre el Big Data. Hay mucha mitología en torno a este concepto, por lo tanto conviene leer esta columna de opinión para entender bien de qué estamos hablando…

Los Mitos de Big Data

Cada vez es más frecuente escuchar el término Big Data en los medios. Lo escuchamos frecuentemente en Televisión o lo vemos en artículos de diarios asumiendo el papel del ingrediente clave para descubrir patrones en la data. Desde la perspectiva de los que trabajamos en el área, esta conceptualización es un reflejo de ya sea, una mala comprensión del término, o la intención de validar una propuesta metodológica, mediante el uso de un concepto que puede transmitir un sello distintivo de sofisticación.

Tales conceptualizaciones, están fomentadas por una multitud de empresas consultoras pequeñas y grandes que en la necesidad de generar nuevos negocios, distorsionan la realidad. En ambos casos, se han generado mitos contraproducentes que alimentan esta visión, algunos de estos me gustaría comentarlos brevemente:

“Tenemos muchísimos datos, esto es Big Data”: Con la evolución de las capacidades computacionales, Big Data siempre debe ser entendido en términos relativos y no como quizás, una cantidad rígida de datos, donde si se le sobrepasa, el problema adquiere ese nivel. Para contextualizar en términos simples, en Big Data es tal la cantidad y naturaleza de las observaciones, que se requiere el uso de metodologías no convencionales para poder ser procesados o analizadas. A mediados de los 90’s, por ejemplo, 1Gb era un problema mayor. Ahora en cambio, prácticamente cualquier computador podría procesarla sin problemas. De hecho, Kaggle.com, un popular sitio web de Data Science, publica periódicamente bases sobre este tamaño y, a los interesados, les basta con utilizar sus computadores locales para trabajar con ellas. Piense que hoy un disco duro para la casa usa USB3.0 y tiene 1TB, o que la suscripción mínima a Dropbox es de 1TB. ¿Unos cuantos millones de datos? No hay problema, por lo general hoy basta con computadores de capacidad estándar, con herramientas de software ampliamente usadas para poder procesar y analizar estas bases de datos.

“Confíe en nosotros, usamos tecnologías Big Data”: Hay que ser claros con esto; El mero uso de la tecnología no garantiza la entrega de valor, este solo se justifica en un contexto específico. El elemento diferenciador está en hacer un correcto proceso de análisis: La capacidad de entender con claridad el problema, tener un control detallado de proveniencia, ser creativo en la generación de variables, elegir adecuadamente los modelos y la tecnología adecuada para el problema; y comunicar efectivamente los resultados, entre otras, son las que nos permiten pasar de datos, a conocimientos objetivos que permiten tomar decisiones. ¡Pero pensar que el uso de herramientas como Hadoop, MariaDB, Hive+Pig o Oozie, nos darán las respuestas mágicamente! Es un sin sentido.

Estas habilidades son difíciles de encontrar en el mercado laboral reunidas en un solo profesional, pero paradójicamente, parece que no son tan relevantes cuando se habla de Big Data. En Chile, encontramos un caso ilustrativo. Se publican ofertas laborales buscando Data Scientists, donde se pone un mayor énfasis en poseer una amplia experiencia en el ecosistema Hadoop o si sabe Unix, pero se destina poco espacio para evaluar si el candidato posee las otras cualidades mencionadas. El correcto desarrollo de un proyecto Big Data demanda fundamentalmente, preparación técnica, creatividad, rigurosidad, experiencia y método, cualidades que por sí solas, las herramientas Big Data no poseen.

“Mientras más datos tengamos, mejor”: No siempre más datos equivale a un mejor análisis. Para ejemplificar, refirámonos al caso de analizar los comportamientos de los usuarios de teléfonos móviles. Aquí, bajo el escenario ficticio de tener a disposición toda la base de datos, se podría pensar que podremos, en detalle, entender como las personas interactúan con sus pares a través de estos dispositivos. Sin embargo, hay una serie de desafíos que no se pueden obviar. En este contexto, no es raro ver que grupos de personas compartan un equipo o que una persona utilice múltiples dispositivos indistintamente. A su vez, y casi más importante a entender, es que cada proceso de generación de data tiene una componente humana, compuesta por la decisión de que atributos que se almacenarán y como estos serán manipulados, lo que inevitablemente introducirá sesgo en la data. Esto aspectos, si no los tomamos en cuenta, podrían afectar seriamente nuestros análisis, conduciéndonos a conclusiones equivocas. En ocasiones incluso, es preferible tener menos pero mejores datos, dado que nos posibilitan acercarnos más al fenómeno real que estamos estudiando.

A pesar que es entendible (dada su relativa inmadurez), establecer una definición más estrecha del término Big Data, es importante analizar en detalle la mitología que la rodea. No cabe duda que esta tecnología ha tenido un tremendo impacto en diversas áreas de la economía. Sin embargo, si no se tiene en cuenta en que contextos es más efectiva, ni con cuales otras múltiples cualidades debe complementarse, se caerá en promesas incumplidas o que las instituciones tomen decisiones que finalmente no les favorecen, no entregando real valor.

Jorge Retamales M.
Data Scientist CEINE
MSc Information Management – Data Science, Universidad de Washington
Ingeniero Civil Industrial, Universidad de Chile



uchile      LOGODII1         logo2_VerticalOficialfcfm_JPG