Seleccionar página

Un poco de historia, la creación de Hadoop

Hadoop es una herramienta de código libre usada para procesar grandes cantidades de datos, apareció en tiempos en que éstos crecían exponencialmente y las bases de datos tenían problemas para escalar. Las empresas buscaban formas de sacarles provecho a los datos y ya habían buenas opciones a considerar. Para usar Hadoop tenían que configurar las máquinas e infraestructura para su procesamiento, no era una tarea fácil, pero la magia también estaba en que podían usar casi cualquier computador en desuso u obsoleto.

Los comienzos, un poco antes que Yahoo

En el año 2004 Doug Cutting comenzaba a construir un motor de búsqueda para procesar big data, estaba seguro que tenía que hacer algo distribuido y buscaba cómo implementar su idea.

En esos tiempos Google liberó unos papers con los componentes que necesitaba Doug: Google File System (GFS) y Google Map Reduce, que son la base del funcionamiento de Hadoop. GFS era un mecanismo para almacenar datos en máquinas distribuidas y Map Reduce es una forma simple de procesar esos datos. Esos componentes junto la aparición de YARN que se utilizaba para gestionar los recursos del sistema fueron clave para el éxito de Hadoop.

No puedo asegurarlo, pero es probable que Yahoo haya contratado a Doug por sus ideas sobre Hadoop, y en el año 2006 ya tenían un prototipo. El nombre Hadoop viene de un elefante llamado Horton que había en un libro infantil, el hijo de Doug lo nombró Hadoop y le pareció un nombre atractivo para su proyecto. 

No tengo certezas sobre cómo ese proyecto llegó a ser Open Source cuando Yahoo podría haberlo cerrado solo para uso interno. Y fue una gran jugada permitiendo que la comunidad pueda colaborar en el proyecto, ganarse fama como una compañía de tecnología y adaptar para uso interno a una herramienta que le podía servir a cualquier organización que tuviera muchos datos.

Muy buena aceptación

En el año 2008 Yahoo utilizó Hadoop para construir los índices y metadata de su buscador. Los resultados de performance fueron 33 veces mejores que el sistema anterior. Hadoop no destacó por su velocidad de procesamiento, en condiciones ideales el sistema anterior era más rápido, pero su poder radica en su capacidad de seguir funcionando cuando hay fallas y Yahoo tenía problemas técnicos para recuperar sus sistemas en procesamientos distribuidos.

En 2009 ya estaba en importantes compañías como Facebook y eBay, es destacable el uso que le daba Microsoft que reemplazó su tecnología propietaria y más aún Google que fue el mismo que ideó las bases del sistema.

Hadoop trabaja en un cluster de máquinas, dividiendo las tareas en otras más pequeñas, reduciendo los resultados que se procesan en una calculadora maestra. Si un nodo falla, se selecciona otro. Algo simple, ya conocido que funcionaba de maravilla en esos tiempos.

Listos para crear algo más grande

Entonces aparecieron otras empresas y personas con olfato para hacer dinero. Hadoop era open source, y eso no los iba a detener. Cloudera y HortonWorks destacaron con sus ofertas.

Cloudera tenía la idea de tomar un software libre, proveer más servicios, soporte y software adicional. Vieron que Hadoop tenía mucho potencial para seguir creciendo y en 2009 fue lanzado al mercado. Después contrataron al creador del proyecto original, puede que no le haya importado a Doug alejarse de su proyecto favorito, Yahoo ya se había aliado con Microsoft cambiandose a utilizar su motor de búsqueda llamado Microsoft Bing.

Por otro lado, estaban Rob Bearden y Peter Fenton, a quienes no les parecía bueno el modelo de negocio de Cloudera con sus servicios de pago, con código propietario basado en el código abierto de Hadoop. Ellos llegaron con la idea de expandir aún más la plataforma de código abierto, y quién mejor para apoyar esa idea que la misma empresa de donde nació el proyecto. No fue fácil convencer al directorio de Yahoo que ya no proyectaba éxito futuro ni muchos usos, además a los desarrolladores pareciera que no tenían muchas ganas de seguir en la compañía por eso mismo.

Crearon, con la aprobación de Yahoo, el proyecto Hortonworks, que parecía ser la extensión natural del proyecto Hadoop, y competir con Cloudera. Y si, el nombre Horton es el nombre original del juguete del niño de Doug, el elefante símbolo de Hadoop. Yahoo tuvo que ceder algunos de sus ingenieros como Eric que trabajó con Doug (quién ya estaba en Cloudera) y se esforzaron por salvar a su querido proyecto que seguía siendo open source, se venían muchas más funcionalidades para ser usadas por todo el mundo.

Ecosistema que creció y creció

El ecosistema de Hadoop siguió mejorando y creciendo, agregando más componentes bajo licencias Apache. Cloudera y Hortonworks se unen en el año 2023 para hacer competencia a otras tecnologías emergentes que han reemplazado a Hadoop. 

Sin embargo, pase lo que pase, Hadoop fue el referente como proyecto de código abierto para procesar datos, construyeron un ecosistema que mejora considerablemente la experiencia de su uso, fue una de las primeras soluciones con tecnologías Big Data, ha sido y seguirá siendo fuente de inspiración para hacer de algo grande.