Empresa tecnológica española nacida en 2011
Especializada en el diseño, despliegue y administración de infraestructuras como servicio (IaaS) y en arquitecturas “high end” altamente escalables
Únicamente utilizamos software libre, evitando al cliente costes de licencias y vendor lock-in
Disponemos de infraestructura propia en Madrid y Amsterdam, no revendemos cloud de terceros
Explotamos nuestro propio OpenStack en producción, donde alojamos a nuestros clientes
Estrictamente: un framework orientado al procesamiento, análisis y almacenamiento distribuido de grandes colecciones de datos
Proyecto libre de la Apache Foundation
MapReduce: capa de procesamiento/computación
HDFS: capa de almacenamiento (sistema de ficheros distribuido, escalable y redundante)
En sentido amplio: un conjunto de proyectos y herramientas integradas con Apache Hadoop (“kernel”)
Nadie usa solo un kernel
Facilitan enormemente el despliegue y la gestión del ecosistema
OpenStack Sahara permite desplegarlas mediante plugins
Hadoop es intensivo en recursos: demanda agilidad para escalar/desescalar
Hadoop es difícil de configurar, desplegar, testear, optimizar y mantener
OpenStack Sahara reduce al mínimo estas dificultades
OpenStack Sahara trae todas las ventajas del cloud al big data
Es un componente oficial de OpenStack para procesamiento y análisis de datos con Hadoop
Incubado en Icehouse (abril 2014). Integrado desde Juno (octubre 2014)
Permite configurar, desplegar, escalar y operar clusters de Hadoop sobre OpenStack
¡Big Data as a Service!
Acceso ágil, elástico y bajo demanda al universo big data
Escalabilidad ilimitada
Disponibilidad y durabilidad de datos mediante Swift
Facilita la ejecución de trabajos y aplicaciones de Big Data incluso a usuarios finales
Traslada todas las ventajas de la IaaS a tareas de Big Data
¡No necesitas conocer los detalles de Hadoop!
Aprovisionamiento rápido
Gestión centralizada
Gestión del ciclo de vida del clúster
Configuración y ejecución de trabajos sobre Hadoop
Habilitan el despliegue y la operación de una distribución específica
Permiten configurar la topología y las herramientas de gestión/monitorización
Vanilla Apache Hadoop 2.7.1
HDP (Hortonworks) 2.3 con Ambari
Apache Spark 1.3.1 y 1.6.0
CDH (Cloudera) 5.0, 5.3, 5.4 y 5.5
Elastic Data Processing: API para ejecutar trabajos MapReduce sin exponer detalles de infraestructura
Habilita la ejecución de trabajos en clusters creados por Sahara
Funcionalmente análogo a Amazon EMR
Job: un job binary lanzado con todas sus librerías, configuración y argumentos
Job Binaries y Job, análogos a Imagen e Instancia: múltiples jobs a partir de un único Job Binary
EDP se encarga de la ejecución de todo el job