Hadoop barcamp 2011

Hadoop y Mapreduce (y otras yerbas)

Cómo analizar petabytes de datos y no morir en el intento

domingo 6 de noviembre de 2011

Quién soy yo?

• Ezequiel Golub

• Desarrollador en Smowtion

• Antes en wixi.com

• Hace 3 meses implementamos Hadoop y estamos contentos!

Primero lo primero

Qué es Hadoop?

• Framework para aplicaciones distribuidas en miles de nodos

• Ahora familia de productos, pero en su core son 2:

• HDFS

• Map/Reduce

• Proyecto de apache.org

Historia

• Inspirado por los papers de Google Mapreduce y bigtable del 2004

• Creado por Doug Cutting para ser usado por Nutch, un buscador de codigo libre

• BTW, Doug Cutting invento Lucene

• Hadoop era el elefante de juguete de su hijo

Limitaciones de RDBMS

• Datasets de petabytes

• no escalan horizontalmente

• Escalar horizontalmente = chau ACID

• Particionar y shardear es dificil.

• Rendimiento de lecturas o escrituras: Elegí una.

• Usar hardware especializado = $$$!!

Por qué Hadoop?

• Escalabilidad horizontal

• Confiabilidad

• Apoyo de comunidad

• Map/Reduce

• Orientado a procesos batch para datos “grandes”

• AWS

Qué no es Hadoop?

• Una base de datos relacional

• Un sistema de almacenamiento de datos estructurado

• Online (Con excepciones!)

Quienes lo usan?domingo 6 de noviembre de 2011

Cuándo usar Hadoop?

• Demasiados datos para que entren en algun tipo de datastore comodamente

• Datos desestructurados

• Y necesitas analizarlos!

• Y necesitas alta disponibilidad!

• Suficientes datos para que analizarlos en una sola maquina sea dificil

Donde se usa?

• Log File & Web Analytics

• Ad Targeting

• Scientific Applications

• Financial Analysis

• Search

• Natural Language Processing

• Image processing

• Data warehousing

Componentes

• Sistema de archivos distribuido, redundante y con alta disponibilidad.

• Soporta archivos muy grandes.

• Pensado para commodity hardware

• Acceso streaming de baja latencia y alta transferencia.

• Integridad y compresión soportadas nativamente

• N copias de cada bloque del archivo distribuidas

• 1 namenode para N datanodes

• Location aware

• Interfaz tipo linux (mv, cp, rm, ls, etc)

Ventajas

• Tolerancia a los fallos

• Autoregenerativo

• Escalable

• Confiabilidad

• Soporte

NamenodeBackupnode

Datanode Datanode Datanode

• Mantiene metadata

• Ubicación de bloques

• No tiene los datos!

• SPOF

• Contiene los datos

• No tiene metadata

• Sirve los datos a los clientes

Namenode Backupnode

Datanode Datanode Datanode Datanode

Cliente HDFS

Ubicación de los bloques, metada

Transferencia de datos

Escribir

Namenode Backupnode

{node1,node2,node3}

foo.bar

Cliente HDFS

Escribir

Namenode Backupnode

{node1,node2,node4}

foo.bar

Cliente HDFS

Escribir

Namenode Backupnode

{node2,node3,node4}

foo.bar

Cliente HDFS

Escribir

Namenode Backupnode

{node1,node3,node4}

foo.bar

Cliente HDFS

Fault tolerance

Namenode Backupnode

El namenode detecta un datanode caido

Fault tolerance

Namenode Backupnode

El namenode releva los bloques perdidos y los recupera de los nodos sanos, manteniendo el nivel de replicacion

Fault tolerance

Namenode Backupnode

Fault tolerance

Namenode Backupnode

Escalamiento horizontal dinamico y rebalanceo

Namenode Backupnode

Se agrega un nuevo datanode al cluster

Namenode Backupnode

El namenode rebalancea el nuevo cluster, removiendo las copias extras que no se necesitan

Namenode Backupnode

Map/Reduce

• Paradigma de programación distribuida

• Basada en un paper de Google (http://bit.ly/gXZbsk)

• Modelada a partir de las ideas de programación funcional

• Distribuible en N nodos

• map() -> reduce()

• La etapa de reduce se inicia cuando todos los mappers terminan.

Map/Reduce

• Dos pasos secuenciales

• Map: Toma todas las lineas de un input, y por cada una, las procesa y devuelve un par de key valor

• Reduce: Recibe secuencialmente un key valor, los procesa y emite un resultado (ej: otro k-v)

import hadoopy

def mapper(key, value): for word in value.split(): yield word, 1

def reducer(key, values): accum = 0 for count in values: accum += int(count) yield key, accum

if __name__ == "__main__": hadoopy.run(mapper, reducer, doc=__doc__)

M/R: WC en Python

$ echo "a b a a b c" | python wc.py map | sort | python wc.py reducea 3b 2c 1

Probandolo localmente!

** usando el modulo Hadoopy para usar python con Hadoop!

Ejemplo: wordcount

Muchos archivos

mapper

mapper<arch2.parte2>

<arch2.parte1>

<arch1.part2>

<arch1.part1>{‘foo’:12,‘bar’:13,‘baz’:19}

{‘foo’:33,‘bar’:23,‘baz’:42}

{‘foo’:1,‘bar’:0,‘baz’:99}

{‘foo’:55,‘bar’:43,‘baz’:65}

Reducer

Ordenar y

agrupar por key

{‘foo’:[12,33,1,55]}

{‘bar’:[13,23,0,43]}

{‘baz’:[19,42,99,65]}

count()

{‘foo’:101,‘bar’:79,‘baz’:218}

M/R en Hadoop

• Las tareas de M/R son entregadas como un “job”

• Los “jobs” se asignan a una cola especifica de trabajo

• Los jobs son “rack-aware”: aprovecharse del “data locality”

• Cada “job” es divido en N “tasks”

• Streaming: No usar Java para M/R

• Las tareas que fallen son reiniciadas automaticamente.

Esquema conceptualJobtracker

TaskTracker TaskTracker TaskTracker TaskTracker

Datos temporales en HDFS

Cliente M/RCliente M/RCliente M/R

Fase inicialJobtracker

mapper mapper mapper mapper

Envia jobs

Los maps() son asignados a los TaskTracker(teniendo en cuenta la localidad de la data)Cada mapper es

ejecutado en una JVM

Lee los archivos de input y graba los archivos intermedios

Fase reduceJobtracker

reducer reducer reducer reducer

Envia “jobs”Envia jobs

Comienza la fase de Reduce

Lee los archivos temporales y graba los resultados

M/R: Implementación

• M/R es excelente para los problemas donde los ‘sub-problemas’ no son interdepientes

• Nada se comparte entre mappers y reducers, ni siquiera si corren en el mismo nodo

• X ej: La salida de un mapper no puede depender de la salida o comunicación con otro mapper

• Key/Value store montado sobre HDFS

• Rapido (Finalmente!)

• Soporta range scan de keys

• Soporta nocion de tablas, pero usando column families para agrupar columnas

• Soporta M/R sobre las tablas

HBASE no es

• Un reemplazo de un RDBMS

• Un reemplazo de un datawarehouse

• No Joins, no query engine, no datatypes, no sql

• No acid

• No Schema

• No es excelente para guardar datos pequeños

• No es excelente para almacenar grandes datos binarios

HBASE es• Excelente para escrituras rapidas/streaming

• Tolerante a fallos

• Buena escalando horizontalmente de manera lineal

• Eficiente manejando billones de filas y millones de columnas

• Buena manteniendo la historia de una fila

• Autobalance

• Excelente para data no normalizada

• Un complemento excelente entre la RDBMS y el Datawarehouse (Hadoop)

• Escrito en Java

• Almacenamiento orientado a columnas = schemas flexibles

• Se puede alterar el schema simplemente agregando el nombre de la columna.

• No hay migraciones de schema!

• Cada columna tiene un timestamp asociado

• La misma columna con el timestamp más reciente gana

• Simula datos estructurados usando archivos en HDFS

• HiveQL: Query language similar a SQL

• Traduce HiveQL a Map/Reduce

• O sea: No es realtime, no reemplaza RDBMS

• Auto-particionado

Ejemplo de Hivehive> select key, count(1) from kv1 where key > 100 group by key;

$ cat > /tmp/reducer.shuniq -c | awk '{print $2"\t"$1}‘

$ cat > /tmp/map.shawk -F '\001' '{if($1 > 100) print $1}‘

$ bin/hadoop jar contrib/hadoop-0.19.2-dev-streaming.jar -input /user/hive/warehouse/kv1 -mapper map.sh -file /tmp/reducer.sh -file /tmp/map.sh -reducer reducer.sh -output /tmp/largekey -numReduceTasks 1

$ bin/hadoop dfs –cat /tmp/largekey/part*

Otros componentesLibreria para implementar machine learning sobre hadoop

Zookeeper: Servicio que mantiene un K-V store consistente usando N nodos. Se usa para coordinar servicios distribuidos

HUE: Hadoop User Experience. Una linda WEB-UI sobre Hadoop.

En Smowtion?

• 250.000.000 de hits x dia

• Solucion con PHP + MySQL =

• Lo reemplazamos por algo asi:

Cómo seguir?

• Cloudera.com

• Hadoop.apache.org

• IRC: #hadoop en freenode.org

• http://developer.yahoo.com/hadoop/tutorial/

Gracias!

• Twitter: @ezegolub

• egolub@smowtion.com

• http://www.linkedin.com/in/ezegolub

Trabajá en Smowtion

• Estamos buscando perfiles tecnicos (Developers/SysAdmins)

• Nos gustan los problemas dificiles

• Nos gustan las tecnologias nuevas

• Buen ambiente de trabajo y todo eso

• jobs@smowtion.com

Hadoop barcamp 2011

Technology

Transcript of Hadoop barcamp 2011

Barcamp Guatemala

Hadoop en accion

Utilización de la plataforma Hadoop para implementar un … · 2011. 2. 9. · consulta de grandes cantidades de datos sobre un grupo de computadores. La programación en Hadoop

Introducción a Hadoop - eventos.citius.usc.eseventos.citius.usc.es/bigdata/workshops/hadoop-taller.pdf · Introducción a Hadoop Patrocinado por Bahía Software Tomás Fernández

Conociendo Ubuntu - Barcamp

Presentacion BarCamp El Alto

Team9- Hadoop presentation

Hadoop Presentation

Desconferencia barcamp

Taller hadoop

Vaadin y Grails Barcamp 2013

Instala Hadoop Bd4s v5

Grails barcamp 2013

Windows 8 - BarCamp Medellín

Hadoop Presentation - PPT

Stuart Pérez A12729. Agenda Que es Hadoop Porque usarlo Componentes de Hadoop HDFS MapReduce Cluster Hadoop (HDFS + MR) Hadoop Scheduler Conclusiones.

Presentacion barcamp

Presentacion Colaboracion Virtual (BarCamp UIO)

Presentación HADOOP Cloudera.pdf

BarCamp Krasnodar 2016