Centro de Alta Capacitación en Tecnologías de la...
Transcript of Centro de Alta Capacitación en Tecnologías de la...
Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima
Teléfono: (511) 715-5371 Fax: (511) 717-1988
Web: http://www.cac-ti.com
Centro de Alta Capacitación en Tecnologías de la Información Web: http://www.cac-ti.com Email: [email protected]
Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima
Teléfono: (511) 715-5371 Fax: (511) 717-1988
Web: http://www.cac-ti.com
Big Data ya no es sólo una propaganda. A medida que el ecosistema
Hadoop ha evolucionado y madurado, las empresas están pasando de la
evaluación y del prototipo al despliegue de plataformas basadas en
Hadoop como centros de datos empresariales para entregar valor al
negocio.
Hadoop ofrece los beneficios de un alto rendimiento y escalabilidad sin
restricciones a datos complejos con un costo mínimo, por lo que es muy
atractivo para los departamentos de TI conscientes de su presupuesto. Sin
embargo, su adecuación a los objetivos del negocio requiere un enfoque
de plataforma que garantiza un rendimiento superior y la eficiencia
operacional alineada con una amplia variedad de casos de uso y
funcionalidades adicionales.
Cloudera está revolucionando la gestión de datos empresariales,
ofreciendo la primera plataforma unificada para Big Data, un centro de
datos de la empresa basada en Apache Hadoop. Cloudera ofrece a las
empresas un lugar para almacenar, acceder, procesar, asegurar, y
analizar todos sus datos, dándoles el poder de extender el valor de las
inversiones existentes al tiempo que permite nuevas formas para obtener el
valor de sus datos. La plataforma de Big Data de Cloudera es
ampliamente la más adoptada en el mundo, y Cloudera es el
contribuyente más prolífico al ecosistema de código abierto Hadoop.
Como líder en entrenamiento de profesionales en Hadoop, Cloudera ha
capacitado a miles de personas en todo el mundo. Por último, sólo
Cloudera proporciona soporte proactivo y predictivo para ejecutar un
centro de datos empresariales con confianza. Las organizaciones líderes
de todos los sectores privados y los más altos organismos del sector público
a nivel mundial ejecutan Cloudera en ambientes productivos.
Con Cloudera, los clientes pueden ahora aplicar analítica avanzada a una
fuente ilimitada de datos, convirtiendo los datos en un activo estratégico.
Mediante la implementación de un centro de datos empresarial, varios
usuarios y aplicaciones al mismo tiempo pueden acceder a la información
en tiempo real con plena fidelidad y gestión basada en roles y perfiles.
Propuesta de Capacitación: Cursos de Certificación Cloudera
Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima
Teléfono: (511) 715-5371 Fax: (511) 717-1988
Web: http://www.cac-ti.com
Ninguna otra plataforma de datos ofrece una potente combinación de
flexibilidad y seguridad para habilitar sistemas sofisticados de
recomendación, gestión de eventos e información de seguridad (SIEM),
análisis de gráficos y capacidades de machine learning que monetizan
datos sin los costos normalmente asociados con los métodos tradicionales.
CDH (Cloudera Distribution Hadoop) es la distribución más completa,
probada y utilizada del mundo de Hadoop construida para las empresas.
CDH le da una ruta optimizada para el éxito en la solución de problemas
de negocios reales con Big Data.
Aprende Hadoop de los Expertos:
Cloudera University es el proveedor líder de educación Hadoop,
ofreciendo la más amplia gama de cursos para abordar los objetivos de
Hadoop de cada profesional: Administradores, Desarrolladores, y Analistas
de Datos.
Propuesta de Capacitación: Cursos de Certificación Cloudera
Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima
Teléfono: (511) 715-5371 Fax: (511) 717-1988
Web: http://www.cac-ti.com
Cursos disponibles:
Cloudera Administrator Training for Apache Hadoop.
Cloudera Developer Training for Apache Hadoop.
Cloudera Data Analyst Training: Using Pig, Hive, And Impala With
Hadoop.
Designing and Building Big Data Applications.
Cloudera Developer Training for Apache Spark.
Cloudera Search Training.
Cloudera Training for Apache HBase.
Cloudera Introduction to Data Science: Building Recommender
Systems.
Llegar a ser un Certified Big Data Professional:
El éxito de Big Data requiere de profesionales que puedan demostrar su
dominio de las herramientas y técnicas de Hadoop. Sin embargo, los
expertos predicen una gran escasez de profesionales de Big Data en los
próximos años. Cloudera, aprovecha su liderazgo en la industria para
hacer frente a la brecha de talentos.
El programa Cloudera Certified Professional (CCP) entrega la credencial
de Big Data más rigurosa y reconocida de la industria. Cloudera certifica
verdaderos especialistas que han demostrado su capacidad en exámenes
tradicionales y en retos prácticos con conjuntos de datos en vivo. CCP es a
la vez una herramienta que los Gerentes pueden utilizar para verificar la
experiencia y un recurso para encontrar o cultivar el talento que necesitan
para poner en marcha y ampliar sus proyectos de Big Data.
Cloudera Certified Administrator for Apache Hadoop (CCAH)
Cloudera Certified Developer for Apache Hadoop (CCDH)
Cloudera Certified Specialist in Apache HBase (CCSHB)
Cloudera Certified Professional: Data Engineer
Cloudera Certified Professional: Data Scientist (CCP:DS)
Propuesta de Capacitación: Cursos de Certificación Cloudera
Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima
Teléfono: (511) 715-5371 Fax: (511) 717-1988
Web: http://www.cac-ti.com
PROGRAMACIÓN DE CURSOS
Curso Duración Inicio y Horario
Cloudera Administrator Training for
Apache Hadoop 4 días
Del 14 al 16 de Oct.
de 03:00 pm a 10:00 pm
17-Oct. de 09:00 am a 05:00 pm
Cloudera Data Analyst Training:
Using Hive, Pig, and Impala with
Hadoop
4 días Del 19 al 22 de Oct.
de 03:00 pm a 10:00 pm
DESCUENTOS
- 5% por matricula hasta el 31 de julio, o por matrícula en grupo. Si el
pago es en efectivo 8% de descuento.
- Descuentos exclusivos para personas naturales. Para compras
corporativas por favor ponerse en contacto al e-mail: informes@cac-
ti.com, indicando el número de participantes a matricular.
Propuesta de Capacitación: Cursos de Certificación Cloudera
Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima
Teléfono: (511) 715-5371 Fax: (511) 717-1988
Web: http://www.cac-ti.com
DESCRIPCIÓN DE CURSOS
Cloudera Administrator Training For Apache Hadoop
Este curso permite a los participantes adquirir un conocimiento global de
todos los pasos necesarios para operar y mantener un cluster Hadoop.
Desde la instalación y la configuración a través de balanceo de carga y
puesta a punto. Este curso de formación de Cloudera es la mejor
preparación para los desafíos del mundo real que enfrentan los
administradores de Hadoop.
Qué aprenderás:
A través de sesiones teóricas y talleres prácticos dirigidos por un instructor
certificado por Cloudera, podrás navegar por el ecosistema Hadoop y
aprender:
El funcionamiento del sistema distribuido de ficheros de Hadoop y
Map/Reduce.
Determinar el hardware y la infraestructura correcta para el cluster
de Hadoop.
Configurar y desplegar apropiadamente las opciones de Hadoop
para obtener el mejor rendimiento de un cluster.
Cómo cargar datos en un cluster desde ficheros generados
dinámicamente con Flume y desde una base de datos relacional
usando Sqoop.
Configurar el FairScheduler para proporcionar acuerdos de nivel de
servicio para múltiples usuarios de un cluster.
Las mejores prácticas para la elaboración y el mantenimiento de
Hadoop en ambientes productivos.
Solucionar problemas (Troubleshooting), diagnosticar y mejorar el
rendimiento de Hadoop.
Propuesta de Capacitación: Cursos de Certificación Cloudera
Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima
Teléfono: (511) 715-5371 Fax: (511) 717-1988
Web: http://www.cac-ti.com
Audiencia y Requisitos previos
Este curso es el más adecuado para los administradores de sistemas,
Administradores de BD, Analistas de BI y administradores de TI con
experiencia básica en Linux, que serán responsables del despliegue y la
gestión de clústeres Apache Hadoop en entornos de producción o
desarrollo. No se requiere conocimiento previo de Hadoop.
Certificación de Administrador
Al finalizar el curso el participante estará en condiciones de rendir el
examen de certificación Cloudera Certified Administrator for Apache
Hadoop (CCAH).
La certificación es un gran diferenciador. Proporciona la evidencia
tangible a los empleadores y clientes de sus habilidades y experiencia.
Temario
1. Introduction
• The Case for Apache Hadoop
• Why Hadoop?
• Core Hadoop Components
• Fundamental Concepts
2. HDFS
• HDFS Features
• Writing and Reading Files
• NameNode Memory Considerations
• Overview of HDFS Security
• Using the Namenode Web UI
• Using the Hadoop File Shell
3. Getting Data into HDFS
• Ingesting Data from External Sources with Flume
• Ingesting Data from Relational Databases with Sqoop
• REST Interfaces
• Best Practices for Importing Data
4. YARN and MapReduce
• What Is MapReduce?
Propuesta de Capacitación: Cursos de Certificación Cloudera
Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima
Teléfono: (511) 715-5371 Fax: (511) 717-1988
Web: http://www.cac-ti.com
• Basic MapReduce Concepts
• YARN Cluster Architecture
• Resource Allocation
• Failure Recovery
• Using the YARN Web UI
• MapReduce Version 1
5. Planning Your Hadoop Cluster
• General Planning Considerations
• Choosing the Right Hardware
• Network Considerations
• Configuring Nodes
• Planning for Cluster Management
6. Hadoop Installation and Initial Configuration
• Deployment Types
• Installing Hadoop
• Specifying the Hadoop Configuration
• Performing Initial HDFS Configuration
• Performing Initial YARN and MapReduce Configuration
• Hadoop Logging
7. Installing and Configuring Hive, Impala, and Pig
• Hive
• Impala
• Pig
8. Hadoop Clients
• What is a Hadoop Client?
• Installing and Configuring Hadoop Clients
• Installing and Configuring Hue
• Hue Authentication and Authorization
9. Cloudera Manager
• The Motivation for Cloudera Manager
• Cloudera Manager Features
• Express and Enterprise Versions
• Cloudera Manager Topology
Propuesta de Capacitación: Cursos de Certificación Cloudera
Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima
Teléfono: (511) 715-5371 Fax: (511) 717-1988
Web: http://www.cac-ti.com
• Installing Cloudera Manager
• Installing Hadoop Using Cloudera Manager
• Performing Basic Administration Tasks Using Cloudera Manager
10. Advanced Cluster Configuration
• Advanced Configuration Parameters
• Configuring Hadoop Ports
• Explicitly Including and Excluding Hosts
• Configuring HDFS for Rack Awareness
• Configuring HDFS High Availability
11. Hadoop Security
• Why Hadoop Security Is Important
• Hadoop’s Security System Concepts
• What Kerberos Is and How it Works
• Securing a Hadoop Cluster with Kerberos
12. Managing and Scheduling Jobs
• Managing Running Jobs
• Scheduling Hadoop Jobs
• Configuring the FairScheduler
• Impala Query Scheduling
13. Cluster Maintenance
• Checking HDFS Status
• Copying Data Between Clusters
• Adding and Removing Cluster Nodes
• Rebalancing the Cluster
• Cluster Upgrading
14. Cluster Monitoring and Troubleshooting
• General System Monitoring
• Monitoring Hadoop Clusters
• Common Troubleshooting Hadoop Clusters
• Common Misconfigurations
15. Conclusion
Propuesta de Capacitación: Cursos de Certificación Cloudera
Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima
Teléfono: (511) 715-5371 Fax: (511) 717-1988
Web: http://www.cac-ti.com
Cloudera Data Analyst Training: Using Pig, Hive, And Impala With
Hadoop
Este curso le enseñará a utilizar las herramientas necesarias para acceder,
manipular, transformar y analizar grandes conjuntos de datos complejos
utilizando SQL y lenguajes familiares de scripting.
Apache Hive hace que los datos multi-estructurados sean accesibles para
los analistas, administradores de bases de datos, y otros sin conocimientos
de programación Java. Apache Pig aplica los fundamentos de lenguajes
de scripting para el cluster Hadoop. Cloudera Impala permite análisis
interactivo en tiempo real de los datos almacenados en Hadoop a través
de un entorno de SQL nativo.
Qué aprenderás:
A través de sesiones teóricas y talleres prácticos dirigidos por un instructor
certificado por Cloudera, podrás navegar por el ecosistema Hadoop y
aprender los siguientes tópicos:
• Características que ofrecen Pig, Hive, e Impala para la adquisición,
almacenamiento y análisis de los datos.
• Fundamentos de Apache Hadoop y data ETL (extract, transform,
load), ingestión, y el procesamiento con herramientas Hadoop.
• Cómo Pig, Hive, e Impala mejoran la productividad de tareas típicas
de análisis.
• Unir diversos conjuntos de datos para obtener un conocimiento
valioso para el negocio.
• Realizar en tiempo real consultas complejas sobre conjuntos de
datos.
Propuesta de Capacitación: Cursos de Certificación Cloudera
Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima
Teléfono: (511) 715-5371 Fax: (511) 717-1988
Web: http://www.cac-ti.com
Audiencia y Requisitos previos
Este curso está diseñado para Analistas de Datos, Especialistas en
Inteligencia de Negocios, Desarrolladores, Arquitectos de Sistemas,
Administradores de Base de Datos, Analistas de BI. Se asume que el
participante tiene conocimientos de SQL, comandos básicos de Linux o
Unix. Estar familiarizado con algún lenguaje de scripting (ejemplo: Bash
scripting, Perl, Python o Ruby). No es necesario tener ningún conocimiento
previo de Java y Apache Hadoop.
Temario
1. Introduction Hadoop Fundamentals
• The Motivation for Hadoop
• Hadoop Overview
• Data Storage: HDFS
• Distributed Data Processing: YARN, MapReduce, and Spark
• Data Processing and Analysis: Pig, Hive, and Impala
• Data Integration: Sqoop
• Other Hadoop Data Tools
• Exercise Scenarios Explanation
2. Introduction to Pig
• What Is Pig?
• Pig’s Features
• Pig Use Cases
• Interacting with Pig
3. Basic Data Analysis with Pig
• Pig Latin Syntax
• Loading Data
• Simple Data Types
• Field Definitions
• Data Output
• Viewing the Schema
• Filtering and Sorting Data
• Commonly-Used Functions
Propuesta de Capacitación: Cursos de Certificación Cloudera
Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima
Teléfono: (511) 715-5371 Fax: (511) 717-1988
Web: http://www.cac-ti.com
4. Processing Complex Data with Pig
• Storage Formats
• Complex/Nested Data Types
• Grouping
• Built-In Functions for Complex Data
• Iterating Grouped Data
5. Multi-Dataset Operations with Pig
• Techniques for Combining Data Sets
• Joining Data Sets in Pig
• Set Operations
• Splitting Data Sets
6. Pig Troubleshooting and Optimization
• Troubleshooting Pig
• Logging
• Using Hadoop’s Web UI
• Data Sampling and Debugging
• Performance Overview
• Understanding the Execution Plan
• Tips for Improving the Performance of Your Pig Jobs
7. Introduction to Hive and Impala
• What Is Hive?
• What Is Impala?
• Schema and Data Storage
• Comparing Hive to Traditional Databases
• Hive Use Cases
8. Querying with Hive and Impala
• Databases and Tables
• Basic Hive and Impala Query Language Syntax
• Data Types
• Differences Between Hive and Impala Query Syntax
• Using Hue to Execute Queries
• Using the Impala Shell
9. Data Management
• Data Storage
• Creating Databases and Tables
• Loading Data
Propuesta de Capacitación: Cursos de Certificación Cloudera
Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima
Teléfono: (511) 715-5371 Fax: (511) 717-1988
Web: http://www.cac-ti.com
• Altering Databases and Tables
• Simplifying Queries with Views
• Storing Query Results
10. Data Storage and Performance
• Partitioning Tables
• Choosing a File Format
• Managing Metadata
• Controlling Access to Data
11. Relational Data Analysis with Hive and Impala
• Joining Datasets
• Common Built-In Functions
• Aggregation and Windowing
12. Working with Impala
• How Impala Executes Queries
• Extending Impala with User-Defined Functions
• Improving Impala Performance
13. Analyzing Text and Complex Data with Hive
• Complex Values in Hive
• Using Regular Expressions in Hive
• Sentiment Analysis and N-Grams
• Conclusion
14. Hive Optimization
• Understanding Query Performance
• Controlling Job Execution Plan
• Bucketing
• Indexing Data
15. Extending Hive
• SerDes
• Data Transformation with Custom Scripts
• User-Defined Functions
• Parameterized Queries
16. Choosing the Best Tool for the Job
• Comparing MapReduce, Pig, Hive, Impala, and Relational Databases
• Which to Choose?
Propuesta de Capacitación: Cursos de Certificación Cloudera
Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima
Teléfono: (511) 715-5371 Fax: (511) 717-1988
Web: http://www.cac-ti.com
INSTRUCTOR
Bruce E. Martin, Ph. D.
Bruce Martin teaches Big Data technologies at Cloudera as a
Senior Instructor, including courses on Apache Hadoop, Data
Analysis and Data Science. Previously Bruce was a senior technical
leader at SunGard Higher Education. He held the positions of
Principle Architect and Director of Advanced Concepts. At
SunGard Higher Education he developed the software architecture for SunGard's
Course Signals Early Intervention System. The system uses Machine Learning,
Enterprise Java and Adobe Flex technologies. At SunGard, Bruce led an applied
research team that created a novel enterprise application composer. Bruce
writes, teaches and mentors about Big Data, Enterprise Java and Distributed
Object technologies. Bruce created the Middleware Company's popular
Architect's Workshop and has given it to several hundred enterprise architects. The
reviews of this workshop have been outstanding. Bruce has advised many
enterprises on improving their software architectures. Bruce has an excellent ability
to convey both the conceptual basis of a technology and the practical nuts and
bolts use of it. He has given talks around the world on distributed systems,
advanced transaction models, object oriented programming, XML and distributed
object technologies at both academic conferences and industrial events. Bruce
has written many papers for conferences, journals and books. Bruce is one of the
pioneers of Distributed Object Computing. At Hewlett Packard Laboratories, he
designed and implemented an interface definition language that became the
basis for HP's original CORBA submission. At Sun Microsystems, he was one of Sun's
CORBA architects and was the primary author of five of the OMG's CORBA
Services specifications. Bruce has extensive practical experience with Java, J2EE,
XML and Web Services.
Bruce received Ph.D. and Masters degrees in Computer Science from the
University of California at San Diego, and a Bachelors degree in Computer Science
from the University of California at Berkeley. Bruce's Ph.D. dissertation, Concurrent
Nested Object Computations, presented a novel model and scheduling
algorithms for concurrency control on shared abstract objects. Bruce is bilingual in
Spanish and English. Since his teenage years, Mexico has been a very important
part of his life. Bruce “speaks tech” in both languages, having given workshops in
Spanish in Mexico, Spain and Chile.
http://blog.cloudera.com/blog/2014/03/meet-the-instructor-bruce-martin/
Propuesta de Capacitación: Cursos de Certificación Cloudera
Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima
Teléfono: (511) 715-5371 Fax: (511) 717-1988
Web: http://www.cac-ti.com
Centro de Alta Capacitación en TI Oficina Principal
Av. del Pinar 152 Oficina 1008 Chacarilla del Estanque, Santiago de Surco
E-mail: [email protected]
Teléfono: (511) 715-5371
Celular: (51) 996-580-762
Fax: (511) 717-1988
Web: http://www.cac-ti.com