Código oficial: IFCT35Familia: Informática y comunicaciones
transversal

Analista de datos big data Cloudera

Extraer, manejar, almacenar, buscar y visualizar grandes volúmenes de datos de diferentes tipos relacionándolos entre sí para obtener información relevante mediante herramientas y soluciones Cloudera.

Convocatoria

Financiación y modalidades

Convocatoria

Ocupados 2024-2027, 2ª Fase

ESTATAL_2024_27_F2

DescarbonizaciónDigitalización

Dirigido a profesionales de

ECONOMÍA E INDUSTRIA DIGITAL

Convenios:

  • Economía e Industria Digital

TRANSVERSAL

Convenios:

  • Intersectorial/Transversal

Opciones de impartición

Modalidad: Presencial

100% presencial

Presencial

Duración

150h

Coste/hora

11.51

Ingreso por alumno: 1727

Temario

Contenido del programa

  • Introducción a las BBDD:(1.6h)

    Antes del contenido

    • Introducción
    • Objetivos
    • Diagrama
    • Quiz mixto

    Contenido teórico

    • Conceptos básicos de bases de datos.
    • Utilidad y relevancia del lenguaje SQL.

    Después del contenido

    • Podcast
    • Recuerda
    • Flashcards
    • Quiz mixto
    • Quiero saber más
  • Creación y estructura de una base de datos:(1.6h)

    Antes del contenido

    • Introducción
    • Objetivos
    • Diagrama
    • Quiz mixto

    Contenido teórico

    • Estructura básica de una base de datos.
    • Creación de una base de datos usando SQL.

    Después del contenido

    • Podcast
    • Recuerda
    • Flashcards
    • Quiz mixto
    • Quiero saber más
  • Realización de Consultas básicas:(1.6h)

    Antes del contenido

    • Introducción
    • Objetivos
    • Diagrama
    • Quiz mixto

    Contenido teórico

    • Búsqueda y recuperación de datos básicos.
    • Manejo de consultas simples.

    Después del contenido

    • Podcast
    • Recuerda
    • Flashcards
    • Quiz mixto
    • Quiero saber más
  • Mantenimiento de la Base de datos(2.3h)

    Antes del contenido

    • Introducción
    • Objetivos
    • Diagrama
    • Quiz mixto

    Contenido teórico

    • Copia de tablas y modificaciones de columnas.
    • Índices y restricciones.
    • Eliminación o modificación de filas de la tabla de datos.
    • Creación de objetos de BBDD (tablas, índices, vistas...)

    Después del contenido

    • Podcast
    • Recuerda
    • Flashcards
    • Quiz mixto
    • Quiero saber más
  • Utilización de Funciones:(1.8h)

    Antes del contenido

    • Introducción
    • Objetivos
    • Diagrama
    • Quiz mixto

    Contenido teórico

    • Uso y tipos de funciones.
    • Funciones predefinidas.

    Después del contenido

    • Podcast
    • Recuerda
    • Flashcards
    • Quiz mixto
    • Quiero saber más
  • Exportación e importación de datos:(1.9h)

    Antes del contenido

    • Introducción
    • Objetivos
    • Diagrama
    • Quiz mixto

    Contenido teórico

    • Exportación de datos, consultas y utilidades.
    • Importación de datos y archivos de datos
    • Importación con sentencias y utilidades

    Después del contenido

    • Podcast
    • Recuerda
    • Flashcards
    • Quiz mixto
    • Quiero saber más
  • Utilización de Joins para la extracción de datos(1.8h)

    Antes del contenido

    • Introducción
    • Objetivos
    • Diagrama
    • Quiz mixto

    Contenido teórico

    • Definición y tipo de Joins
    • Uso de joins para combinar datos de múltiples tablas

    Después del contenido

    • Podcast
    • Recuerda
    • Flashcards
    • Quiz mixto
    • Quiero saber más
  • Ejecución y diseño de Subconsultas:(2.4h)

    Antes del contenido

    • Introducción
    • Objetivos
    • Diagrama
    • Quiz mixto

    Contenido teórico

    • Tipos de subconsultas
    • Subconsultas generales y básicas.
    • Subconsulta no correlacionada y correlacionada.
    • Modificación de la tabla con subconsultas.

    Después del contenido

    • Podcast
    • Recuerda
    • Flashcards
    • Quiz mixto
    • Quiero saber más
  • Realización de operaciones avanzadas:(2.2h)

    Antes del contenido

    • Introducción
    • Objetivos
    • Diagrama
    • Quiz mixto

    Contenido teórico

    • Creación de Vistas.
    • Gestión de transacciones.

    Después del contenido

    • Podcast
    • Recuerda
    • Flashcards
    • Quiz mixto
    • Quiero saber más
  • Utilización del diccionario de Metadatos:(1.8h)

    Antes del contenido

    • Introducción
    • Objetivos
    • Diagrama
    • Quiz mixto

    Contenido teórico

    • Uso de metadatos para obtener información sobre los objetos de la base de datos..

    Después del contenido

    • Podcast
    • Recuerda
    • Flashcards
    • Quiz mixto
    • Quiero saber más
  • Identificación y asimilación de conceptos(2.7h)

    Antes del contenido

    • Introducción
    • Objetivos
    • Diagrama
    • Quiz mixto

    Contenido teórico

    • Introducción a Big Data
    • La motivación por Apache Hadoop
    • Conceptos básicos de Hadoop

    Después del contenido

    • Podcast
    • Recuerda
    • Flashcards
    • Quiz mixto
    • Quiero saber más
  • Visión del Ecosistema de Hadoop(2.6h)

    Antes del contenido

    • Introducción
    • Objetivos
    • Diagrama
    • Quiz mixto

    Contenido teórico

    • Soluciones del ecosistema de Hadoop
    • Aplicaciones comunes y usos especiales de Hadoop.

    Después del contenido

    • Podcast
    • Recuerda
    • Flashcards
    • Quiz mixto
    • Quiero saber más
  • Gestión de Hadoop(2.2h)

    Antes del contenido

    • Introducción
    • Objetivos
    • Diagrama
    • Quiz mixto

    Contenido teórico

    • Uso de herramientas para la gestión del almacenamiento
    • Ejecución de aplicaciones con procesamiento distribuido

    Después del contenido

    • Podcast
    • Recuerda
    • Flashcards
    • Quiz mixto
    • Quiero saber más
  • Fundamentos para el Análisis de Big Data(3h)

    Antes del contenido

    • Introducción
    • Objetivos
    • Diagrama
    • Quiz mixto

    Contenido teórico

    • Visión General del Análisis de Big Data
    • Almacenamiento de Datos: HDFS
    • Procesamiento Distribuido de Datos: YARN, MapReduce y Spark
    • Procesamiento y Análisis de Datos: Hive e Impala
    • Integración de Bases de Datos: Sqoop
    • Otras Herramientas de Datos

    Después del contenido

    • Podcast
    • Recuerda
    • Flashcards
    • Quiz mixto
    • Quiero saber más
  • Introducción a Hive e Impala(3h)

    Antes del contenido

    • Introducción
    • Objetivos
    • Diagrama
    • Quiz mixto

    Contenido teórico

    • ¿Qué es Hive?
    • ¿Qué es Impala?
    • ¿Por qué utilizar Hive e Impala?
    • Schema y almacenamiento de datos
    • Comparación entre Hive y bases de datos tradicionales
    • Casos de uso

    Después del contenido

    • Podcast
    • Recuerda
    • Flashcards
    • Quiz mixto
    • Quiero saber más
  • Consultas con Hive e Impala(3h)

    Antes del contenido

    • Introducción
    • Objetivos
    • Diagrama
    • Quiz mixto

    Contenido teórico

    • Tablas y bases de datos
    • Sintaxis básica en consultas Hive e Impala
    • Tipos de datos
    • Empleo de Hue para ejecutar consultas
    • Empleo de Beeline (la Shell de Hive)
    • Empleo de la Shell de Impala

    Después del contenido

    • Podcast
    • Recuerda
    • Flashcards
    • Quiz mixto
    • Quiero saber más
  • Operadores comunes y funciones integradas(1.5h)

    Antes del contenido

    • Introducción
    • Objetivos
    • Diagrama
    • Quiz mixto

    Contenido teórico

    • Operadores
    • Funciones escalares
    • Funciones de agregado

    Después del contenido

    • Podcast
    • Recuerda
    • Flashcards
    • Quiz mixto
    • Quiero saber más
  • Administración de datos(23h)

    Antes del contenido

    • Introducción
    • Objetivos
    • Diagrama
    • Quiz mixto

    Contenido teórico

    • Almacenamiento de datos
    • Creación de bases de datos y tablas
    • Carga de datos
    • Modificación de bases de datos y tablas
    • Simplificación de consultas con vistas
    • Almacenamiento de resultados de consultas
    • Almacenamiento de datos y rendimiento
    • Particionamiento de tablas
    • Carga de datos en tablas particionadas
    • Cuándo utilizar particionamiento
    • Selección del formato de archivo
    • Uso de los formatos de archivo Avro y Parquet
    • Trabajando con múltiples Datasets
    • UNION y Joins
    • Manejo de valores NULL en Joins
    • Joins avanzados
    • Funciones analíticas y Windowing
    • Utilización de funciones analíticas comunes
    • Otras funciones analíticas
    • Sliding Windows
    • Datos complejos
    • Datos complejos con Hive
    • Datos complejos con Impala
    • Análisis de texto
    • Uso de expresiones regulares con Hive e Impala
    • Procesamiento de texto con SerDes en Hive
    • Análisis de Sentimiento y n-grams en Hive
    • Optimización de Apache Hive
    • Comprender cómo se ejecutan las consultas
    • Optimización basada en Costes y Estadísticas
    • Bucketing
    • Optimizaciones de ficheros ORC
    • Indexación de datos
    • Hive en Spark
    • Optimización de Apache Impala
    • Cómo Impala ejecuta las consultas
    • Mejorar el rendimiento de Impala
    • Extendiendo Hive e Impala
    • Customizar SerDes y formatos de archivo en Hive
    • Transformación de datos con Scripts personalizados en Hive
    • Funciones definidas por el usuario
    • Consultas parametrizadas
    • Selección de la Mejor Herramienta para cada Tarea
    • Comparación entre MapReduce, Hive, Impala, y bases de datos relacionales
    • ¿Cuál elegir?
    • Introducción a CDP Public Cloud Data Warehouse

    Después del contenido

    • Podcast
    • Recuerda
    • Flashcards
    • Quiz mixto
    • Quiero saber más

Actividades del módulo

  • Aplicaciones prácticas
  • Glosario
  • Bibliografía
  • Legislación de referencia
  • Actividades prácticas
  • Examen