(IFCT0124) Ciencia de datos y Bigdata

Leonardo Emiro Contreras Bravo, José Eduardo Padilla Beltrán

El propósito de esta obra es proporcionar una comprensión profunda de la ciencia de datos y el aprendizaje automático a escala, utilizando tecnologías de Big Data y adquirir habilidades prácticas en el manejo, análisis y modelado de grandes volúmenes de datos, con un enfoque en la ética, la privacidad y la sostenibilidad.

Escritor

Leonardo Emiro Contreras Bravo

Escritor

José Eduardo Padilla Beltrán

Colección

Formación en el Empleo (Especialidades Formativas)

Materia

Ciencia y análisis de datos

Idioma

Castellano

EAN

9791387764975

ISBN

979-13-87764-97-5

Depósito legal

M-22189-2025

Páginas

314

Ancho

17 cm

Alto

24 cm

Peso

538 g

Edición

Fecha publicación

24-10-2025

Edición en papel

26,51 €

Descuento 5%27,90 €

524,14 MX$29,47 US$

Reseñas

Disponible en Argentina y México

Índice de contenido

INTRODUCCIÓN
CAPÍTULO 1. EXPLORANDO EL APRENDIZAJE AUTOMÁTICO
1.1 UNA INTRODUCCIÓN A LA CLASIFICACIÓN DE MACHINE LEARNING
1.2 PROCESO DE MACHINE LEARNING
CAPÍTULO 2. CIENCIA DE DATOS EN EDUCACIÓN
2.1 ANALÍTICA DE DATOS EDUCATIVOS
CAPÍTULO 3. FUNDAMENTOS DE ANÁLISIS DE DATOS PYTHON
3.1 CONFIGURANDO EL ENTORNO PYTHON
3.2 LIBRERÍAS BÁSICAS DE PYTHON
3.3 BÁSICO DE SINTAXIS DEL LENGUAJE PYTHON
3.3.1 Strings y numéricos
3.3.2 Booleanos
3.3.3 Aritmética
3.3.4 Listas
3.3.5 Tuplas
3.3.6 Diccionarios
3.3.7 Variables
3.3.8 Conversión de tipos de datos
3.3.9 Condicional IF
3.3.10 Condicional ELSE
3.3.11 Condicional ELIF
8 CIENCIA DE DATOS CON PYTHON © RA-MA
3.3.12 Ciclo con FOR
3.3.13 Función RANGE ( )
3.3.14 Ciclo con WHILE
3.3.15 Iterar con Zip
3.3.16 Iterar con Enumerate
3.3.17 Funciones
3.4 BÁSICO DE NUMPY
3.4.1 Aspectos de NumPy
3.4.2 Matrices de NumPy
3.4.3 Atributos de los array de NumPy
3.4.4 Operaciones de NumPy
3.4.5 Indexaciones de NumPy
3.5 BÁSICO DE PANDAS
3.5.1 Aspectos de pandas
3.5.2 Dataframe en Pandas
3.5.3 Atributos de los dataframe de Pandas
3.5.4 Manipular un dataframe de Pandas
3.5.5 Seleccionar filas o columnas de Dataframe
3.5.6 Selección de elementos del Dataframe
3.6 BÁSICO DE MATPLOTLIB.
3.6.1 Aspectos de Matplotlib
3.6.2 Atributos de un gráfico en Matplotlib
3.6.3 Tipos de gráficos en Matplotlib
CAPÍTULO 4. EL PODER DE LOS DATOS
4.1 FUENTE DE DATOS
4.2 PROCESO DE CARGA DE LOS DATOS
4.3 PREPARACIÓN DE LOS DATOS
4.3.1 Identificación de columnas con varianza cero
4.3.2 Identificación de filas con datos duplicados
4.3.3 Identificación de Outliers
4.3.4 Identificación de outliers puntuales por método de desviación estándar
4.3.5 Identificación de outliers puntuales por método de Intercuartiles
4.3.6 Identificación de valores nulos o datos faltantes (NaN)
4.3.7 Manejo de valores nulos (NaN)
4.3.8 Codificar una variable categórica (one hot enconder)
4.3.9 Codificar una variable categórica (codificación de enteros)
4.4 ESTADÍSTICAS DE LOS DATOS
4.4.1 Funciones y estadísticas de un dataframe de Pandas
4.4.2 Agrupar datos de un DataFrame
4.4.3 Gráfico de los datos
4.4.4 Gráfico entre variables
CAPÍTULO 5. EXPLORANDO MÉTODOS PARA TRANSFORMACIÓN DE LOS DATOS
5.1 REESCALA DE DATOS
5.2 ESTANDARIZACIÓN DE DATOS
5.3 NORMALIZACIÓN DE DATOS
5.4 TRANSFORMACIÓN ROBUSTA O ESTANDARIZACIÓN ROBUSTA
5.5 TRANSFORMACIÓN DE BOX — COX
5.6 TRANSFORMACIÓN DE YEO-JOHNSON
CAPÍTULO 6. EXPLORANDO MÉTODOS PARA SELECCIÓN DE CARACTERÍSTICAS
6.1 MÉTODOS DE FILTRO
6.1.1 Correlación de Pearson
6.1.2 Anova
6.1.3 Chi-cuadrado
6.1.4 Información mutua
6.2 MÉTODOS DE ENVOLTURA (WRAPPER) O ENVOLVENTES
6.2.1 Eliminación de Características Recursivas (RFE)
6.2.2 Eliminación hacia atrás (Backward selection)
6.2.3 Selección hacia adelante (Forward Selection)
6.2.4 Eliminación bidireccional (Bi-directional elimination)
6.3 MÉTODOS EMBEBIDOS
6.3.1 Regresión lineal
6.3.2 Regularización Lasso
6.3.3 Regularización Ridge
6.4 METODOS DE ENSAMBLE
6.4.1 Árboles de decisión (CART)
6.4.2 Ramdom Forest (Bosque aleatorio)
6.4.3 ExtraTreesClassifier (Árboles extremadamente aleatorios)
6.4.4 Eliminación de características recursivas RFECV con métodos de ensamble
6.4.5 XGBoost
6.4.6 CatBoost
6.4.7 LightGBM
REFERENCIAS BIBLIOGRÁFICAS