Tutorial de Python Pandas

Pandas es un software de código abierto bajo licencia BSD Python Biblioteca de análisis de datos, que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fácil uso para el lenguaje de programación Python. Python con Pandas se utiliza en una amplia gama de campos, incluyendo finanzas, economía, estadísticas, análisis, entre otros. Pandas es una poderosa colección de herramientas para analizar datos estructurados; su base es Numpy (que proporciona operaciones de matrices de alto rendimiento); se utiliza para minería de datos y análisis de datos, y también ofrece funciones de limpieza de datos. En este tutorial, aprenderemos las diversas funciones de Python Pandas y cómo utilizarlas en la práctica.

Este tutorial está diseñado para aquellos que desean aprender los conocimientos básicos y diversas funciones de pandas. Es especialmente útil para personas que se dedican a la limpieza y análisis de datos. Al completar este tutorial, descubrirá que tiene un nivel de conocimiento intermedio y puede obtener un nivel de conocimiento más alto.

Antes de aprender pandas, debe tener una comprensión básica de los términos de programación informática. Una comprensión básica de cualquier lenguaje de programación es un punto a favor. La biblioteca pandas utiliza la mayoría de las funciones de NumPy. Se recomienda que lea tutoriales sobre NumPy antes de continuar con este tutorial;

Pandas es adecuado para manejar los siguientes tipos de datos:

Datos tabulares con columnas heterogéneas, similares a tablas de SQL o Excel; Los elementos del array de NumPy deben tener el mismo tipo de datos, por lo que tienen el mismo tamaño en la memoria; Series de tiempo ordenadas y no ordenadas (no de frecuencia fija); Matrices de datos con etiquetas de filas y columnas, incluyendo datos homogéneos o heterogéneos; Cualquier otro tipo de conjunto de datos de observaciones o estadísticas, no es necesario marcarlo previamente al transferirlo a la estructura de datos de Pandas;

¿Por qué usar Pandas?

La estructura de datos principal de Pandas es Series (datos unidimensionales) y DataFrame (datos bidimensionales), que son suficientes para manejar la mayoría de los casos de uso típicos en finanzas, estadísticas, ciencias sociales, ingeniería y otros campos. Para los usuarios de R, DataFrame ofrece más funcionalidades que data.frame del lenguaje R. Pandas se desarrolla sobre NumPy y puede integrarse perfectamente con otras bibliotecas de cálculo científico de terceros. Pandas es como un cuchillo suizo universal, a continuación se enumeran solo algunas de sus ventajas:

Trate los datos faltantes en datos de punto flotante y no flotante, representados como NaN; Tamaño variable: inserte o elimine columnas de objetos multidimensionales como DataFrame; Alineación de datos automática y explícita: alinee explícitamente los objetos con un conjunto de etiquetas, también puede ignorar las etiquetas y alinearse automáticamente con los datos en Series, DataFrame al calcular; Función poderosa y flexible de agrupamiento(group by): desglose-Aplicación-Combine conjuntos de datos, agregue y transforme datos; Transforme fácilmente datos irregulares y con diferentes índices en estructuras de datos de Python y NumPy en objetos DataFrame; Realice operaciones como rebanado, índice decorativo e inclusión de subconjuntos en conjuntos de datos grandes basados en etiquetas inteligentes; Fusión intuitiva(merge)、**Conexión(join)**Conjuntos de datos; Reestructuración flexible(reshape)、**Pivoteo(pivot)**Conjuntos de datos; Soporte de etiquetas estructuradas de eje: una escala admite múltiples etiquetas; Herramientas IO maduras: lectura de archivos de texto (CSV y otros archivos que admiten delimitadores), archivos Excel, bases de datos y otros datos de fuentes, utilizando el rápido HDF5 Formato de guardado / Carga de datos; Series de tiempo: admite la generación de rangos de fechas, conversión de frecuencia, estadísticas de ventana móvil, regresión lineal de ventana móvil, desplazamiento de fechas y otras funciones de serie de tiempo.

Estas funciones están principalmente diseñadas para resolver los puntos de dolor de otros lenguajes de programación y entornos de investigación. El procesamiento de datos generalmente se divide en varias etapas: preparación y limpieza de datos, análisis y modelado de datos, visualización y tabulación de datos, Pandas es la herramienta ideal para el procesamiento de datos.

Otras notas:

Pandas es rápido. Muchos algoritmos subyacentes de Pandas están optimizados con Cython. Sin embargo, para mantener la universalidad, se debe sacrificar algunos aspectos del rendimiento, y si se se centra en una función específica, se puede desarrollar una herramienta especializada más rápida que Pandas. Pandas es una dependencia de statsmodels, por lo que también es una parte importante del ecosistema de cálculo estadístico en Python. Pandas se ha aplicado ampliamente en el campo financiero.

Ejemplo simple de Pandas

Ejemplo

　　$ pip instalar pandas
　　$ python　-i
　　>>> pandaspd
　>>> df = pd.()　
　>>> imprimir(df)
　　DataFrame vacío
　Columnas:　[]
　Índice:　[]

Operaciones SQL de Pandas

Tutorial de Pandas

Tutorial de Python Pandas

¿Por qué usar Pandas?

Ejemplo simple de Pandas