English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
Este tutorial está diseñado para aquellos que desean aprender los conocimientos básicos y diversas funciones de pandas. Es especialmente útil para personas que se dedican a la limpieza y análisis de datos. Al completar este tutorial, descubrirá que tiene un nivel de conocimiento intermedio y puede obtener un nivel de conocimiento más alto.
Antes de aprender pandas, debe tener una comprensión básica de los términos de programación informática. Una comprensión básica de cualquier lenguaje de programación es un punto a favor. La biblioteca pandas utiliza la mayoría de las funciones de NumPy. Se recomienda que lea tutoriales sobre NumPy antes de continuar con este tutorial;
Pandas es adecuado para manejar los siguientes tipos de datos:
Datos tabulares con columnas heterogéneas, similares a tablas de SQL o Excel; Los elementos del array de NumPy deben tener el mismo tipo de datos, por lo que tienen el mismo tamaño en la memoria; Series de tiempo ordenadas y no ordenadas (no de frecuencia fija); Matrices de datos con etiquetas de filas y columnas, incluyendo datos homogéneos o heterogéneos; Cualquier otro tipo de conjunto de datos de observaciones o estadísticas, no es necesario marcarlo previamente al transferirlo a la estructura de datos de Pandas;
La estructura de datos principal de Pandas es Series (datos unidimensionales) y DataFrame (datos bidimensionales), que son suficientes para manejar la mayoría de los casos de uso típicos en finanzas, estadísticas, ciencias sociales, ingeniería y otros campos. Para los usuarios de R, DataFrame ofrece más funcionalidades que data.frame del lenguaje R. Pandas se desarrolla sobre NumPy y puede integrarse perfectamente con otras bibliotecas de cálculo científico de terceros. Pandas es como un cuchillo suizo universal, a continuación se enumeran solo algunas de sus ventajas:
Trate los datos faltantes en datos de punto flotante y no flotante, representados como NaN; Tamaño variable: inserte o elimine columnas de objetos multidimensionales como DataFrame; Alineación de datos automática y explícita: alinee explícitamente los objetos con un conjunto de etiquetas, también puede ignorar las etiquetas y alinearse automáticamente con los datos en Series, DataFrame al calcular; Función poderosa y flexible de agrupamiento(group by): desglose-Aplicación-Combine conjuntos de datos, agregue y transforme datos; Transforme fácilmente datos irregulares y con diferentes índices en estructuras de datos de Python y NumPy en objetos DataFrame; Realice operaciones como rebanado, índice decorativo e inclusión de subconjuntos en conjuntos de datos grandes basados en etiquetas inteligentes; Fusión intuitiva(merge)、**Conexión(join)**Conjuntos de datos; Reestructuración flexible(reshape)、**Pivoteo(pivot)**Conjuntos de datos; Soporte de etiquetas estructuradas de eje: una escala admite múltiples etiquetas; Herramientas IO maduras: lectura de archivos de texto (CSV y otros archivos que admiten delimitadores), archivos Excel, bases de datos y otros datos de fuentes, utilizando el rápido HDF5 Formato de guardado / Carga de datos; Series de tiempo: admite la generación de rangos de fechas, conversión de frecuencia, estadísticas de ventana móvil, regresión lineal de ventana móvil, desplazamiento de fechas y otras funciones de serie de tiempo.
Estas funciones están principalmente diseñadas para resolver los puntos de dolor de otros lenguajes de programación y entornos de investigación. El procesamiento de datos generalmente se divide en varias etapas: preparación y limpieza de datos, análisis y modelado de datos, visualización y tabulación de datos, Pandas es la herramienta ideal para el procesamiento de datos.
Pandas es rápido. Muchos algoritmos subyacentes de Pandas están optimizados con Cython. Sin embargo, para mantener la universalidad, se debe sacrificar algunos aspectos del rendimiento, y si se se centra en una función específica, se puede desarrollar una herramienta especializada más rápida que Pandas. Pandas es una dependencia de statsmodels, por lo que también es una parte importante del ecosistema de cálculo estadístico en Python. Pandas se ha aplicado ampliamente en el campo financiero.
$ pip instalar pandas $ python -i >>> pandaspd >>> df = pd.() >>> imprimir(df) DataFrame vacío Columnas: [] Índice: []