English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية

Estructuras de datos de Pandas

Pandas tiene tres estructuras de datos comunes

Series DataFrame Panel

Estas estructuras de datos se construyen sobre arrays de Numpy, lo que significa que tienen velocidades de ejecución muy rápidas.

Comparación de Python, Numpy y Pandas

Python

list: tipo de datos nativo de Python,主要用于一维, funcionalidad simple, baja eficiencia Dict: tipo de datos nativo de Python, pares de clave/valor multidimensionales, baja eficiencia

Numpy

ndarray: tipo de datos básicos de Numpy, tipo de datos único Se centra en la estructura de datos/Operación/Dimensión (relación entre datos)

Pandas

Series:1Dimensión, similar a uno con índices1ndarray de dimensión DataFrame:2Dimensión, tipo de datos tabular, similar a uno con índices de filas/columnas2ndarray de dimensión, se centra en la relación entre los datos e los índices (aplicación real de los datos)

Comparando la utilidad, la fuerza de las funciones y la operatividad: list < ndarray < Series/DataFrame

En el trabajo de alineación y análisis de datos, el array ndarray actúa como un complemento necesario, y la mayoría de los datos se utilizan preferiblemente con tipos de datos de Pandas

La mejor manera de considerar estas estructuras de datos es que la estructura de datos de alta dimensión es el contenedor de la estructura de datos de baja dimensión. Por ejemplo, DataFrame es el contenedor de Series, y Panel es el contenedor de DataFrame.

Estructura de datos DimensiónDescripción
Series1Usado para almacenar datos unidimensionales de una secuencia
Data Frames2DataFrame como una estructura de datos más compleja, se utiliza para almacenar datos multidimensionales
Panel3Universal3D etiqueta, un array de tamaño variable.

Establecer y manejar un array bidimensional es una tarea tediosa, y al escribir funciones, el usuario debe considerar la dirección del conjunto de datos. Sin embargo, el uso de estructuras de datos de Pandas puede reducir la energía del usuario.
Por ejemplo, para datos de tabla (DataFrame), considerar semánticamente el índice (fila) y la columna en lugar de los ejes 0 y 1 es más útil.1más útil en la parte superior.

Variabilidad

Todas las estructuras de datos de Pandas son variables en valor (pueden cambiarse), excepto Series, que es invariable en tamaño.

Nota -DataFrame se utiliza ampliamente y es una de las estructuras de datos más importantes. El uso de panel es mucho menor.

Series

Series es una estructura de array unidimensional con datos uniformes. Por ejemplo, la siguiente serie es de enteros10,23,56,

10235617526173902672

Series es una estructura de array unidimensional con datos uniformes. Por ejemplo, la siguiente serie es de enteros10,23,56,

Puntos clave

Conjunto de datos del mismo tipo... Tamaño invariable Valores variables

Data Frames

DataFrame es una matriz bidimensional con datos heterogéneos. Por ejemplo:

NameAgeGenderRating
Steve32Masculino3.45
Lia28Femenino4.6
Vin45Masculino3.9
Katie38Femenino2.78

La tabla superior representa los datos del equipo de ventas de la organización y su calificación general de desempeño, los datos se representan por filas y columnas, cada columna representa una propiedad, cada fila representa a una persona.

Tipo de datos de la columna
ColumnType
Name String
Age Integer
Gender String
Rating Float
Puntos clave

Datos heterogéneos Tamaño invariable Datos variables

Panel

El Panel es una estructura de datos tridimensional con datos heterogéneos. Es difícil representar gráficamente un panel. Sin embargo, un panel puede considerarse como un contenedor de DataFrame.

Puntos clave

Datos heterogéneos Tamaño variable Datos variables