English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
Pandas tiene tres estructuras de datos comunes
Series DataFrame Panel
Estas estructuras de datos se construyen sobre arrays de Numpy, lo que significa que tienen velocidades de ejecución muy rápidas.
list: tipo de datos nativo de Python,主要用于一维, funcionalidad simple, baja eficiencia Dict: tipo de datos nativo de Python, pares de clave/valor multidimensionales, baja eficiencia
ndarray: tipo de datos básicos de Numpy, tipo de datos único Se centra en la estructura de datos/Operación/Dimensión (relación entre datos)
Series:1Dimensión, similar a uno con índices1ndarray de dimensión DataFrame:2Dimensión, tipo de datos tabular, similar a uno con índices de filas/columnas2ndarray de dimensión, se centra en la relación entre los datos e los índices (aplicación real de los datos)
Comparando la utilidad, la fuerza de las funciones y la operatividad: list < ndarray < Series/DataFrame
En el trabajo de alineación y análisis de datos, el array ndarray actúa como un complemento necesario, y la mayoría de los datos se utilizan preferiblemente con tipos de datos de Pandas
La mejor manera de considerar estas estructuras de datos es que la estructura de datos de alta dimensión es el contenedor de la estructura de datos de baja dimensión. Por ejemplo, DataFrame es el contenedor de Series, y Panel es el contenedor de DataFrame.
Estructura de datos | Dimensión | Descripción |
Series | 1 | Usado para almacenar datos unidimensionales de una secuencia |
Data Frames | 2 | DataFrame como una estructura de datos más compleja, se utiliza para almacenar datos multidimensionales |
Panel | 3 | Universal3D etiqueta, un array de tamaño variable. |
Establecer y manejar un array bidimensional es una tarea tediosa, y al escribir funciones, el usuario debe considerar la dirección del conjunto de datos. Sin embargo, el uso de estructuras de datos de Pandas puede reducir la energía del usuario.
Por ejemplo, para datos de tabla (DataFrame), considerar semánticamente el índice (fila) y la columna en lugar de los ejes 0 y 1 es más útil.1más útil en la parte superior.
Todas las estructuras de datos de Pandas son variables en valor (pueden cambiarse), excepto Series, que es invariable en tamaño.
Nota -DataFrame se utiliza ampliamente y es una de las estructuras de datos más importantes. El uso de panel es mucho menor.
Series es una estructura de array unidimensional con datos uniformes. Por ejemplo, la siguiente serie es de enteros10,23,56,
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
Series es una estructura de array unidimensional con datos uniformes. Por ejemplo, la siguiente serie es de enteros10,23,56,
Conjunto de datos del mismo tipo... Tamaño invariable Valores variables
DataFrame es una matriz bidimensional con datos heterogéneos. Por ejemplo:
Name | Age | Gender | Rating |
Steve | 32 | Masculino | 3.45 |
Lia | 28 | Femenino | 4.6 |
Vin | 45 | Masculino | 3.9 |
Katie | 38 | Femenino | 2.78 |
La tabla superior representa los datos del equipo de ventas de la organización y su calificación general de desempeño, los datos se representan por filas y columnas, cada columna representa una propiedad, cada fila representa a una persona.
Column | Type |
Name | String |
Age | Integer |
Gender | String |
Rating | Float |
Datos heterogéneos Tamaño invariable Datos variables
El Panel es una estructura de datos tridimensional con datos heterogéneos. Es difícil representar gráficamente un panel. Sin embargo, un panel puede considerarse como un contenedor de DataFrame.
Datos heterogéneos Tamaño variable Datos variables