English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
Ejemplo de método básico de Pandas
Hasta ahora, hemos entendido tres Pandas DataStructures y cómo crearlos. Debido a su importancia en el procesamiento de datos en tiempo real, nos concentraremos principalmente en el objeto DataFrame, y discutiremos otros DataStructures.
方法 | 描述 |
axes | Devuelve la lista de etiquetas del eje de filas. |
dtype | Devuelve el dtype del objeto. |
empty | Si Series está vacío, devuelve True. |
ndim | Devuelve la dimensión de los datos básicos según la definición. |
size | Devuelve el número de elementos en los datos básicos. |
values | Devuelve Series como ndarray. |
head() | 返回前n行。 |
tail() | 返回最后n行。 |
import pandas as pd import numpy as np # 用100 números aleatorios para crear una serie s = pd.Series(np.random.randn(4)) print(s)
Resultados de la ejecución:
0 0.967853 1 -0.148368 2 -1.395906 3 -1.758394 dtype: float64
Devuelve la lista de etiquetas de la serie.
import pandas as pd import numpy as np # 用100 números aleatorios para crear una serie s = pd.Series(np.random.randn(4)) print ("Los ejes son:") print(s.axes)
Resultados de la ejecución:
Los ejes son: [RangeIndex(start=0, stop=4, step=1])
El resultado anterior es de 0 a5((es decir, [0,1,2,3,4])。
Devuelve un valor booleano que indica si el objeto está vacío. True indica que el objeto está vacío
import pandas as pd import numpy as np # 用100 números aleatorios para crear una serie s = pd.Series(np.random.randn(4)) print ("¿Está el objeto vacío?") print(s.empty)
Resultados de la ejecución:
¿Está el objeto vacío? False
Devuelve la dimensión del objeto. Según la definición, Series es una1D Estructura de datos, por lo que devuelve
import pandas as pd import numpy as np # 用4个随机数创建一个Series s = pd.Series(np.random.randn(4)) print s print ("Las dimensiones del objeto:") print(s.ndim)
Resultados de la ejecución:
0 0.175898 1 0.166197 2 -0.609712 3 -1.377000 dtype: float64 Las dimensiones del objeto: 1
Devuelve el tamaño (longitud) de la serie.
import pandas as pd import numpy as np # 用4个随机数创建一个Series s = pd.Series(np.random.randn(2)) print s print ("El tamaño del objeto:") print(s.size)
Resultados de la ejecución:
0 3.078058 1 -1.207803 dtype: float64 El tamaño del objeto: 2
Devuelve los datos de la serie en forma de array.
import pandas as pd import numpy as np # 用4个随机数创建一个Series s = pd.Series(np.random.randn(4)) print s print ("La serie de datos real es:") print(s.values)
Resultados de la ejecución:
0 1.787373 1 -0.605159 2 0.180477 3 -0.140922 dtype: float64 La serie de datos real es: [ 1.78737302 -0.60515881 0.18047664 -0.1409218 ]
Para ver los datos de inicio y final de un objeto Series o DataFrame, utilice los métodos head() y tail().
head() Devuelve las primeras n filas (índices de observación). El número de elementos mostrados por defecto es5pero puedes pasar números personalizados.
import pandas as pd import numpy as np # 用4个随机数创建一个Series s = pd.Series(np.random.randn(4)) print ("La serie inicial es:") print s print ("Las dos primeras filas de la serie de datos:") print(s.head(2))
Resultados de la ejecución:
最初的系列是: 0 0.720876 1 -0.765898 2 0.479221 3 -0.139547 dtype: float64 Las dos primeras filas de la serie de datos: 0 0.720876 1 -0.765898 dtype: float64
tail() Mostrar las últimas n filas (observar valores de índice). El número de elementos mostrados por defecto es5pero puedes pasar números personalizados.
import pandas as pd import numpy as np # 用4个随机数创建一个Series s = pd.Series(np.random.randn(4)) print("最初的系列是:") print(s) print("数据序列的最后两行:") print(s)tail(2)
Resultados de la ejecución:
最初的系列是: 0 -0.655091 1 -0.881407 2 -0.608592 3 -2.341413 dtype: float64 数据序列的最后两行: 2 -0.608592 3 -2.341413 dtype: float64
现在让我们了解什么是DataFrame基本功能。下表列出了有助于DataFrame基本功能的重要属性或方法。
属性/方法 | 描述 |
T | 行和列互相转换 |
axes | 返回以行轴标签和列轴标签为唯一成员的列表。 |
dtypes | 返回此对象中的dtypes。 |
empty | 如果NDFrame完全为空[没有项目],则为true;否则为false。如果任何轴的长度为0。 |
ndim | 轴数/数组尺寸。 |
shape | 返回表示DataFrame维度的元组。 |
size | NDFrame中的元素数。 |
values | NDFrame的数字表示。 |
head() | 返回前n行。 |
tail() | 返回最后n行。 |
下面我们创建一个DataFrame并查看上述属性的所有操作方式。
import pandas as pd import numpy as np # Crear diccionario de Series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Edad':pd.Series([25,26,25,23,30,29,23]), 'Clasificación':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Crear un DataFrame df = pd.DataFrame(d print ("Our data series is:") print(df)
Resultados de la ejecución:
Our data series is: Edad Nombre Clasificación 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80
返回DataFrame的转置。行和列将互换。
import pandas as pd import numpy as np # Crear diccionario de Series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Edad':pd.Series([25,26,25,23,30,29,23]), 'Clasificación':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Crear un DataFrame df = pd.DataFrame(d print ("数据序列的转置是:") print(df.T)
Resultados de la ejecución:
数据序列的转置是: 0 1 2 3 4 5 6 Age 25 26 25 23 30 29 23 Name object Tom James Ricky Vin Steve Smith Jack Rating 4.23 3.24 3.98 2.56 3.2 4.6 3.8
返回行轴标签和列轴标签的列表。
import pandas as pd import numpy as np # Crear diccionario de Series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Edad':pd.Series([25,26,25,23,30,29,23]), 'Clasificación':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Crear un DataFrame df = pd.DataFrame(d print ("行轴标签和列轴标签是:") print(df.axes)
Resultados de la ejecución:
行轴标签和列轴标签是: [RangeIndex(start=0, stop=7, step=1), Index([u'Age', u'Name', u'Rating'], dtype='object')]
返回每一列的数据类型。
import pandas as pd import numpy as np # Crear diccionario de Series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Edad':pd.Series([25,26,25,23,30,29,23]), 'Clasificación':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Crear un DataFrame df = pd.DataFrame(d print ("每列的数据类型如下:") print(df.dtypes)
Resultados de la ejecución:
每列的数据类型如下: Age int64 Name object Rating float64 dtype: object
Devuelve un valor booleano que indica si el objeto está vacío; True indica que el objeto está vacío.
import pandas as pd import numpy as np # Crear diccionario de Series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Edad':pd.Series([25,26,25,23,30,29,23]), 'Clasificación':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Crear un DataFrame df = pd.DataFrame(d print("¿Es el objeto vacío?") print(df.empty)
Resultados de la ejecución:
¿Es el objeto vacío? False
Devuelve el número de objetos. Según la definición, el DataFrame es2Objeto D.
import pandas as pd import numpy as np # Crear diccionario de Series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Edad':pd.Series([25,26,25,23,30,29,23]), 'Clasificación':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Crear un DataFrame df = pd.DataFrame(d print("Nuestro objeto es:") print(df print("La dimensión del objeto es:") print(df.ndim)
Resultados de la ejecución:
Nuestro objeto es: Edad Nombre Rating 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 La dimensión del objeto es: 2
Devuelve un tupla que representa las dimensiones del DataFrame. La tupla (a, b), donde a representa el número de filas y b el número de columnas.
import pandas as pd import numpy as np # Crear diccionario de Series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Edad':pd.Series([25,26,25,23,30,29,23]), 'Clasificación':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Crear un DataFrame df = pd.DataFrame(d print("Nuestro objeto es:") print(df print("La forma del objeto es:") print(df.shape)
Resultados de la ejecución:
Nuestro objeto es: Edad Nombre Clasificación 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 La forma del objeto es: (7, 3)
Devuelve el número de elementos en el DataFrame.
import pandas as pd import numpy as np # Crear diccionario de Series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Edad':pd.Series([25,26,25,23,30,29,23]), 'Clasificación':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Crear un DataFrame df = pd.DataFrame(d print("Nuestro objeto es:") print(df print("El número total de elementos en nuestro objeto es:") print(df.size)
Resultados de la ejecución:
Nuestro objeto es: Edad Nombre Clasificación 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 El número total de elementos en nuestro objeto es: 21
Devuelve los datos reales en la forma de NDarray del DataFrame.
import pandas as pd import numpy as np # Crear diccionario de Series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Edad':pd.Series([25,26,25,23,30,29,23]), 'Clasificación':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Crear un DataFrame df = pd.DataFrame(d print("Nuestro objeto es:") print(df print("Los datos reales en nuestro cuadro de datos son:") print(df.values)
Resultados de la ejecución:
Nuestro objeto es: Edad Nombre Clasificación 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 Los datos reales en nuestro cuadro de datos son: [[25 "Tom" 4.23] [26 "James" 3.24] [25 "Ricky" 3.98] [23 "Vin" 2.56] [30 "Steve" 3.2] [29 "Smith" 4.6] [23 "Jack" 3.8]]
Para ver los datos de inicio y final del objeto DataFrame, utilice los métodos head() y tail(). head() devuelve las primeras n filas (obsérvese el valor del índice). El número de elementos mostrados por defecto es5pero puedes pasar números personalizados.
import pandas as pd import numpy as np # Crear diccionario de Series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Edad':pd.Series([25,26,25,23,30,29,23]), 'Clasificación':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Crear un DataFrame df = pd.DataFrame(d print("Nuestro cuadro de datos es:") print(df print("Las primeras dos filas del cuadro de datos son:") print(df.head(2))
Resultados de la ejecución:
Nuestra tabla de datos es: Edad Nombre Clasificación 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 Las primeras dos filas de la tabla de datos son: Edad Nombre Clasificación 0 25 Tom 4.23 1 26 James 3.24
tail() Mostrar las últimas n filas (observar valores de índice). El número de elementos mostrados por defecto es5pero puedes pasar números personalizados.
import pandas as pd import numpy as np # Crear diccionario de Series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Edad':pd.Series([25,26,25,23,30,29,23]), 'Clasificación':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Crear un DataFrame df = pd.DataFrame(d print("Nuestra tabla de datos es:") print(df print("Las últimas dos filas de la tabla de datos son:") print(df.head(2))
Resultados de la ejecución:
Nuestra tabla de datos es: Edad Nombre Clasificación 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 Las últimas dos filas de la tabla de datos son: Edad Nombre Clasificación 5 29 Smith 4.6 6 23 Jack 3.8