English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية

Métodos básicos de Pandas

Ejemplo de método básico de Pandas

Hasta ahora, hemos entendido tres Pandas DataStructures y cómo crearlos. Debido a su importancia en el procesamiento de datos en tiempo real, nos concentraremos principalmente en el objeto DataFrame, y discutiremos otros DataStructures.

方法描述
axesDevuelve la lista de etiquetas del eje de filas.
dtypeDevuelve el dtype del objeto.
emptySi Series está vacío, devuelve True.
ndimDevuelve la dimensión de los datos básicos según la definición.
sizeDevuelve el número de elementos en los datos básicos.
valuesDevuelve Series como ndarray.
head()返回前n行。
tail()返回最后n行。
A continuación, crearemos una serie y veremos todas las operaciones de propiedades de la lista anterior.
 import pandas as pd
 import numpy as np
 # 用100 números aleatorios para crear una serie
 s = pd.Series(np.random.randn(4))
 print(s)

Resultados de la ejecución:

0 0.967853
1  -0.148368
2  -1.395906
3  -1.758394
dtype: float64

axes

Devuelve la lista de etiquetas de la serie.

 import pandas as pd
 import numpy as np
 # 用100 números aleatorios para crear una serie
 s = pd.Series(np.random.randn(4))
 print ("Los ejes son:")
 print(s.axes)

Resultados de la ejecución:

 Los ejes son:
 [RangeIndex(start=0, stop=4, step=1])

El resultado anterior es de 0 a5((es decir, [0,1,2,3,4])。

empty

Devuelve un valor booleano que indica si el objeto está vacío. True indica que el objeto está vacío

 import pandas as pd
 import numpy as np
 # 用100 números aleatorios para crear una serie
 s = pd.Series(np.random.randn(4))
 print ("¿Está el objeto vacío?")
 print(s.empty)

Resultados de la ejecución:

¿Está el objeto vacío?
False

ndim

Devuelve la dimensión del objeto. Según la definición, Series es una1D Estructura de datos, por lo que devuelve

 import pandas as pd
 import numpy as np
 # 用4个随机数创建一个Series
 s = pd.Series(np.random.randn(4))
 print s
 print ("Las dimensiones del objeto:")
 print(s.ndim)

Resultados de la ejecución:

     0 0.175898
1   0.166197
2  -0.609712
3  -1.377000
dtype: float64
Las dimensiones del objeto:
1

size

Devuelve el tamaño (longitud) de la serie.

 import pandas as pd
 import numpy as np
 # 用4个随机数创建一个Series
 s = pd.Series(np.random.randn(2))
 print s
 print ("El tamaño del objeto:")
 print(s.size)

Resultados de la ejecución:

0   3.078058
1  -1.207803
dtype: float64
El tamaño del objeto:
2

values

Devuelve los datos de la serie en forma de array.

 import pandas as pd
 import numpy as np
 # 用4个随机数创建一个Series
 s = pd.Series(np.random.randn(4))
 print s
 print ("La serie de datos real es:")
 print(s.values)

Resultados de la ejecución:

0   1.787373
1  -0.605159
2   0.180477
3  -0.140922
dtype: float64
La serie de datos real es:
[ 1.78737302 -0.60515881 0.18047664 -0.1409218 ]

Head y Tail

Para ver los datos de inicio y final de un objeto Series o DataFrame, utilice los métodos head() y tail().

head() Devuelve las primeras n filas (índices de observación). El número de elementos mostrados por defecto es5pero puedes pasar números personalizados.

 import pandas as pd
 import numpy as np
 # 用4个随机数创建一个Series
 s = pd.Series(np.random.randn(4))
 print ("La serie inicial es:")
 print s
 print ("Las dos primeras filas de la serie de datos:")
 print(s.head(2))

Resultados de la ejecución:

最初的系列是:
0 0.720876
1  -0.765898
2   0.479221
3  -0.139547
dtype: float64
Las dos primeras filas de la serie de datos:
0 0.720876
1  -0.765898
dtype: float64

tail() Mostrar las últimas n filas (observar valores de índice). El número de elementos mostrados por defecto es5pero puedes pasar números personalizados.

 import pandas as pd
 import numpy as np
 # 用4个随机数创建一个Series
 s = pd.Series(np.random.randn(4))
 print("最初的系列是:")
 print(s)
 print("数据序列的最后两行:")
 print(s)tail(2)

Resultados de la ejecución:

最初的系列是:
0 -0.655091
1 -0.881407
2 -0.608592
3 -2.341413
dtype: float64
数据序列的最后两行:
2 -0.608592
3 -2.341413
dtype: float64

DataFrame 基本功能

现在让我们了解什么是DataFrame基本功能。下表列出了有助于DataFrame基本功能的重要属性或方法。

属性/方法描述
T行和列互相转换
axes返回以行轴标签和列轴标签为唯一成员的列表。
dtypes返回此对象中的dtypes。
empty如果NDFrame完全为空[没有项目],则为true;否则为false。如果任何轴的长度为0。
ndim轴数/数组尺寸。
shape返回表示DataFrame维度的元组。
sizeNDFrame中的元素数。
valuesNDFrame的数字表示。
head()返回前n行。
tail()返回最后n行。

下面我们创建一个DataFrame并查看上述属性的所有操作方式。

Example

 import pandas as pd
 import numpy as np
 # Crear diccionario de Series
 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Edad':pd.Series([25,26,25,23,30,29,23]),
    'Clasificación':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Crear un DataFrame
 df = pd.DataFrame(d
 print ("Our data series is:")
 print(df)

Resultados de la ejecución:

Our data series is:
    Edad	Nombre	Clasificación
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30	Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

T (Transpose)

返回DataFrame的转置。行和列将互换。

 import pandas as pd
 import numpy as np
  
 # Crear diccionario de Series
 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Edad':pd.Series([25,26,25,23,30,29,23]),
    'Clasificación':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Crear un DataFrame
 df = pd.DataFrame(d
 print ("数据序列的转置是:")
 print(df.T)

Resultados de la ejecución:

数据序列的转置是:
         0     1       2      3      4      5       6
Age      25    26      25     23     30     29      23
Name object Tom James Ricky Vin Steve Smith Jack
Rating   4.23  3.24    3.98   2.56   3.2    4.6     3.8

axes

返回行轴标签和列轴标签的列表。

 import pandas as pd
 import numpy as np
 # Crear diccionario de Series
 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Edad':pd.Series([25,26,25,23,30,29,23]),
    'Clasificación':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Crear un DataFrame
 df = pd.DataFrame(d
 print ("行轴标签和列轴标签是:")
 print(df.axes)

Resultados de la ejecución:

  行轴标签和列轴标签是:
 [RangeIndex(start=0, stop=7, step=1), Index([u'Age', u'Name', u'Rating'],
 dtype='object')]

dtypes

返回每一列的数据类型。

 import pandas as pd
 import numpy as np
 # Crear diccionario de Series
 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Edad':pd.Series([25,26,25,23,30,29,23]),
    'Clasificación':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Crear un DataFrame
 df = pd.DataFrame(d
 print ("每列的数据类型如下:")
 print(df.dtypes)

Resultados de la ejecución:

每列的数据类型如下:
Age int64
Name object
Rating float64
dtype: object

empty

Devuelve un valor booleano que indica si el objeto está vacío; True indica que el objeto está vacío.

 import pandas as pd
 import numpy as np
  
 # Crear diccionario de Series
 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Edad':pd.Series([25,26,25,23,30,29,23]),
    'Clasificación':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # Crear un DataFrame
 df = pd.DataFrame(d
 print("¿Es el objeto vacío?")
 print(df.empty)

Resultados de la ejecución:

 ¿Es el objeto vacío?
 False

ndim

Devuelve el número de objetos. Según la definición, el DataFrame es2Objeto D.

 import pandas as pd
 import numpy as np
 # Crear diccionario de Series
 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Edad':pd.Series([25,26,25,23,30,29,23]),
    'Clasificación':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Crear un DataFrame
 df = pd.DataFrame(d
 print("Nuestro objeto es:")
 print(df
 print("La dimensión del objeto es:")
 print(df.ndim)

Resultados de la ejecución:

     Nuestro objeto es:
      Edad Nombre Rating
0     25     Tom      4.23
1     26     James    3.24
2     25     Ricky    3.98
3     23     Vin      2.56
4     30 Steve    3.20
5     29     Smith    4.60
6     23     Jack     3.80
La dimensión del objeto es:
2

shape

Devuelve un tupla que representa las dimensiones del DataFrame. La tupla (a, b), donde a representa el número de filas y b el número de columnas.

 import pandas as pd
 import numpy as np
  
 # Crear diccionario de Series
 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Edad':pd.Series([25,26,25,23,30,29,23]),
    'Clasificación':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # Crear un DataFrame
 df = pd.DataFrame(d
 print("Nuestro objeto es:")
 print(df
 print("La forma del objeto es:")
 print(df.shape)

Resultados de la ejecución:

     Nuestro objeto es:
   Edad	Nombre	Clasificación
0  25    Tom     4.23
1  26    James   3.24
2  25    Ricky   3.98
3  23    Vin     2.56
4  30	Steve   3.20
5  29    Smith   4.60
6  23    Jack    3.80
La forma del objeto es:
(7, 3)

size

Devuelve el número de elementos en el DataFrame.

 import pandas as pd
 import numpy as np
  
 # Crear diccionario de Series
 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Edad':pd.Series([25,26,25,23,30,29,23]),
    'Clasificación':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # Crear un DataFrame
 df = pd.DataFrame(d
 print("Nuestro objeto es:")
 print(df
 print("El número total de elementos en nuestro objeto es:")
 print(df.size)

Resultados de la ejecución:

     Nuestro objeto es:
    Edad	Nombre	Clasificación
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30	Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80
El número total de elementos en nuestro objeto es:
21

values

Devuelve los datos reales en la forma de NDarray del DataFrame.

 import pandas as pd
 import numpy as np
  
 # Crear diccionario de Series
 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Edad':pd.Series([25,26,25,23,30,29,23]),
    'Clasificación':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # Crear un DataFrame
 df = pd.DataFrame(d
 print("Nuestro objeto es:")
 print(df
 print("Los datos reales en nuestro cuadro de datos son:")
 print(df.values)

Resultados de la ejecución:

     Nuestro objeto es:
    Edad	Nombre	Clasificación
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30	Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80
Los datos reales en nuestro cuadro de datos son:
[[25 "Tom" 4.23]
[26 "James" 3.24]
[25 "Ricky" 3.98]
[23 "Vin" 2.56]
[30 "Steve" 3.2]
[29 "Smith" 4.6]
[23 "Jack" 3.8]]

Head & Tail

Para ver los datos de inicio y final del objeto DataFrame, utilice los métodos head() y tail(). head() devuelve las primeras n filas (obsérvese el valor del índice). El número de elementos mostrados por defecto es5pero puedes pasar números personalizados.

 import pandas as pd
 import numpy as np
  
 # Crear diccionario de Series
 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Edad':pd.Series([25,26,25,23,30,29,23]),
    'Clasificación':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Crear un DataFrame
 df = pd.DataFrame(d
 print("Nuestro cuadro de datos es:")
 print(df
 print("Las primeras dos filas del cuadro de datos son:")
 print(df.head(2))

Resultados de la ejecución:

     Nuestra tabla de datos es:
    Edad	Nombre	Clasificación
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30	Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80
Las primeras dos filas de la tabla de datos son:
   Edad	Nombre	Clasificación
0  25    Tom    4.23
1  26    James  3.24

tail() Mostrar las últimas n filas (observar valores de índice). El número de elementos mostrados por defecto es5pero puedes pasar números personalizados.

 import pandas as pd
 import numpy as np
 # Crear diccionario de Series
 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Edad':pd.Series([25,26,25,23,30,29,23]), 
    'Clasificación':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # Crear un DataFrame
 df = pd.DataFrame(d
 print("Nuestra tabla de datos es:")
 print(df
 print("Las últimas dos filas de la tabla de datos son:")
 print(df.head(2))

Resultados de la ejecución:

Nuestra tabla de datos es:
    Edad	Nombre	Clasificación
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30	Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80
Las últimas dos filas de la tabla de datos son:
    Edad	Nombre	Clasificación
5   29    Smith    4.6
6   23    Jack     3.8