Reestructuración de datos en R

合并数据框

R 语言合并数据框使用 merge() 函数。

merge() 函数语法格式如下：

# S3　方法
merge(x, y, …)
# data.frame 的 S3　方法　
merge(x, y, by = intersect(names(x), names(y)),
　　　　　　by.x = by, by.y = by, all = FALSE, all.x = all, all.y = all,
　　　　　　sort = TRUE, suffixes = c(".x", ".y"), no.dups = TRUE,
　　　　　　incomparables = NULL, …)

常用参数说明：

x, y：数据框
by, by.x, by.y：指定两个数据框中匹配列名称，默认情况下使用两个数据框中相同列名称。
all：逻辑值; all = L 是 all.x = L y all.y = L 的简写，L 可以是 TRUE o FALSE。
all.x：逻辑值，默认为 FALSE。如果为 TRUE, 显示 x 中匹配的行，即便 y 中没有对应匹配的行，y 中没有匹配的行用 NA 来表示。
all.y：逻辑值，默认为 FALSE。如果为 TRUE, 显示 y 中匹配的行，即便 x 中没有对应匹配的行，x 中没有匹配的行用 NA 来表示。
sort：逻辑值，是否对列进行排序。

merge() 函数和 SQL 的 JOIN 功能很相似：

Natural join o INNER JOIN：如果表中有至少一个匹配，则返回行
Left outer join o LEFT JOIN：即使右表中没有匹配，也从左表返回所有的行
Right outer join o RIGHT JOIN：即使左表中没有匹配，也从右表返回所有的行
Full outer join o FULL JOIN：只要其中一个表中存在匹配，则返回行

Ejemplo

# data frame　1
df1　= data.frame(SiteId = c(1:6), Site = c("Google", "w3codebox", "Taobao", "Facebook", "Zhihu", "Weibo")
# data frame　2
df2　= data.frame(SiteId = c(2,　4,　6,　7,　8), Country = c("CN","USA","CN","USA","IN")　
# INNER JOIN　
df1　= merge(x=df1,y=df2,by="SiteId")
print("-----　INNER JOIN　-----)
print(df1)
# FULL JOIN
df2　= merge(x=df1,y=df2,by="SiteId",all=TRUE)
print("-----　FULL JOIN　-----)
print(df2)
# LEFT JOIN
df3　= merge(x=df1,y=df2,by="SiteId",all.x=TRUE)
print("-----　LEFT JOIN　-----)
print(df3)
# RIGHT JOIN
df4　= merge(x=df1,y=df2,by="SiteId",all.y=TRUE)
print("-----　RIGHT JOIN　-----)
print(df4)

El resultado de ejecutar el código anterior es:

[1] "-----　INNER JOIN　-----"
　　SiteId　　<NA>　　Site　Country
1　　　　　　2　　　w3codebox　　CN
2　　　　　　4　Facebook　　USA
3　　　　　　6　　　　Weibo　　CN
[1] "-----　FULL JOIN　-----"
　　SiteId　　<NA>　　Site　Country.x　Country.y
1　　　　　　2　　　w3codebox　　CN　　CN
2　　　　　　4　Facebook　　USA　　<NA>　　USA
3　　　　　　6　　　　Weibo　　CN　　<NA>　　CN
4　　　　　　7　　　　　<NA>　　<NA>　　<NA>　USA
5　　　　　　8　　　　　<NA>　　<NA>　　<NA>
[1] "-----　LEFT JOIN　-----"
　　SiteId　　Site.x　Country　　Site.y　Country.x　Country.y
1　　　　　　2　　　w3codebox　　CN　w3codebox　　CN　　CN
2　　　　　　4　Facebook　　USA　Facebook　　USA　　USA
3　　　　　　6　　　　Weibo　　CN　　Weibo　　CN　　CN
[1] "-----　RIGHT JOIN　-----"
　　SiteId　　Site.x　Country　　Site.y　Country.x　Country.y
1　　　　　　2　　　w3codebox　　CN　w3codebox　　CN　　CN
2　　　　　　4　Facebook　　USA　Facebook　　USA　　USA
3　　　　　　6　　　　Weibo　　CN　　Weibo　　CN　　CN
4　　　　　　7　　　　　<NA>　　<NA>　　<NA>　　<NA>　　<NA>　USA
5　　　　　　8　　　　　<NA>　　<NA>　　<NA>　　<NA>　　<NA>　　<NA>

Integración y división de datos

Se utiliza el lenguaje R melt() y cast() funciones para integrar y dividir datos.

melt() : convertir datos en formato ancho a formato largo.
cast() : convertir datos en formato largo a formato ancho.

La siguiente imagen ilustra bien las funciones de melt() y cast() (se explicarán en detalle en los ejemplos posteriores):

melt() coloca cada columna del conjunto de datos en una columna, la sintaxis de la función es:

melt(data, ..., na.rm = FALSE, value.name = "value")

Descripción de los parámetros:

data: conjunto de datos.
...: pasar otros parámetros a métodos o recibir otros parámetros de otros métodos.
na.rm: eliminar valores NA del conjunto de datos.
value.name: nombre de variable, utilizado para almacenar valores.

Antes de realizar las siguientes operaciones, primero instalamos los paquetes dependientes:

# Instalar paquetes dependientes: MASS contiene muchas funciones, herramientas y conjuntos de datos estadísticos
install.packages("MASS", repos = "https://mirrors.ustc.edu.cn/CRAN/)　
　　
# melt() y cast() necesitan bibliotecas　
install.packages("reshape2", repos = "https://mirrors.ustc.edu.cn/CRAN/)　
install.packages("reshape", repos = "https://mirrors.ustc.edu.cn/CRAN/)

Ejemplo de prueba:

Ejemplo

# Cargar librerías
library(MASS)　
library(reshape2)　
library(reshape)　
　　
# Crear data frame
id<-　c(1,　1,　2,　2)　
tiempo <-　c(1,　2,　1,　2)　
x1　<-　c(5,　3,　6,　2)　
x2　<-　c(6,　5,　1,　4)　
mydata <-　data.frame(id, tiempo, x1, x2)　
　　
# Cuadro de datos original
cat("Cuadro de datos original:\n")　
print(mydata)　
# Integración
md <-　melt(mydata, id = c("id","tiempo"))　
　　
cat("\nIntegrado:\n")　
print(md)

El resultado de ejecutar el código anterior es:

Cuadro de datos original:
id tiempo x1　x2
1　　1　　　　1　　5　　6
2　　1　　　　2　　3　　5
3　　2　　　　1　　6　　1
4　　2　　　　2　　2　　4
Integrado:
id time variable value
1　　1　　　　1　　　　　　　x1　　　　　5
2　　1　　　　2　　　　　　　x1　　　　　3
3　　2　　　　1　　　　　　　x1　　　　　6
4　　2　　　　2　　　　　　　x1　　　　　2
5　　1　　　　1　　　　　　　x2　　　　　6
6　　1　　　　2　　　　　　　x2　　　　　5
7　　2　　　　1　　　　　　　x2　　　　　1
8　　2　　　　2　　　　　　　x2　　　　　4

La función cast se utiliza para restablecer datos de cuadros combinados, dcast() devuelve un cuadro de datos, acast() devuelve un vector/Matriz/Arreglo.

Sintaxis del formato de la función cast():

dcast(
　　data,
　　formula,
　　fun.aggregate = NULL,
　　...
　　margins = NULL,
　　subset = NULL,
　　fill = NULL,
　　drop = TRUE,
　　value.var = guess_value(data)
)
acast(
　　data,
　　formula,
　　fun.aggregate = NULL,
　　...
　　margins = NULL,
　　subset = NULL,
　　fill = NULL,
　　drop = TRUE,
　　value.var = guess_value(data)
)

Descripción de los parámetros:

data: Cuadro de datos combinado.
formula: Formato de datos reestructurados, similar a x ~ y, x como etiqueta de fila, y como etiqueta de columna.
fun.aggregate: Función de agregación, utilizada para procesar valores.
margins: Vector de nombres de variables (puede incluir "grand_col" y "grand_row"), utilizado para calcular márgenes, configurar TURE para calcular todos los márgenes.
subset: Filtrar resultados según condiciones, formato similar subset = .(variable=="length")。
drop: si se debe mantener el valor por defecto.
value.var: sigue al campo que se va a procesar.

Ejemplo

# Cargar librerías
library(MASS)　
library(reshape2)　
library(reshape)　
　　
# Crear data frame
id<-　c(1,　1,　2,　2)　
tiempo <-　c(1,　2,　1,　2)　
x1　<-　c(5,　3,　6,　2)　
x2　<-　c(6,　5,　1,　4)　
mydata <-　data.frame(id, tiempo, x1, x2)　
# Integración
md <-　melt(mydata, id = c("id","tiempo"))　
# Imprimir conjunto de datos recastado utilizando la función cast()　
cast.data <-　cast(md, id ~ variable, media)　
　　
print(cast.data)　
　　
cat("\n")　
tiempo.cast <-　cast(md, tiempo ~ variable, media)　
print(tiempo.cast)　
cat("\n")　
id.tiempo <-　cast(md, id ~ tiempo, media)　
print(id.tiempo)　
cat("\n")　
id.tiempo.cast <-　cast(md, id+tiempo ~ variable)　
print(id.tiempo.cast)　
cat("\n")　
id.variable.time <-　cast(md, id+variable ~ tiempo)　
print(id.variable.time)　
cat("\n")　
id.variable.time2　<-　cast(md, id ~ variable+tiempo)　
print(id.variable.time2)

El resultado de ejecutar el código anterior es:

id x1　　x2
1　　1　　4　5.5
2　　2　　4　2.5
　　tiempo x1　　x2
1　　　　1　5.5　3.5
2　　　　2　2.5　4.5
　　id　　　1　2
1　　1　5.5　4
2　　2　3.5　3
　　id tiempo x1　x2
1　　1　　　　1　　5　　6
2　　1　　　　2　　3　　5
3　　2　　　　1　　6　　1
4　　2　　　　2　　2　　4
　　id variable　1　2
1　　1　　　　　　　x1　5　3
2　　1　　　　　　　x2　6　5
3　　2　　　　　　　x1　6　2
4　　2　　　　　　　x2　1　4
　　id x1_1　x1_2　x2_1　x2_2
1　　1　　　　5　　　　3　　　　6　　　　5
2　　2　　　　6　　　　2　　　　1　　　　4

Paquetes en R Data frames en R

Tutoriales de R

Reestructuración de datos en R

合并数据框

Integración y división de datos