R データリフレーム

データフレームの合併

R言語でデータフレームを合併する方法 merge() 関数。

merge() 函数の文法形式は以下の通りです：

#　S3　方法
merge(x,　y,　…)
#　data.frame　の　S3　方法　
merge(x,　y,　by　=　intersect(names(x),　names(y)),
　　　　　　by.x　=　by,　by.y　=　by,　all　=　FALSE,　all.x　=　all,　all.y　=　all,
　　　　　　sort　=　TRUE,　suffixes　=　c(".x",".y"),　no.dups　=　TRUE,
　　　　　　incomparables　=　NULL,　…)

常用パラメータの説明：

x, y：データフレーム
by, by.x, by.y：二つのデータフレームの一致する列名を指定します。デフォルトでは、二つのデータフレームの同じ列名を使用します。
all：論理値；all = Lはall.x = Lとall.y = Lの短縮形、LはTRUEまたはFALSEです。
all.x：論理値、デフォルトはFALSE。TRUEの場合、yに対応する行がない場合でも、xに一致する行を表示します。yに一致する行がない場合は、NAで表示されます。
all.y：論理値、デフォルトはFALSE。TRUEの場合、xに対応する行がない場合でも、yに一致する行を表示します。xに一致する行がない場合は、NAで表示されます。
sort：論理値、列をソートするかどうか。

merge() 函数と SQLのJOIN機能は非常に似ています：

Natural join または INNER JOIN：表中有至少一个匹配的情况下も、行を返します
Left outer join または LEFT JOIN：右表中没有匹配的情况下も、左表のすべての行を返します
Right outer join または RIGHT JOIN：左表中没有匹配的情况下も、右表のすべての行を返します
Full outer join または FULL JOIN：只要其中一个表中存在匹配，则返回行

例

#　data　frame　1
df1　=　data.frame(SiteId　=　c(1:6,　Site　=　c("Google","w3codebox", "Taobao", "Facebook", "Zhihu", "Weibo")
#　data　frame　2
df2　=　data.frame(SiteId　=　c(2,　4,　6,　7,　8),　Country　=　c("CN","USA","CN","USA","IN"))　
#　INNER JOIN　
df1　=　merge(x=df1,y=df2,by="SiteId")
print("-----　INNER JOIN　-----)
print(df1)
#　FULL JOIN
df2　=　merge(x=df1,y=df2,by="SiteId",all=TRUE)
print("-----　FULL JOIN　-----)
print(df2)
#　LEFT JOIN
df3　=　merge(x=df1,y=df2,by="SiteId",all.x=TRUE)
print("-----　LEFT JOIN　-----)
print(df3)
#　RIGHT JOIN
df4　=　merge(x=df1,y=df2,by="SiteId",all.y=TRUE)
print("-----　RIGHT JOIN　-----)
print(df4)

以下のコードを実行すると、結果が表示されます：

[1]　"-----　INNER JOIN　-----"
　　SiteId　　　　　Site　Country
1　　　　　　2　　　w3codebox　　　　　　CN
2　　　　　　4　Facebook　　　　　USA
3　　　　　　6　　　　Weibo　　　　　　CN
[1]　"-----　FULL JOIN　-----"
　　SiteId　　　　　Site　Country.x　Country.y
1　　　　　　2　　　w3codebox　　　　　　　　CN　　　　　　　　CN
2　　　　　　4　Facebook　　　　　　　USA　　　　　　　USA
3　　　　　　6　　　　Weibo　　　　　　　　CN　　　　　　　　CN
4　　　　　　7　　　　　<NA>　　　　　　<NA>　　　　　　　USA
5　　　　　　8　　　　　<NA>　　　　　　<NA>　　　　　　　　IN
[1]　"-----　LEFT JOIN　-----"
　　SiteId　　　Site.x　Country　　　Site.y　Country.x　Country.y
1　　　　　　2　　　w3codebox　　　　　　CN　　　w3codebox　　　　　　　　CN　　　　　　　　CN
2　　　　　　4　Facebook　　　　　USA　Facebook　　　　　　　USA　　　　　　　USA
3　　　　　　6　　　　Weibo　　　　　　CN　　　　Weibo　　　　　　　　CN　　　　　　　　CN
[1]　"-----　RIGHT JOIN　-----"
　　SiteId　　　Site.x　Country　　　Site.y　Country.x　Country.y
1　　　　　　2　　　w3codebox　　　　　　CN　　　w3codebox　　　　　　　　CN　　　　　　　　CN
2　　　　　　4　Facebook　　　　　USA　Facebook　　　　　　　USA　　　　　　　USA
3　　　　　　6　　　　Weibo　　　　　　CN　　　　Weibo　　　　　　　　CN　　　　　　　　CN
4　　　　　　7　　　　　<NA>　　　　<NA>　　　　　<NA>　　　　　　<NA>　　　　　　　USA
5　　　　　　8　　　　　<NA>　　　　<NA>　　　　　<NA>　　　　　　<NA>　　　　　　　　IN

データの統合および分割

R言語で使用 melt() および cast() 関数を使用してデータを統合および分割します。

melt()：幅形式データを長形式に変換します。
cast()：長形式データを幅形式に変換します。

以下の図は、melt()およびcast()関数の機能をよく示しています（後の例で詳細に説明します）：

melt()はデータセットの各列を一つの列に積み重ねます、関数の文法形式：

melt(data, ..., na.rm = FALSE, value.name = "value")

パラメータ説明：

data：データセット。
...：他のメソッドに渡すか、他のメソッドから渡される他のパラメータ。
na.rm：データセットから NA 値を削除するかどうか。
value.name：値を保存するための変数名。

以下の操作を行う前に、依存パッケージをインストールします：

# MASS ライブラリには多くの統計関数、ツールおよびデータセットが含まれています
install.packages("MASS", repos = "https://mirrors.ustc.edu.cn/CRAN/)　
　　
# melt() と cast() 関数はライブラリに依存しています　
install.packages("reshape2", repos = "https://mirrors.ustc.edu.cn/CRAN/)　
install.packages("reshape", repos = "https://mirrors.ustc.edu.cn/CRAN/)

テスト例：

例

#　ライブラリの読み込み
library(MASS)　
library(reshape2)　
library(reshape)　
　　
#　データフレームの作成
id<-　c(1,　1,　2,　2)　
time　<-　c(1,　2,　1,　2)　
x1　<-　c(5,　3,　6,　2)　
x2　<-　c(6,　5,　1,　4)　
mydata　<-　data.frame(id,　time,　x1,　x2)　
　　
# 元のデータフレーム
cat("元のデータフレーム:\n")　
print(mydata)　
#　統合
md　<-　melt(mydata,　id　=　c("id","time"))　
　　
cat("\n統合後:\n")　
print(md)

以下のコードを実行すると、結果が表示されます：

元のデータフレーム:
id　time　x1　x2
1　　1　　　　1　　5　　6
2　　1　　　　2　　3　　5
3　　2　　　　1　　6　　1
4　　2　　　　2　　2　　4
統合後:
id time variable value
1　　1　　　　1　　　　　　　x1　　　　　5
2　　1　　　　2　　　　　　　x1　　　　　3
3　　2　　　　1　　　　　　　x1　　　　　6
4　　2　　　　2　　　　　　　x1　　　　　2
5　　1　　　　1　　　　　　　x2　　　　　6
6　　1　　　　2　　　　　　　x2　　　　　5
7　　2　　　　1　　　　　　　x2　　　　　1
8　　2　　　　2　　　　　　　x2　　　　　4

cast関数は統合されたデータフレームを元に戻すために使用され、dcast()はデータフレームを返し、acast()はベクターを返します。/行列/配列。

cast()関数の文法形式：

dcast(
　　data,
　　formula,
　　fun.aggregate = NULL,
　　...,
　　margins = NULL,
　　subset = NULL,
　　fill = NULL,
　　drop = TRUE,
　　value.var = guess_value(data)
)
acast(
　　data,
　　formula,
　　fun.aggregate = NULL,
　　...,
　　margins = NULL,
　　subset = NULL,
　　fill = NULL,
　　drop = TRUE,
　　value.var = guess_value(data)
)

パラメータ説明：

data：統合されたデータフレーム。
formula：リシャップされたデータのフォーマット、x ~ y フォーマットに似ており、x は行ラベル、y は列ラベルです。
fun.aggregate：value値を処理するための集約関数。
margins：変数名のベクター（"grand\_col" と "grand\_row" を含むことができる）、辺距離の計算に使用され、TRUE を設定するとすべての辺距離を計算します。
subset：結果に対する条件フィルタリングを行い、フォーマットは似ている subset = .(variable=="length")。
drop：デフォルト値を保持するかどうか。
value.var：処理するフィールドの後に続きます。

例

#　ライブラリの読み込み
library(MASS)　
library(reshape2)　
library(reshape)　
　　
#　データフレームの作成
id<-　c(1,　1,　2,　2)　
time　<-　c(1,　2,　1,　2)　
x1　<-　c(5,　3,　6,　2)　
x2　<-　c(6,　5,　1,　4)　
mydata　<-　data.frame(id,　time,　x1,　x2)　
#　統合
md　<-　melt(mydata,　id　=　c("id","time"))　
#　Print　recasted　dataset　using　cast()　function　
cast.data　<-　cast(md,　id~variable,　mean)　
　　
print(cast.data)　
　　
cat("\n")　
time.cast　<-　cast(md,　time~variable,　mean)　
print(time.cast)　
cat("\n")　
id.time　<-　cast(md,　id~time,　mean)　
print(id.time)　
cat("\n")　
id.time.cast　<-　cast(md,　id+time~variable)　
print(id.time.cast)　
cat("\n")　
id.variable.time　<-　cast(md,　id+variable~time)　
print(id.variable.time)　
cat("\n")　
id.variable.time2　<-　cast(md,　id~variable+time)　
print(id.variable.time2)

以下のコードを実行すると、結果が表示されます：

id　x1　　x2
1　　1　　4　5.5
2　　2　　4　2.5
　　time　　x1　　x2
1　　　　1　5.5　3.5
2　　　　2　2.5　4.5
　　id　　　1　2
1　　1　5.5　4
2　　2　3.5　3
　　id　time　x1　x2
1　　1　　　　1　　5　　6
2　　1　　　　2　　3　　5
3　　2　　　　1　　6　　1
4　　2　　　　2　　2　　4
　　id　variable　1　2
1　　1　　　　　　　x1　5　3
2　　1　　　　　　　x2　6　5
3　　2　　　　　　　x1　6　2
4　　2　　　　　　　x2　1　4
　　id　x1_1　x1_2　x2_1　x2_2
1　　1　　　　5　　　　3　　　　6　　　　5
2　　2　　　　6　　　　2　　　　1　　　　4

R パッケージ R データフレーム

R 言語チュートリアル

R データリフレーム

データフレームの合併

データの統合および分割