欠損値

欠損値

欠損値を見つける is.na()
欠損値があるか確認 anyNA()
欠損値の数を数える
欠損値を除く na.omit()
欠損値を無視するオプション na.rm = TRUE
欠損値を 0 に置き換える

欠損値の補完

時系列データの場合
独立データの場合
Reference

欠損値を見つける is.na()

 [82,] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
 [83,] FALSE FALSE  TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
 [84,] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE

subset(データフレーム, is.na(カラム名) )

これで、カラムで空欄になっている行が見つけられる。

欠損値があるか確認 anyNA()

TOP ↑ ↓

> anyNA(JPNindexTopic)
[1] TRUE

欠損値の数を数える

TOP ↑ ↓

> sum(is.na(cor2.1st$ipsyn.25))
[1] 30

> table(is.na(cor2.1st$ipsyn.25))

FALSE  TRUE 
   49    30

欠損値を除く na.omit()

TOP ↑ ↓

> df.ns.nns.bigram
    bigram freq.x freq.y
1   of the    400    300
2   in the    200     30
3  at the     100     NA
4 you know     50    200
5   i know     25     20
6  i think     NA    250

> na.omit(df.ns.nns.bigram)
    bigram freq.x freq.y
1   of the    400    300
2   in the    200     30
4 you know     50    200
5   i know     25     20

欠損値を無視するオプション na.rm = TRUE

TOP ↑ ↓

欠損値を 0 に置き換える

TOP ↑ ↓

> zero
    bigram freq.x freq.y
1   of the    400    300
2   in the    200     30
3  at the     100     NA
4 you know     50    200
5   i know     25     20
6  i think     NA    250
> zero[is.na(zero)] <- 0
> zero
    bigram freq.x freq.y
1   of the    400    300
2   in the    200     30
3  at the     100      0
4 you know     50    200
5   i know     25     20
6  i think      0    250