この記事では、Rで使えるデータセットについて説明します。
記事の概要です。
- データセット一覧を得る:data()
- データセットを使う:data(データセット名)
- データセットの情報を得る:help(データセット名)
また、この記事で用いたパッケージのバージョンはこちらになります。
- datasets ‘3.5.1‘
- tmap ‘2.2‘
- ggplot2 ‘3.1.1‘
データセット一覧を得る
Base R datasets + ロードしているパッケージのデータセット
data()
Base R datasets + 全パッケージのデータセット
data(package = .packages(all.available = TRUE))
特定パッケージ(インストール済み)のデータセット
data(package = "tmap")
データセットを使う
Base R datasets のデータセットの場合、特別な操作は不要です。
head(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa 6 5.4 3.9 1.7 0.4 setosa
Base R datasets以外のデータセットの場合、data()を使います。
(以下の例では、tmapパッケージをロードしている場合、package引数は不要です)
data(NLD_prov, package = "tmap") library(ggplot2) ggplot(NLD_prov) + geom_sf() + labs(caption = "Data from Netherlands (CBS) and Kadaster Nederland") + theme_bw()

ただし、パッケージをロードするだけで、データセットが使える場合もあります。
library(ggplot2) diamonds
# A tibble: 53,940 x 10 carat cut color clarity depth table price x y z 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31 3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31 4 0.290 Premium I VS2 62.4 58 334 4.2 4.23 2.63 5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75 6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48 7 0.24 Very Good I VVS1 62.3 57 336 3.95 3.98 2.47 8 0.26 Very Good H SI1 61.9 55 337 4.07 4.11 2.53 9 0.22 Fair E VS2 65.1 61 337 3.87 3.78 2.49 10 0.23 Very Good H VS1 59.4 61 338 4 4.05 2.39 # ... with 53,930 more rows
データセットの情報を得る
データセットの情報は、helpで得られます。
(以下の例では、tmapパッケージをロードしている場合、package引数は不要です)
help(NLD_prov, package = "tmap")
おわりに
データセットの準備は意外に手間がかかります。
今回紹介したデータセット、ぜひ活用して下さい。
では。
—
YouTube: ミサキさん
問い合わせ先
Mail: caprico.aries@gmail.com
Twitter: https://twitter.com/caprico_aries(無言フォローもお気軽に)
コメント