pydatasetを使えば、Rのデータセットが使えます。
Rのデータセットとは、例えば、irisやmtcarsなどのことです。
インストール方法
$ pip install pydataset
使い方
とても簡単です。
from pydataset import data mtcars = data("mtcars")
データ構造はpandasのデータフレームです。
type(mtcars)
<class 'pandas.core.frame.DataFrame'>
カラム名などはRと同じになっているようです。
mtcars.head()
mpg cyl disp hp drat ... qsec vs am gear carb Mazda RX4 21.0 6 160.0 110 3.90 ... 16.46 0 1 4 4 Mazda RX4 Wag 21.0 6 160.0 110 3.90 ... 17.02 0 1 4 4 Datsun 710 22.8 4 108.0 93 3.85 ... 18.61 1 1 4 1 Hornet 4 Drive 21.4 6 258.0 110 3.08 ... 19.44 1 0 3 1 Hornet Sportabout 18.7 8 360.0 175 3.15 ... 17.02 0 0 3 2
データセット一覧をみる場合はこちらです。
data()
参考:
GitHub – iamaziz/PyDataset: Instant access to many datasets in Python.
注意点
Rのデータセットそのままのようなので、カラム名にドット(.)を含むデータがある点かなと。
例えば、irisデータですね。
data("iris").head()
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa
Rではドットを文字の一つとして扱いますが、Pythonでは属性の参照という特別な意味がありますよね。
だから、カラム名にドットを含むデータを扱う場合は、カラム名を変更した方が良いかも知れません。
おわりに
PythonでRのデータセットを使う方法について説明しました。
上述のとおり、とても簡単に導入できるので、ぜひご利用下さい。
では。
—
YouTube: ミサキさん
問い合わせ先
Mail: caprico.aries@gmail.com
Twitter: https://twitter.com/caprico_aries(無言フォローもお気軽に)
コメント