PythonでもRのデータセットを使いたい

pydatasetを使えば、Rのデータセットが使えます。
Rのデータセットとは、例えば、irisやmtcarsなどのことです。

インストール方法

$ pip install pydataset

使い方

とても簡単です。

from pydataset import data
mtcars = data("mtcars")

データ構造はpandasのデータフレームです。

type(mtcars)
<class 'pandas.core.frame.DataFrame'>

カラム名などはRと同じになっているようです。

mtcars.head()
                    mpg  cyl   disp   hp  drat  ...    qsec  vs  am  gear  carb
Mazda RX4          21.0    6  160.0  110  3.90  ...   16.46   0   1     4     4
Mazda RX4 Wag      21.0    6  160.0  110  3.90  ...   17.02   0   1     4     4
Datsun 710         22.8    4  108.0   93  3.85  ...   18.61   1   1     4     1
Hornet 4 Drive     21.4    6  258.0  110  3.08  ...   19.44   1   0     3     1
Hornet Sportabout  18.7    8  360.0  175  3.15  ...   17.02   0   0     3     2

データセット一覧をみる場合はこちらです。

data()

参考:
GitHub – iamaziz/PyDataset: Instant access to many datasets in Python.

注意点

Rのデータセットそのままのようなので、カラム名にドット(.)を含むデータがある点かなと。

例えば、irisデータですね。

data("iris").head()
   Sepal.Length  Sepal.Width  Petal.Length  Petal.Width Species
1           5.1          3.5           1.4          0.2  setosa
2           4.9          3.0           1.4          0.2  setosa
3           4.7          3.2           1.3          0.2  setosa
4           4.6          3.1           1.5          0.2  setosa
5           5.0          3.6           1.4          0.2  setosa

Rではドットを文字の一つとして扱いますが、Pythonでは属性の参照という特別な意味がありますよね。

だから、カラム名にドットを含むデータを扱う場合は、カラム名を変更した方が良いかも知れません。

おわりに

PythonでRのデータセットを使う方法について説明しました。
上述のとおり、とても簡単に導入できるので、ぜひご利用下さい。

では。


YouTube: ミサキさん

問い合わせ先
Mail: caprico.aries@gmail.com
Twitter: https://twitter.com/caprico_aries(無言フォローもお気軽に)

コメント

タイトルとURLをコピーしました