今回は、pairplot
の基本的な使い方から、カスタマイズ方法までを紹介し、Pythonコードの例を交えながら説明します。
pairplotの使い方
pairplot
はデータをペアごとに散布図で出力し、データの相関関係を一目で把握できます。
基本的な使い方は以下の通りです。
# seabornをインポート
import seaborn as sns
# データセットをロード
iris = sns.load_dataset('iris')
# pairplotを作成
sns.pairplot(iris)
まずはpairplot
を使用するために、seaborn
をインポートします。
seabornについて詳しく知りたい方はこちら
続いて、pairplot
で可視化したいデータセットをロードします。
今回は、irisのデータセットを使用します。
irisは、機械学習や統計学の分野でサンプルデータとして使用されるデータセットです。
データセットのあとは、実際にpairplotを作成します。
実行結果は以下です。
データ量が多いので、処理に時間がかかることがあります。
pairplotをカスタマイズ
pairplot
の基本的な使い方の次は、pairplot
をカスタマイズする方法を紹介します。
カテゴリごとに色分け
pairplotをカテゴリごとに色分けするには、hue
パラメータを使用します。
hue
パラメータにカテゴリを選択するだけで、簡単に色分けしてくれます。
今回の例だと、カテゴリにspecies
を指定すると、
species
内のデータ(setosa、versicolor、virginica)ごとに色分けしてくれます。
サンプルコードは以下の通りです。
import seaborn as sns
# データセットをロード
iris = sns.load_dataset('iris')
# 種類(species)に基づいて色分け
sns.pairplot(iris, hue='species')
実行結果
対角線上のグラフを変更する
対角線のグラフを変更するには、diag_kind
パラメータを使用します。
diag_kind
には以下のオプションがあります。
hist
: ヒストグラム
kde
: カーネル密度推定
サンプルコードはkde
を表示してみます。
import seaborn as sns
# データセット
iris = sns.load_dataset('iris')
# カーネル密度推定で対角要素を表示
sns.pairplot(iris, diag_kind='kde')
実行結果
データの指定
これまではiris
のデータフレームをすべて表示してきました。
必要なカラムだけをpairplot
することもできます。
import seaborn as sns
# データセット
iris = sns.load_dataset('iris')
# 必要なカラムだけをpairplot
sns.pairplot(iris[['sepal_length', 'sepal_width']]
実行結果
sepal_length
とsepal_width
のみを表示してみました!
まとめ
今回は、pairplot
の基本的な使い方から、カスタマイズ方法までを紹介しました。
pairplot
はデータ間の関係を可視化する非常に便利なツールです。
ぜひpairplot
をマスターしてみてください!
ここまで読んでくださりありがとうございます。
参考
おすすめ教材
米国データサイエンティストがやさしく教えるデータサイエンスのためのPython講座 【世界で55万人が受講】データサイエンティストを目指すあなたへ〜データサイエンス25時間ブートキャンプ〜他のUdemyの講座が気になる方はこちら