【Python】Scikit-learnとは活用事例を紹介

2024年10月12日2024年10月16日

URLをコピーしました！

昨今の生成AIのブームにより、機械学習は、注目されている分野です。

今回は、その機械学習の分野で使用するライブラリである、Scikit-learnを紹介します。

skit-learnとは

Scikit-learnは、Pythonで利用できる機械学習ライブラリです。

最もよく使われている機会学習ライブラリのひとつです。

シンプルなAPIなので、初学者にも扱いやすいライブラリとなっています。

skit-learnの主な特徴

Scikit-learn の主な特徴は、以下の3点です。

豊富な機械学習アルゴリズム
Scikit-learnは、多くの機械学習アルゴリズムを簡単に利用できるようにパッケージ化しています
オープンソース
Scikit-learnは、オープンソースです。コミュニティにより日々改良が行われています
ドキュメントが優れている
Scikit-learnは、公式ドキュメントが充実しています。ぜひ目を通してください

インストール

pipを使用し、インストールすることが一般的です。

pip install scikit-learn

scikit-learnのほかに依存関係があるNumpyやSciPyがインストールされます。

インポート

scikit-learnはsklearnでインポートすることができます。

import sklearn

ただし、実際のコードでscikit-learnをインポートするときは、

必要なモジュール個別にインポートして使用します。

以下は、scikit-learnのdatasetをインポートする方法です。

form sklearn.datasets import load_iris

活用事例

実際の機械学習手順において、Scikit-learnを使用する方法を紹介します。

データセットの準備

データセットの準備もScikit-learnで可能です。

以下は、irisのデータセットを使用するときのサンプルコードです。

from sklearn.datasets import load_iris

# データの読み込み
iris = load_iris()

irisの他には、digits(手書き数字)、wine(ワイン品質分類)などがあります。

データ分割

次に上記で準備したデータを訓練用とテスト用に分割します。機械学習のモデルに読み込む用の訓練データと、そのモデルが実際に問題なく動作しているかを確認する用のテストデータに分割しておく必要があります。

こちらもScikit-learnで操作可能です。

デフォルトでは、75:25（訓練:テスト）の割合で分割してくれます。

from sklearn.model_selection import train_test_split

# データをトレーニング用とテスト用に分割
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3)

モデルの作成と訓練

データの準備完了後、機械学習のモデルを作成します。もちろんモデルの作成にもScikit-learnを使用します。モデルの作成後は、モデルを訓練します。

from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# モデルの作成と訓練
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

# 予測と評価
predictions = clf.predict(X_test)

このように機械学習の分野では、Scikit-learnを非常に多く使用します。