昨今の生成AIのブームにより、機械学習は、注目されている分野です。
今回は、その機械学習の分野で使用するライブラリである、Scikit-learnを紹介します。
skit-learnとは
Scikit-learnは、Pythonで利用できる機械学習ライブラリです。
最もよく使われている機会学習ライブラリのひとつです。
シンプルなAPIなので、初学者にも扱いやすいライブラリとなっています。

skit-learnの主な特徴
Scikit-learn の主な特徴は、以下の3点です。
- 豊富な機械学習アルゴリズム
Scikit-learnは、多くの機械学習アルゴリズムを簡単に利用できるようにパッケージ化しています - オープンソース
Scikit-learnは、オープンソースです。コミュニティにより日々改良が行われています - ドキュメントが優れている
Scikit-learnは、公式ドキュメントが充実しています。ぜひ目を通してください
インストール
pip
を使用し、インストールすることが一般的です。
pip install scikit-learn
scikit-learnのほかに依存関係があるNumpyやSciPyがインストールされます。
インポート
scikit-learnはsklearn
でインポートすることができます。
import sklearn
ただし、実際のコードでscikit-learnをインポートするときは、
必要なモジュール個別にインポートして使用します。
以下は、scikit-learnのdatasetをインポートする方法です。
form sklearn.datasets import load_iris
活用事例
実際の機械学習手順において、Scikit-learnを使用する方法を紹介します。
データセットの準備
データセットの準備もScikit-learnで可能です。
以下は、iris
のデータセットを使用するときのサンプルコードです。
from sklearn.datasets import load_iris
# データの読み込み
iris = load_iris()
iris
の他には、digits
(手書き数字)、wine
(ワイン品質分類)などがあります。
データ分割
次に上記で準備したデータを訓練用とテスト用に分割します。機械学習のモデルに読み込む用の訓練データと、そのモデルが実際に問題なく動作しているかを確認する用のテストデータに分割しておく必要があります。
こちらもScikit-learnで操作可能です。
デフォルトでは、75:25(訓練:テスト)の割合で分割してくれます。
from sklearn.model_selection import train_test_split
# データをトレーニング用とテスト用に分割
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3)
モデルの作成と訓練
データの準備完了後、機械学習のモデルを作成します。もちろんモデルの作成にもScikit-learnを使用します。モデルの作成後は、モデルを訓練します。
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
# モデルの作成と訓練
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)
# 予測と評価
predictions = clf.predict(X_test)
このように機械学習の分野では、Scikit-learnを非常に多く使用します。
まとめ
Scikit-learnについて紹介しました。
Scikit-learnは機械学習の分野で多く使用します。
非常に使いやすく、初心者にも優しいライブラリなっています。
ここまで読んでくださりありがとうございます。