ハイパーパラメータチューニング | モデルの評価と改善

INDEX

ハイパーパラメータチューニング（グリッドサーチとランダムサーチ）

ハイパーパラメータチューニング（グリッドサーチとランダムサーチ）

ハイパーパラメータチューニングは、機械学習モデルの性能を最大限に引き出すために重要なステップです。ハイパーパラメータは、モデルのトレーニング中に自動的に学習されない設定値のことを指し、正しいハイパーパラメータの組み合わせを見つけることで、モデルの性能が大きく改善されることがあります。本記事では、ハイパーパラメータチューニングの一般的な方法であるグリッドサーチとランダムサーチを紹介し、Pythonでの実装例を示します。

ハイパーパラメータとは？

ハイパーパラメータは、トレーニングデータから直接学習されないが、モデルのパフォーマンスに大きな影響を与えるパラメータです。代表的なハイパーパラメータには、決定木の深さや学習率、サポートベクターマシン（SVM）の正則化パラメータなどがあります。

ハイパーパラメータの例

モデル	ハイパーパラメータ	説明
決定木	max_depth	木の深さを制限します
SVM	C	正則化パラメータ
ランダムフォレスト	n_estimators	決定木の数を指定します

グリッドサーチとは？

グリッドサーチは、あらかじめ定義したハイパーパラメータのすべての組み合わせを試し、その中で最適な組み合わせを見つける方法です。すべての組み合わせを試すため、精度が高い結果を得られる可能性が高い一方で、計算コストが非常に高くなる場合があります。

グリッドサーチの実装例

以下の例では、グリッドサーチを用いてランダムフォレストのハイパーパラメータをチューニングしています。

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.datasets import load_iris

# データのロード
data = load_iris()
X = data.data
y = data.target

# モデルのインスタンス化
model = RandomForestClassifier()

# ハイパーパラメータの候補
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10]
}

# グリッドサーチの実行
grid_search = GridSearchCV(model, param_grid, cv=5)
grid_search.fit(X, y)

# 結果の表示
print("最適なハイパーパラメータ:", grid_search.best_params_)

このコードでは、`GridSearchCV`を使ってランダムフォレストのハイパーパラメータを最適化しています。`param_grid`にハイパーパラメータの候補を指定し、すべての組み合わせを試しています。

ランダムサーチとは？

ランダムサーチは、グリッドサーチの代替としてよく使用される手法で、ハイパーパラメータの候補の中からランダムにいくつかの組み合わせを試す方法です。すべての組み合わせを試さないため、計算コストを抑えながら、グリッドサーチと同程度の性能が期待できることがあります。

ランダムサーチの実装例

以下の例では、ランダムサーチを用いてランダムフォレストのハイパーパラメータをチューニングしています。

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import RandomizedSearchCV
from sklearn.datasets import load_iris
import numpy as np

# データのロード
data = load_iris()
X = data.data
y = data.target

# モデルのインスタンス化
model = RandomForestClassifier()

# ハイパーパラメータの候補
param_dist = {
    'n_estimators': np.arange(50, 200, 10),
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': np.arange(2, 11)
}

# ランダムサーチの実行
random_search = RandomizedSearchCV(model, param_distributions=param_dist, n_iter=20, cv=5)
random_search.fit(X, y)

# 結果の表示
print("最適なハイパーパラメータ:", random_search.best_params_)

このコードでは、`RandomizedSearchCV`を使ってランダムフォレストのハイパーパラメータをランダムにサンプリングしています。`n_iter=20`としているため、20回のランダムな組み合わせを試して最適なハイパーパラメータを見つけます。

グリッドサーチとランダムサーチの比較

グリッドサーチとランダムサーチには、それぞれのメリットとデメリットがあります。以下に比較をまとめました。

手法	メリット	デメリット
グリッドサーチ	すべてのパラメータの組み合わせを試すため、最適解が見つかりやすい	計算コストが非常に高くなる可能性がある
ランダムサーチ	計算コストを抑えつつ、良好な結果が期待できる	最適解を見逃す可能性がある

手法

メリット

デメリット

グリッドサーチ

すべてのパラメータの組み合わせを試すため、

最適解が見つかりやすい

計算コストが非常に高くなる可能性がある

ランダムサーチ

計算コストを抑えつつ、良好な結果が期待できる

最適解を見逃す可能性がある

まとめ

ハイパーパラメータチューニングは、モデルの性能を最大限に引き出すために非常に重要です。グリッドサーチとランダムサーチは、どちらもハイパーパラメータの探索に有効な手法ですが、計算コストや探索の精度によって選択する必要があります。実際のプロジェクトでは、モデルの複雑さやデータの量に応じて最適な方法を選ぶことが重要です。