【Python】NumPyで統計量を取得する方法

  • URLをコピーしました!

NumPyは簡単に統計量を取得することができます。

今回はその方法を紹介します。

目次

統計量とは

統計量とはデータの特徴を表す指標のことです。

統計量は以下の2つから構成されます。

  • 代表値(最小値、最大値、平均値、中央値など)
  • 散布度(分散、標準偏差など)

上記の統計量について、NumPyで取得する方法を紹介していきます!

代表値

代表値は、データ全体を表す値のことです。

代表値には、最小値、最大値、平均値、中央値などがあります。

それでは、それぞれについて取得方法を紹介します!

最小値の取得方法

最小値とは、データの中で最も小さい値のことです。

NumPyで最小値を取得する方法は以下の通りです。

import numpy as np

data = np.array([19, 49, 47, 31,  8])

# 配列dataの最小値を取得
min_data = np.min(data)
print(min_data)

実行結果

8

配列dataの最小値8を取得できました!

最大値の取得方法

最大値とは、データの中で最も大きい値のことです。

NumPyで最大値を取得する方法は以下の通りです。

import numpy as np

data = np.array([19, 49, 47, 31,  8])

# 配列dataの最大値を取得
max_data = np.max(data)
print(max_data)

実行結果

49

配列dataの最大値49を取得できました!

平均値の取得方法

平均値とは、すべてのデータの値の合計をデータの総数で割った値のことです。

NumPyで平均値を取得する方法は以下の通りです。

import numpy as np

data = np.array([19, 49, 47, 31,  8])

# 配列dataの平均値を取得
mean_data = np.mean(data)
print(mean_data)

実行結果

30.8

配列dataの平均値30.8を取得できました!

中央値の取得方法

中央値とは、データを大小に並べたときに真ん中の値のことです。

NumPyで中央値を取得する方法は以下の通りです。

import numpy as np

data = np.array([19, 49, 47, 31,  8])

# 配列dataの中央値を取得
median_data = np.median(data)
print(median_data)

実行結果

31.0

配列dataの中央値31.0を取得できました!

散布度

散布度とは、データの値がどれだけ散らばっているかを表す値のことです。

散布度には、分散、標準偏差などがあります。

それぞれの取得方法について紹介していきます!

分散の取得方法

分散とは、データが平均からの散らばり具合を表した値のことです。

NumPyで分散を取得する方法は以下の通りです。

import numpy as np

data = np.array([19, 49, 47, 31,  8])

# 配列dataの分散を取得
variance = np.var(data)
print(variance)

実行結果

250.56

配列dataの分散を取得できました!

標準偏差の取得方法

標準偏差とは、分散の平方根です。

NumPyで標準偏差を取得する方法は以下の通りです。

import numpy as np

data = np.array([19, 49, 47, 31,  8])

# 配列dataの標準偏差を取得
std = np.std(data)
print(std)

実行結果

15.829087149927503

配列dataの標準偏差を取得できました。

まとめ

NumPyで統計量を取得する方法を紹介しました。

統計量はデータ分析をするうえで欠かせない値です。

上記で紹介したように、NumPyの関数を使えば、簡単に取得可能です。

ぜひ覚えていきましょう!

ここまで読んでくださりありがとうございます!

よかったらシェアしてね!
  • URLをコピーしました!

この記事を書いた人

エンジニア。20代。組み込みエンジニアとして働き始めるも、働き方や業務内容に限界を感じ、 AI,Web3エンジニアを目指して勉強中。 エンジニアとして思うことや、学んだことを発信します。

目次