NumPyは簡単に統計量を取得することができます。
今回はその方法を紹介します。
統計量とは
統計量とはデータの特徴を表す指標のことです。
統計量は以下の2つから構成されます。
- 代表値(最小値、最大値、平均値、中央値など)
- 散布度(分散、標準偏差など)
上記の統計量について、NumPyで取得する方法を紹介していきます!
代表値
代表値は、データ全体を表す値のことです。
代表値には、最小値、最大値、平均値、中央値などがあります。
それでは、それぞれについて取得方法を紹介します!
最小値の取得方法
最小値とは、データの中で最も小さい値のことです。
NumPyで最小値を取得する方法は以下の通りです。
import numpy as np
data = np.array([19, 49, 47, 31, 8])
# 配列dataの最小値を取得
min_data = np.min(data)
print(min_data)
実行結果
8
配列data
の最小値8
を取得できました!
最大値の取得方法
最大値とは、データの中で最も大きい値のことです。
NumPyで最大値を取得する方法は以下の通りです。
import numpy as np
data = np.array([19, 49, 47, 31, 8])
# 配列dataの最大値を取得
max_data = np.max(data)
print(max_data)
実行結果
49
配列data
の最大値49
を取得できました!
平均値の取得方法
平均値とは、すべてのデータの値の合計をデータの総数で割った値のことです。
NumPyで平均値を取得する方法は以下の通りです。
import numpy as np
data = np.array([19, 49, 47, 31, 8])
# 配列dataの平均値を取得
mean_data = np.mean(data)
print(mean_data)
実行結果
30.8
配列data
の平均値30.8
を取得できました!
中央値の取得方法
中央値とは、データを大小に並べたときに真ん中の値のことです。
NumPyで中央値を取得する方法は以下の通りです。
import numpy as np
data = np.array([19, 49, 47, 31, 8])
# 配列dataの中央値を取得
median_data = np.median(data)
print(median_data)
実行結果
31.0
配列data
の中央値31.0
を取得できました!
散布度
散布度とは、データの値がどれだけ散らばっているかを表す値のことです。
散布度には、分散、標準偏差などがあります。
それぞれの取得方法について紹介していきます!
分散の取得方法
分散とは、データが平均からの散らばり具合を表した値のことです。
NumPyで分散を取得する方法は以下の通りです。
import numpy as np
data = np.array([19, 49, 47, 31, 8])
# 配列dataの分散を取得
variance = np.var(data)
print(variance)
実行結果
250.56
配列data
の分散を取得できました!
標準偏差の取得方法
標準偏差とは、分散の平方根です。
NumPyで標準偏差を取得する方法は以下の通りです。
import numpy as np
data = np.array([19, 49, 47, 31, 8])
# 配列dataの標準偏差を取得
std = np.std(data)
print(std)
実行結果
15.829087149927503
配列data
の標準偏差を取得できました。
まとめ
NumPyで統計量を取得する方法を紹介しました。
統計量はデータ分析をするうえで欠かせない値です。
上記で紹介したように、NumPyの関数を使えば、簡単に取得可能です。
ぜひ覚えていきましょう!
ここまで読んでくださりありがとうございます!