【2021信州大学・第1問】
以下の問いに答えよ.
(1) \(2\) つの変量 \(x\),\(y\) のデータが,\(5\) 個の \(x\),\(y\) の値の組として次のように与えられているとする.
\(x\) | \(12\) | \(14\) | \(11\) | \(8\) | \(10\) |
\(y\) | \(11\) | \(12\) | \(14\) | \(10\) | \(8\) |
\(x\) と \(y\) の相関係数を求めよ.
(2) \(20\) 個の値からなるデータがある.そのうちの \(15\) 個の値の平均値は \(10\) で分散は \(5\) であり,残りの \(5\) 個の値の平均値は \(14\) で分散は \(13\) である.このデータの平均値と分散を求めよ.
データの分析:基本公式の確認・まとめ
平均値
変量 \(x\) についてのデータが \(n\) 個の値 \(x_{1}\) , \(x_{2}\) , \(\cdots\) , \(x_{n}\) であるとき,それらの総和を \(n\) で割ったものを,データの 平均値 といい, \(\overline{x}\) で表す.
中央値,最頻値
データを値の大きさの順に並べたとき,中央の位置にくる値を,データの中央値(メジアン)という.
《例①》データが奇数個の場合
「データ:10 , 12 , 15 , 17 , 18 」の中央値は,「 15 」となる.
《例②》データが偶数個の場合
「データ:10 , 12 , 15 , 17 , 18 , 20 」の中央値は,15 と 17 の平均値をとった「 16 」となる.
データにおいて,最も個数の多い値を,そのデータの最頻値(モード)という.
分散と標準偏差
変量 \(x\) についてのデータが \(n\) 個の値 \(x_{1}\) , \(x_{2}\) , \(\cdots\) , \(x_{n}\) であるする.
また,\(n\) 個の値 \(x_{1}\) , \(x_{2}\) , \(\cdots\) , \(x_{n}\) の平均値を \(\overline{x}\) とするとき,
この値 \(s^2\) を分散という.また,\(\sqrt{s^2}\) を \(s\) で表し,標準偏差という.
と式変形することもできる.(証明は省略)
共分散と相関係数
\(2\) つの変量 \(x\) , \(y\) のデータが \(n\) 個の \(x\) , \(y\) の値の組として
\(( x_{1} , y_{1} )\) , \(( x_{2} , y_{2} )\) , \(\cdots\) , \(( x_{n} , y_{n} )\) のとき,
解答・解説
(1) \(x\) と \(y\) の相関係数
\(x\) | \(12\) | \(14\) | \(11\) | \(8\) | \(10\) |
\(y\) | \(11\) | \(12\) | \(14\) | \(10\) | \(8\) |
データ \(x\) の平均値は
\(\overline{x}=\displaystyle\frac{1}{5}(12+14+11+8+10)=11\)
データ \(y\) の平均値は
\(\overline{y}=\displaystyle\frac{1}{5}(11+12+14+10+8)=11\)
\(x\) の分散は
\(s_{x}^2=\displaystyle\frac{1}{5}\left\{(12-11)^2+(14-11)^2+(11-11)^2+(8-11)^2+(10-11)^2\right\}=4\)
\(y\) の分散は
\(s_{y}^2=\displaystyle\frac{1}{5}\left\{(11-11)^2+(12-11)^2+(14-11)^2+(10-11)^2+(8-11)^2\right\}=4\)
よって,\(x\),\(y\) の標準偏差は \(s_{x}=s_{y}=2\)
次に,\(x\),\(y\) の共分散は
\(s_{xy}=\displaystyle\frac{1}{5}\left\{(12-11)(11-11)+(14-11)(12-11)\\+(11-11)(14-11)+(8-11)(10-11)+(10-11)(8-11)\right\}=\displaystyle\frac{9}{5}\)
したがって相関係数は,
\(r=\displaystyle\frac{s_{xy}}{s_{x}s_{y}}=\displaystyle\frac{\frac{9}{5}}{2\times 2}=\displaystyle\frac{9}{20}=0.45\)
(2)
このデータの平均値は
\(\displaystyle\frac{1}{20}\left(15\times 10+5\times 14\right)=\)\(11\)
また,データ \(a\) の平均を \(\overline{a}\),分散を \(s_{a}^2\) とすると
\(s_{a}^2=\overline{a^2}-\left(\overline{a}\right)^2\) より
平均値 \(10\) ,分散 \(5\) である \(15\) 個のデータを \(x\) とすると
\(5=\overline{x^2}-10^2\) \(\iff\) \(\overline{x^2}=105\)
平均値 \(14\) ,分散は \(13\) である残りの \(5\) 個のデータを \(y\) とすると
\(13=\overline{y^2}-14^2\) \(\iff\) \(\overline{y^2}=209\)
よって,\(20\) 個のデータ \(2\) 乗の平均は
\(\displaystyle\frac{1}{20}\left(105\times 15+209\times 5\right)=131\)
したがって求める分散は
\(131-11^2=\)\(10\)
コメント