センター試験2020年度 数IA 第2問[2](1)四分位数・分散

文系のための数学

東進ハイスクールさんの2020年度センター試験解説サイト

ヒント1:四分位数とは

一言でいうと、複数データの集合体をざっくり4等分して全体の傾向を掴むための
指標ということです。

一例を挙げて説明しましょう。あるクラスで15名の生徒が数学の定期テストを受けて、
その結果が上記の通りだったとします。まず四分位数を求めるために、全体を点数順に
並べ替えたのが下表です。

これらを4つのグループに分けて分析します。4つのグループに分ける、ということは
グループの区切りが3カ所あるということは分かりますね。これらの区切りを下位から順に
0~25%、25~50%、50~75%、75~100%の4つのグループに分けた時
その区切りに来る人の得点が第1/第2/第3四分位数と言います。
分かり易い考え方としては、まず真ん中(第2四分位数)を求めて2グループに分けて、
次に2グループのそれぞれ真ん中(第1、第3四分位数)を求めるのが良いと思います。
つまり上位と下位が同数の7人居る人=8位Fさんの65点が第2四分位数。次に
8~15位の7名の真ん中、12位Eさんの50点が第1四分位数。最後に1~7位の
7名の真ん中、4位Iさんの75点が第3四分位数となります。文章だと分かりにくいので
表に追記すると下の通りです。

ちなみに今回は全体が15人なのでIさん、Fさん、Eさんの得点がそのまま四分位数に
なりましたが、もう1名居た場合はどうなるでしょうか?例えば1名カンニングで失格に
なり0点になったPさんも含めて全体が16人だったとします。

仮に16人だった時の四分位数の決め方

対象人数(データ数)が偶数の場合はちょうど真ん中の人が居ないので、
2つのデータの平均値が四分位数となります。上表を見て、四分位数の上下に
それぞれ同じ人数(4人)が居ることを確認してください。

ここまできて少し混乱してきている人も居るかと思います。その理由は
①生データ(テストの得点)②生徒の人数(15人)③テスト結果順位(1~16位)
④四分位(25~50%など)の4つの数が存在しているからです。
しかしここで重要なのは①生データであって、他は補足の位置づけであることを
しっかり理解してください。あくまでも分析しているのは得点データの集団
あり、低い得点から高い得点の順に並べて分類していることを常に意識しておけば
理解がボヤけることはないと思います。

しかし思うのは何故「四分位」などという普段の生活では絶対に使わない言い方を
するんでしょうね。例えば「第1四分位」だったら「4等分して一番数値が低い
グループを決める値」と読み替えたほうが分かり易いと思います。この辺は自分なりに理解し易い言い換えを考えてみてください。

次に四分位範囲を求めます。要は25%~75%の範囲を求めるということです。
この値が大きいほどクラスの実力差が大きい、ということになります。
※グループ全体数は当初の15人を前提にして進めます。
(四分位範囲) = (第3四分位数)-(第1四分位数)
        = (3番目に数値が低いグループを決める値)-
             (1番目に数値が低いグループを決める値)
        = (Iさんの得点75)-(Eさんの得点50)
        = 25

四分位偏差は四分位範囲の半分になります。偏差というのは中心値に対して
どれくらい差があるか、という意味なので、25%~75%の範囲を半分に
すれば25%の人、75%の人が真ん中の人から大体どれくらい離れているか
を表すことができます。
(四分位偏差)=(四分位範囲)/2=12.5

実際には上位75%の人は真ん中の人に対し10点差しかありませんが、
テストのおおよその傾向を掴むには有効な指標といえます。

ヒント2:データ数が多い場合の四分位数は何番目か

上記のように15人程度の場合は全て表にできるので問題ありませんが、仮にデータが
1000個あった場合の四分位数は何番目か、と聞かれると困りますよね。
このときは下記の順番で考えると分かり易いです。

まず1000個は偶数です。つまり全体を2つのグループに分けた時、
500個ずつのグループになり、真ん中の値は存在しません。

また、1001個のように奇数のデータ数の場合は真ん中の値が存在します。
これも文章だと分かりにくいので下表をみてください。

上のようにまず真ん中で2つに分けて、次に下位グループを分け、最後に上位
グループを分けると理解しやすいです。1001個データ時の上位グループが
一番悩むところですが、1~250番目で250個なら502~751番目で
250個、というのはスッと理解できるかと思います。(1の位に注目)

正答と解説

問題の聞き方が「どのようなデータでも成り立つ」と言っているので、
成り立たない極端な具体例を考えていった方が早いとまず考えます。
一般的にどのような場合でも成り立つかを検証する方が時間が掛かるので。

【⓪平均値は第1四分位数と第3四分位数の間にある】

データが99個あるという前提なので、例えば98個まで0で99個目だけ
99であるデータを挙げてみましょう。すると平均値は1となります。
しかし98個まで0ということは第1四分位数も第3四分位数も0なので、
平均値は第1四分位数と第3四分位数までの間には無いですね。
従って⓪はどのようなデータでも成り立ちません

【①四分位偏差は標準偏差より大きい】

ここで分散の用語、標準偏差が出てきましたね。

ちなみに何故分散は各データと平均値の差を2乗するのか?というと、
単に各データと平均値の差を合計していくと必ず0になってしまうからです。
例えば上の例で考えると平均値は1なので、各データと平均値の差は
(-1、-1、・・・・・・・・・、-1、98)
これを合計すると0になってしまいますね。平均値の算出方法を考えると
当然と言えば当然です。なので2乗することにより、平均値から離れるデータ
ほど分散の値が極端に大きくなるようにしているのです。従って

四分位偏差は0-0=0なので①はどのようなデータでも成り立ちません

【②中央値より小さい観測値の個数は49個である】

これも先ほどの例で考えると、中央値は0でそれより小さい観測値はないので
②はどのようなデータでも成り立ちません

【③最大値に等しい観測値を1個削除しても第1四分位数は変わらない】

データが99個ある時の第1四分位数は何番目のデータでしょうか?
奇数個のデータなので49個+(第2四分位数)+49個となり、
前半49個のデータは24個+(第1四分位数)+24個となるので
第1四分位数は25番目のデータとなります。
次にデータが98個に減った時の第1四分位数は、偶数個のデータなので
49個+49個に分かれて、49番目と50番目の平均値。
次に49個のデータは24個+(第2四分位数)+24個となり、
第1四分位数は25番目のデータとなります。
つまりいずれの場合も25番目のデータが第2四分位数となるので、
③はどのようなデータでも成り立ちます

【④第1四分位数より小さい観測値と、第3四分位数より大きい観測値とを
すべて削除すると、残りの観測値の個数は51個である】

先ほどの98個まで0で99個目が99であるデータで考えると、第1四分位数は
0であり、それより小さい観測値はありません。また、第3四分位数は0なので、
それよりも大きい観測値は99のみとなります。つまり98個目までの0は全て
残るため51個にはなりません。従って④は全てのデータで成り立ちません

【⑤第1四分位数より小さい観測値と、第3四分位数より大きい観測値とを
すべて削除すると、残りの観測値からなるデータの範囲は元のデータの
四分位範囲と等しい】

これ、削除して残ったデータは必ず最小値が第1四分位数と同じで、最大数も
必ず第3四分位数と同じになるので、データの範囲は元のデータと一致します。
従って⑤は全てのデータで成り立ちます

基礎から見直したい項目がある時はスタディサプリがオススメです。

ドラゴン桜でおなじみ
英語も大事だよ~
タイトルとURLをコピーしました