奈良県立医科大学 保健統計学I2025
(医学部看護学科)
課題提出
課題提出のフォームはコチラから
提出期限は授業日の翌日の午前9時59分59秒迄とする
メールアドレスは所属機関で付与されているものを記入のこと(課題の内容は当該メール宛にコピーが送信されます)
講義後記はコチラをクリックしてください
2025年度開講にあたって
https://medbb.net/education/2025init/
授業メニュー
第01回 記述統計(1)尺度とデータ形式,度数分布,ヒストグラム第02回 記述統計(2)代表値・散布度・箱ひげ図
第03回 推測統計(1)点推定
第04回 推測統計(2)平均値の区間推定(1)(正規分布)
第05回 推測統計(3)平均値の区間推定(2)(標準誤差)
第06回 推測統計(4)平均値の区間推定(3)(t分布)
第07回 推測統計(5)平均値の検定
第08回 まとめ
第01回 記述統計(1)尺度・度数分布・ヒストグラム
教科書12章A1~5,14章A1~2
記述統計と推測統計
記述統計とは
・収集したデータを要約してその集団の状況を表す・そこにあるデータは全体(母集団)
・度数(分布)・代表値・散布度・相関係数など
推測統計とは
事象の起こる確率を仮定した上で全体(過去・現在だけではなく未来も含む)を推測する。推定と検定に分類される。推定とは
・収集したデータを基にしてその集団の状況を表す・そこにあるデータは一部(標本)
・点推定・区間推定・モデリング
検定とは
・収集したデータを基にしてその集団の状況を仮定に従ってyes/Noで判断する・そこにあるデータは一部(標本)
・t検定・カイ二乗検定など
尺度
ものさし の 話ではなく 対象とするデータの特性について分類したものデータ
一般にはデータ,情報,知識などまとめて「情報」と呼ばれるケースが多い
データに意味を付与することで情報となるが,騙されたりして不適切な意味を付与してしまうと大変なことになる
情報が知識構造体に取り込まれれば,そのものが大きく複雑なものになっていく.
無論知識においても,不適切な意味を付与された情報が基となっているとややこしいことになる.
4つの尺度
世の中のデータを4つの種類で説明できる1名義尺度
2順序尺度
3間隔尺度
4比尺度(比例)(比率)
1,2を質的変量(定性的)ともいう
3,4を量的変量(定量的)ともいう
性質としては上位互換性があり
4>3>2>1
間隔尺度と比尺度との見分け方
データ自身が負の値をとることが想定されるものは間隔尺度(引き算などで便宜上マイナスになるものはデータ自身によるものではない)天気予報での摂氏温度(℃)の話をどのようにされているのか(過去に一回だけビックリしたことがあるけど)

例題1-1)
以下の文章中の下線部の尺度を示せ折角の(1)日曜日【月曜日,火曜日】,天気も(2)晴【曇,雨】なので車に乗って(3)奈良駅【郡山駅,畝傍駅】までドライブ.
昼食はハンバーガーチェーン店でチーズバーガーとポテトを購入,ドリンクは(4)Lサイズ【Mサイズ,Sサイズ】を選ぶ
昼食後車を走らせるがガソリンが少ないので(5)35リットル【20リットル,5リットル】ほど給油.
無事目的地に到着し駐車場から外に出るとなにやら(6)少し寒い【温かい,熱い】,確かに気温を見ると(7)12℃【10℃,8℃】と先程よりも低い
なので上着を買って帰ることにした.丁度バーゲンセールをやっている.値段は(8)3980円【2980円1980円】,(9)凄く良い【まぁまぁ良い,少し残念な】ものを買うことが出来ました.
度数
どのようなデータであっても度数を求めることができるしかも求めた度数は,対象としたデータの尺度に関係なく比尺度として取り扱うことができる
(度数は絶対的な原点を持っているので+-×÷全てOK)
例題1-2)
以下の40名の血液型データについて度数を求めよ
度数分布表
表にすることで,全体の状況が把握しやすくなるそれぞれのデータの度数(出現頻度)をまとめたもの
名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数 ・・・出現頻度
相対度数・・・総出現頻度を1(100%)としたときのそのぞれの度数のしめる割合
(名称) | 度数 | 相対度数 |
---|---|---|
計 | 1.00 |
例題1-3)
例題1-2)で求めた血液型別度数より度数分布表を作成せよ量的変量の度数分布表の注意点
例えば身長を0.1cm単位で測定して度数分布表を作成しようとしたとき,全て度数は1で全体の状況の把握が出来ないケースがあるその場合ある程度の区間を設けて度数を求める
量的変数の場合はその数値だけで度数を積み上げようにもなかなか上手くいかない場合がある.
「A~B」は「A以上B未満」と読む格好がスタンダードと思っていますが,分野などによって違うようです 「A以上B以下」のようにどちらの階級にも属してしまう可能性のある設定はしないように. この授業では「A以上B未満」として取り扱う |
階級 | 階級値 | 度数 | 相対度数 |
---|---|---|---|
130~140 | 135 | ||
140~150 | 145 | ||
150~160 | 155 | ||
160~170 | 165 | ||
170~180 | 175 | ||
計 |
例題1-4)
あるクラスの生徒の身長を計測したところ以下のような結果が得られた.度数分布表を作成せよ
グラフ
度数を直接示すものだけではなく,割合を示すものや,時間変化を示すものまである度数分布図
度数分布表を棒グラフにしたもの質的変数
縦棒グラフ
量的変数
ヒストグラム
棒の間隔が無いのは値が連続している状態であるが故
普通の棒グラフは棒の長さが度数を示すが,ヒストグラムは棒の面積が度数を示す
「階級の幅を等しくすること」と説明している場合があるが,それは幅が変わると高さが変わる故で,実際にはそのような区間設定はよくある |
ヒストグラムーなるほど統計学園(総務省統計局) https://www.stat.go.jp/naruhodo/4_graph/shokyu/histogram.html |
箱ひげ図

箱ひげ図は度数の分布の状況を四分位数を用いて示す
円グラフ
・個別の度数の全体に対する割合を円の角度で示したもの・項目間の比較において特定の項目同士の比較には効果的だが,多項目の比較になるとわかりにくい


・度数の表現には適さない
帯グラフ
棒グラフ(積み上げ)の高さを揃えて割合を比較したもの
円グラフと比べて項目が多くても把握しやすい
折れ線グラフ
変化の傾向をとらえるのに有効東京都年齢階級別新型コロナウイルスの新規陽性患者数(7日移動平均).と累積陽性患者数のグラフ(ともに人口10万対)3月24日~9月19日. pic.twitter.com/vYT1UnSVck
— めどぶぶ (@medbb) September 19, 2020
平滑化
折れ線グラフで傾向を見るには傾向以外の要因を取り除かないとわかりにくい以下は一日の歩数をグラフで示したもの(ダミーデータ) 7点平均をとることで,上昇している傾向が把握できる

レーダー図
複数の項目データを二次元にマッピングすることでパターンを作成し,類型化することが出来る
散布図
二つのデータの関連性を示す. 2つの量的変数の関係を可視化することができる
三次元グラフ
二次元空間に三次元のものを書こうとすると歪んで当然
課題
本日の授業を受講したうえで,以下の2つの質問1.理解できた内容,理解できなかった内容について
2.本日の授業の内容に関する質問(内容が概ね理解できているのであれば空欄でも可です)
課題に基づくフォロー
今回はフォームの設定が間違っていたのでご迷惑をおかけしましたこの回に関しては,送信できなかった方もおられるかと思いますので出席者全員課題提出したものと見做します
課題提出できない系
アクセス権なくて課題送れません知ってた・理解系コメント
尺度の説明(図)が分かりやすい例題があったのでとてもわかりやすかった
中学高校の数学で学んだ内容 復習できた
殆ど「思い出す」という作業
尺度の分類が難しかったが理解
今日は知識の確認
A以上B未満
グラフの種類別の利点欠点
間隔尺度は天気予報の話で理解
立体の円グラフは映えるが誤解しやすい
知らない・困難系コメント
尺度という言葉を初めて聞いた尺度がややこしかった
ヒストグラムは幅を合わせなければいけないものだと思っていた
間隔尺度と比尺度の違い
順序尺度と名義尺度の違い
尺度のグループ分け(順序と間隔が難)
尺度の区別が理解しずらかった
階級値は何のためのものなのかよく分からない
箱ひげ図の書き方、活用の仕方
追加説明依頼系
数値と数字の違いを詳しく知りたい数値と数字の違い
数値とは値そのもののこと,数字とはその数値を言語として伝えるために記したもの(ローマ数字,漢数字,算用数字)
数字は文字の一種であり,文字は記号の一種.
記号の中に文字がありその中に数字がある.数字を数値文字と理解したら良いかな
尺度の分類を次の最初の時間にもう一度間隔尺度を簡単に判断する方法
間隔尺度のゼロの値が~云々があんまりしっくりきていない
度数分布表で相対度数の小数点以下の値の扱い方
天気が順序になる理由
例題1-1の3番がなぜ名義尺度
ヒストグラムは量的変量だけ?質的は?
第02回 記述統計(2)代表値・散布度・箱ひげ図
教科書12章D,14章A2
量的変量の統計量
度数は質的変量でも算出可能だが,今回の話は量的変量のみの話ただし,量的変量は質的変量の性質も持っているので,その性質を利用している統計量もあります.
代表値
average(その集団でとりまとめたデータを数値一つで表す。excelはaverage関数で算術平均を出すが、代表値の代表ということだからと解釈しています)平均
算術平均
mean(算術平均以外にも相乗平均などもあります)1/n・Σxi
パレートの法則(80-20の法則)
代表値なのに実在しない場合がある → 集団の指標(重心)であって、事象を代表する値そのものを示しているとは限らない
幾何平均(相乗平均)
全て掛け合わせて累乗根をとる例えば1と2と4の平均
算術平均 (1+2+4)/3=2.3333
幾何平均 3√(1×2×4)=2
加重平均
重みづけ平均例えば ミニテストと期末試験の平均をとる → そのままの平均で良いの?
度数分布表を用いた平均もこの方法・・・Σ(階級値×階級の度数)/n
例題2-1)
あるクラスの生徒の身長を計測したところ以下のような結果が得られた
a)この集団の算術平均を求めよ
b)先週作成した同データの度数分布表から集団の平均値を求めよ
c)もしできるならこの集団の幾何平均を求めよ
中央値
median(別名第2四分位数)量的変量を順序尺度の性質で処理した代表値
順番に並べたとき真ん中の順位にきた個体の値
個体数が偶数の時は真ん中2つの数値の平均値
最頻値
mode(流行,はやり)違う意味で数の理論(多数決)の世界
量的変量を名義尺度の性質で処理した代表値
名義尺度でわかることは一緒か違うか
階級毎に度数をカウント
一番多いところの階級値
一位が同点の時は併記
平均値と中央値の考え方の違い

平均値(14.55)

こちらは分布なんて関係なく中央値(15)
データの分布に依存する(パラメトリック)=平均値と
データの分布に依存しない(ノンパラメトリック)=中央値
の関係がわかるかと思います.
(ちなみに最頻値(15,16,20)の関係もわかるかなと思います)
例えば5が0に変わってしまうと平均値は大きく変わりますが,中央値は変わりません
パラメトリック・・・数値に依存する(数値の分布によって値が影響を受ける)というとイメージしやすいのかな?
例題2-2)
あるクラスの生徒の身長についてa)この集団の中央値を求めよ
b)この集団の最頻値を先週作成した度数分布表から求めよ
散布度
dispersion範囲
ある値~ある値までの広さ範囲
RangeR=最大値-最小値
特徴
外れ値もひらう
算出が用意
最大値と最小値がわかればその集団のバラツキがわかる
最大値maximum excel max関数
最小値minimum excel min関数
四分位範囲
小さい順(昇順)に並べて集団を4分割分割する所の値を小さい方から第1四分位数(Q1),第2四分位数(Q2)=中央値,第3四分位数(Q3) 四分位範囲IQR(interquartile range)=Q3-Q1
四分位数の話
四分位数は出し方が何種類かあります.近年は高校で教育されていますがその方法も従来のものと異なるので細かい計算をするのはやめておきますパーセンタイルの話
第1四分位数は25%タイル値,第2四分位数は50%タイル値,第3四分位数は75%タイル値のことです.混乱しがちなのは第一四分位数が小さい方から数えてなのに,大きい方から数える人がいます
その時はパーセンタイルで整理したほうが良いかもしれません(100%=最大値)というのは納得できると思うので上から75%=第3四分位数
箱ひげ図
四分位範囲をグラフ化
偏差
Deviationある基準とする値からのズレ
それぞれのズレの平均を求めたら良いのだろう・・・

分散
varianceexcel関数はVAR
偏差を平方(二乗)したものの平均
ここでは記号をσ^2とする. Σ(Xi-Xbar)^2/n
何故平方するの?
どうしても偏差の平均を求めることが出来ないので
標準偏差
Standard Deviation記号はσ
σ=√(σ^2)
例題2-3)
以下の表についてID | テストの点 |
---|---|
1 | 40 |
2 | 40 |
3 | 80 |
4 | 60 |
5 | 30 |
b)この集団の標準偏差を求めよ
c)この集団の範囲を求めよ
d)この集団の中央値を求めよ
e)それぞれの偏差値を求めよ(偏差値は平均点が50 1標準偏差分良い点であれば+10で60になる)
課題
本日の授業を受講したうえで,以下の2つの質問1.理解できた内容,理解できなかった内容について
2.本日の授業の内容に関する質問(内容が概ね理解できているのであれば空欄でも可です)
講義のフォロー資料
四分位数の求め方の件

平均値中央値最頻値の話

箱ひげ図
箱ひげ図(なるほど統計学園 総務省統計局)https://www.stat.go.jp/naruhodo/4_graph/shokyu/hakohige.html
第03回 推測統計(1)点推定
教科書13章B1
記述統計では,対象とする集団そのものを可視化することが目的でした
推測統計では,対象とする集団は全体の中の一部(サンプル)という捉え方で,サンプルから全体像を推し測ることを目的としています
これまでの授業の中でも記号が出てきていますがここでまとめておこうと思います
記号について
推定の話になると記号の取り扱いで混乱するのでここで整理しておきます.分かりやすさを優先して整理したので,皆さんの使っている教科書などの表記は<参考>の論文を確認し読み替えください
μ・・・集団全体(母集団)の算術平均=母平均
σ^2・・・集団全体(母集団)の分散=母分散
σ・・・集団全体(母集団)の標準偏差=母標準偏差
xbar・・・集団の一部(標本)の算術平均=標本平均=母平均の不偏推定量
s^2・・・集団の一部(標本)より求めた母集団の分散の推定量=不偏分散(母分散の不偏推定量)
s・・・集団の一部(標本)より求めた不偏分散よりもとめた標準偏差=母標準偏差の推定量

参考
統計学テキストの「分散」の表記に関する調査(札幌学院大学総合研究所紀要 巻 1, p. 1-10, 発行日 2014-03-31)https://sgul.repo.nii.ac.jp/records/1807
母集団と標本
母集団
対象としている集団の全体のこと無限母集団と有限母集団がある
標本
対象としている集団の一部偏ってしまうことに注意
例)森で取れた昆虫の標本を作成する際、どうしても森全体の昆虫の分布から偏ってしまう
取り扱う標本について
母集団は20000人の収縮期血圧データ(整数)母集団のヒストグラム

その集団の一部を抽出したものが標本
母平均の推定
得られた標本より求めた平均をそのまま母集団の推定値とする例題3-1)
以下の標本より母集団の平均値(母平均)を推定せよ
利点
計算が容易平均値の場合,計算式が母集団全体の値を求める時と標本から推定する時と同じで良い
欠点
必ずしも推定値が実際と一致するわけではない・・・むしろ外れて当然サンプルサイズ10の時(母集団から2000の標本が作成できる)のヒストグラム

ピッタシ一致するのはサンプルサイズ10の時で1.1%(98.9%はハズレ)
まとめると
推定で求められるのは偏った推定にならないこと.(なぜならほぼ一致しないから)・標本が偏っていたら推定値は偏る
×標本が偏っていなくても計算によって推定値が偏る
前者はサンプルの集め方の話なので,計算そのものに問題があるわけではない
後者に問題があると・・・・
推定の精度を上げるためには

標本数を大きくすればよい・・・測定を繰り返して行いその平均をとると精度は上がる
サンプルサイズを100にした時の(母集団から200の標本が作成できる)のヒストグラム

精度は上がるものの,ピッタシ一致する確率も上がるとは限らない
例題3-2)
例題3-1)のデータと例題3-1)で求めた母平均の推定値との偏差を求め,偏差和(全て足し合わすこと)を求めよ.そして偏差平方和も求めよ例題3-1)のデータと私だけが知っている母平均(125.0)との偏差を求め,偏差和を求めよ.そして偏差平方和も求め,それぞれ比較せよ
母分散の推定
例題3-3(旧4-1)
以下の標本から分散を求めよ
点推定
先程の例題で算出した値で母集団の特性値(母数)の推定はしていいのだろうかまとめると(再掲)
推定で求められるのは偏った推定にならないこと.(なぜならほぼ一致しないから)・標本が偏っていたら推定値は偏る
×標本が偏っていなくても計算によって推定値が偏る
前者はサンプルの集め方の話なので,計算そのものに問題があるわけではない
後者に問題があると・・・・
標本の平均を用いサンプルサイズ10の時(母集団から2000の標本が作成できる)のヒストグラム

低めの値が多くなる傾向で偏っている.
母集団の平均(本来知る由もない)を用いサンプルサイズ10の時(母集団から2000の標本が作成できる)のヒストグラム

偏った推定にならないものの,本来知る由もない母平均を使えるわけがない(そもそも母数知っているなら推定は不要でしょう)
不偏分散
標本の平均を用いて母分散の推定を行う.母平均と標本平均は(ほぼ)異なるので,母平均と標本平均の差も考慮して分散を求めたもの
(無論母平均は分からないが母平均と標本平均の差を考慮している)
s^2=Σ(Xi-Xbar)^2/(n-1)
nで除するよりn-1で除したほうが,値が大きくなるのは当然なので,低めの値が出るのなら少し分母を小さくした方が大きくなるのは理解できるが(ケーキを3人で分けるのか4人で分けるのか)なぜ1引くだけ??となると思います

<参考>
不偏分散は何故nではなく(n-1)で除するのか(生物統計学2018奈良医大)
https://medbb.net/education/nmubiostat2018/index.html#VAR
例題3-4)(旧例題4-2)
以下の標本より母集団全体の平均値および分散と標準偏差の推定値を求めよ
課題
本日の授業を受講したうえで,以下の2つの質問
1.理解できた内容,理解できなかった内容について
2.本日の授業の内容に関する質問(内容が概ね理解できているのであれば空欄でも可です)
を締切までに提出の事
課題のフォロー
標本の平均との偏差より求めた偏差平方和が一番小さくなる話(故に分散の値も一番小さくなる)

第04回 推測統計(2)平均値の区間推定(1)(正規分布)
教科書12章C1,13章B1
点推定の欠点・・・母平均や母分散など母数をピッタリ当てることはほぼほぼ無理.区間で推定すれば,その気になれば100%の確率で当てることは可能
例題4-1
ある高等学校の3年生生のうちあるクラスの生徒40人にアンケートを取り,お小遣いを親からいくらもらっているのか調査した
その結果の算術平均をとると6500円だった.
はたしてその高校の3年生全体のお小遣いの平均はいくらになるだろうか?100%当たるよう下限の金額と上限の金額を示せ
母集団の平均値の区間推定の考え方
区間を推定するにあたっての基準を点推定値を基準とし,区間を推定するにあたってどのような確率で標本方求めた平均値が出現するのか仮定したうえで行うこの授業回では出現する確率の分布に正規分布を用いる
一般的に95%の確率で当たる区間(95%の信頼区間)で幅を決めている
ところで95%の確率で当たるとは

そもそも母集団全体の平均を求めることが可能ならば,推定する必要は無いのですが
ちなみに気象庁の降水確率も同じような考え方です.
降水確率予報との比較(気象庁)
https://www.jma.go.jp/jma/kishou/know/kisetsu_riyou/explain/prob_precip.html
正規分布
左右対称の釣鐘状分布平均値に近いほど出現率が高く遠ざかるに従って低くなる(ことが多い)
同じ事柄を同じ条件で繰り返すと正規分布になるという話→中心極限定理
中心極限定理
サンプル数が多ければ標本平均の分布は正規分布になる→正しく測定されているのであれば偶然誤差の発生は正規分布に従う
→測定回数を増やせば増やすほど
標準正規分布
平均値が0標準偏差=1(分散も1)になるように値を変換したものそれをZ値という・・・標準正規分布表の行と列から求める値の事
偏差値は平均値を50、標準偏差=10になるように値を変換したもの
それを偏差値という
例題4-2
平均値が75点の集団がある.標準偏差は5点.
そこで82点を取った人がいる.その時のZ値を求めよ
標準正規分布表

標準正規分布表のPDF版はコチラから
例題4-3
平均値が75点の集団がある.標準偏差は5点.
そこで82点を取った人がいる.試験の点の分布が正規分布に従うものとし集団が10000人だった場合,上位何番目でしょうか?
例題4-4
平均値が75点の集団がある.標準偏差は5点.
そこで10000人中1271番目だった人がいる.試験の点の分布が正規分布に従うものとしたとき何点だったでしょうか?
例題4-5
95%信頼区間のZ値はいくらでしょう?
課題
本日の授業を受講したうえで,以下の2つの質問
1.理解できた内容,理解できなかった内容について
2.本日の授業の内容に関する質問(内容が概ね理解できているのであれば空欄でも可です)
第05回 推測統計(3)平均値の区間推定(2)(標準誤差)
教科書13章B1
ある集団の95%信頼区間を求める
例題5-0
ある試験を10000人が受験したところ平均点は65点であった.試験の点の分布が正規分布に従うものとしたとき95%信頼区間の下限と上限を求めよ.なお標準偏差は=5点である
標準誤差
・標準偏差は標本の分布のバラツキ具合を示したもの・標準誤差は母集団から抽出した標本の平均値のバラツキ具合
SE=σ/√n
ここでは,なぜ√nになるのか説明しないが,少なくともサンプルサイズが大きいほど標本平均のバラツキ具合が小さくなっていくことは理解できると思う
サンプルサイズ10の時(母集団から2000の標本が作成できる)のヒストグラム

サンプルサイズを100にした時の(母集団から200の標本が作成できる)のヒストグラム

どうしても という方は以下のリンクご覧ください.
<参考>標準誤差SEはなぜ標準偏差σを√nで除するのか(生物統計学2018奈良医大)
https://medbb.net/education/nmubiostat2018/index.html#SE
標準誤差を用いた母集団の平均値の95%信頼区間の推定
正規分布を用いた場合以下のようになる.標本から母平均の推定を行うので正規分布表の標準偏差は標準誤差と読み替えて行う(標本の平均のバラツキ具合(標準偏差)の話になるので)
例題5-1
以下の標本から標準誤差を推定せよ
例題5-2
500000人の模試の試験の平均点を推定したい.
そのうちの16人に協力いただき点数を開示してもらった.
分析したところ平均が75点で標準偏差(不偏分散から求めた)は5点だった
模試全体の平均点を95%信頼区間で推定せよ
例題5-3
500000人の模試の試験の平均点を推定したい.
そのうちの25人に協力いただき点数を開示してもらった.
分析したところ平均が75点で標準偏差(不偏分散から求めた)は5点だった
模試全体の平均点を95%信頼区間で推定せよ
例題5-4
500000人の模試の試験の平均点を推定したい.
そのうちの25人に協力いただき点数を開示してもらった.
分析したところ平均が75点で標準偏差(不偏分散から求めた)は5点だった
模試全体の平均点を99%信頼区間で推定せよ
課題
本日の授業を受講したうえで,以下の2つの質問
1.理解できた内容,理解できなかった内容について
2.本日の授業の内容に関する質問(内容が概ね理解できているのであれば空欄でも可です)
05回目 ここまで 次回(06回目)はここから
例題5-5
サンプルサイズ10000で求めた標本の平均が110,不偏分散が400だった時の標準誤差を求めよ
例題5-6
以下のデータは20000人の血圧データからサンプルサイズ16で抽出したグループ(20)よりそれぞれ母平均の区間推定を行ったものである
標準正規分布を用いてそれぞれのグループより95%信頼区間で推定し,私しか知らない母平均(125.0)と比較し含まれているか確認せよ

個票データは以下からダウンロード可能です
nmubiostat2025-0501utf8.csv
<参考>
課題
本日の授業を受講したうえで,以下の2つの質問
1.理解できた内容,理解できなかった内容について
2.本日の授業の内容に関する質問(内容が概ね理解できているのであれば空欄でも可です)
第06回 推測統計(4)平均値の区間推定(3)(t分布)
教科書13章B1
t分布による区間推定
母集団の平均値を推定するにおいて,標準正規分布を使うと上手くいかないケースがある・・・特に標本数が少ないと困っていたゴセットさんが標本数によって平均値の出現する確率が変化する分布を示しました.
諸々の理由でt分布と呼ばれています.
<参考>
酒井 弘憲,ギネスビールと統計家ペンネーム スチューデント,ファルマシア51巻12号,2015
https://www.jstage.jst.go.jp/article/faruawpsj/51/12/51_1168/_article/-char/ja
t分布
t分布は標準正規分布と同様に,標本より求めた母標準偏差の推定値(不偏分散に基づく標準偏差)を用いるが,標本の自由度(サンプルサイズより求める)によって変化する.サンプルサイズが大きくなるとt分布は正規分布に近似されていく.

t分布のPDF版はコチラから
「自由度」νが出てきますが,以下考え方
標本の中で自由に振る舞うことが許されている値の数例えば標本から統計量を求めたとき,母数の推定値とするなど確定すると自由に振る舞えない値が出てくる(つじつま合わせ)
t分布は抽出した標本数を基にしたものなので,正規分布のように一義的なものでは無く,標本数(自由度)によって確率分布が変わる