大阪リハビリテーション専門学校 統計学2021
(理学療法学科/作業療法学科)

本授業は現時点で対面で行うため動画配信の予定はありません

講義/復習動画の閲覧はこちらから

ログインID:

パスワード:

授業について

教科書

入門統計学-検定から多変量解析・実験計画法まで(オーム社)
http://shop.ohmsha.co.jp/shop/shopdetail.html?brandcode=000000001900&search=978-4-274-06855-3&sort=

この教科書は授業中よりもむしろその後の人生で読み返すことが多いと思います。
そのような観点から本を選定しました。

本授業では以下のような格好で教科書を用います
O:概ね利用 △:少し利用る X:ほぼ利用しない

○1章 データの整理-記述統計学-
△2章 確率分布
○3章 不変推定量と標本分布
○4章 信頼区間の推定
△5章 カイ二乗分布とF分布
○6章 検定の基本
△7章 2群の平均の差の検定
X8章 分散分析
△9章 多重比較法
X10章 実験計画法
△11章 カテゴリーデータの検定-ノンパラメトリック手法①-
X12章 カテゴリーデータの検定-ノンパラメトリック手法②-
X13章 重回帰分析-多変量解析①-
X14章 主成分分析と因子分析-多変量解析②-
X15章 判別分析とクラスター分析-多変量解析③-

○:授業で取り扱う
△:一部授業で取り扱う
X:将来必要になったときに読んでください

大まかな進め方としては 記述統計→推測統計 の流れです。
PTもOTも、同じ構成で考えていますが、状況(学科の特性など)によって進度が異なるかもしれません
凡例:
作業療法学科授業時のコメント
理学療法学科授業時のコメント
電卓使いますのでよろしくお願いします(授業中はスマホで可ですが試験の時は×)
そもそも試験の時に電卓を使うべきかどうかも悩んでいます


授業メニュー
第1回 記述統計(Ⅰ)-尺度・度数分布

第2回 記述統計(Ⅱ)-代表値

第3回 記述統計(Ⅲ)-散布度

第4回 推測統計(Ⅰ)-推定の原理

第5回 推測統計(Ⅱ)-推定

第6回 推測統計(Ⅲ)-t検定

第7回 推測統計(Ⅳ)-カイ二乗検定

第8回 まとめ

第1回 記述統計(Ⅰ)-尺度・度数分布について

到達目標
1-1記述統計と推測統計について説明できる
1-24つの尺度について説明できる
1-3度数分布表が作成できる


統計とは

教科書による統計学

『統計学はあくまで「確率で真の結論を推測する」だけ』

私の考える統計学

『気づかせてくれるもの。うすうす気づいていることを確認するもの』

私の考える医療統計学(2015)

『ある事象のなかで一般化出来るもの(法則性)を見いだすことは、その個別の事例にとどまらず広く利用できる知見をもたらす。そのためには複数の事例を集めて検討する統計処理が必要になる。
 それゆえ、統計処理は個別の事情を発生頻度などある条件に従って排除する主義に基づく。
 私達の周りで起こる様々な事象は自然現象によるものだけではなく人間活動などの人工的な要因の影響を受けるものも多く、そのため法則性を見いだすにはそれぞれの領域の目的に応じた統計処理が必要となる。
 医療統計学は、単に生物としてだけではなく活動状況も多様な集団である人に対して、提供する医療が及ぼす影響やその要因に関する法則性を見いだす方法を探求する学問分野である。』
(複雑なため確定的な事象はなく確率的に取り扱う必要がある)

統計の分類

記述統計(1章)と推測統計(3章)に分類される

記述統計とは

・収集したデータを要約してその集団の状況を表す
・そこにあるデータは全体(母集団)
・度数(分布)・代表値・散布度など

変量(データ)の分類・・・測定尺度

変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。
それぞれを尺度と呼び、4つに分類するのが一般的である(P5)
1名義尺度
2順序尺度
3間隔尺度
4比率(比例)尺度

1,2を質的データ(変量)(定性的)
3,4を量的データ(変量)(定量的)
性質としては上位互換性があり
4>3>2>1

度数分布表

それぞれのデータ(変量)の数(出現頻度)をまとめたもの
変量が名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数  ・・・出現頻度
相対度数・・・総出現頻度を1(100%)としたときのそのぞれの度数のしめる割合
累積度数・・・上位の変量の度数もあわせた度数
累積相対度数・・・累積度数の相対版

品名 度数 相対度数 累積度数 累積相対度数
いちご 15
みかん
ぶどう
30 1.00 ----- -----

度数分布図

度数分布表をグラフ化したもの
縦棒グラフだが量的変量に限っては「ヒストグラム」その棒の部分の面積が度数を示している
<余談>
図にするときには色々なお作法があります

スタージェスの公式

量的変量の度数分布表・図作成の時に階級幅設定の参考になる公式
K(階級数)=1+log2(サンプル数)
P6のキュウリの件サンプル数は30なので
1+4.907=5.907
6ぐらいが適当
上記を参考にしながら階級幅を決めるとよい(かも程度で)
(教科書のヒストグラムは7階級)

参考:ヒストグラムは怖い-スタージェスの公式(高校数学の問題を作る -工夫・コツとデータ- )
http://www10.plala.or.jp/mondai/columun/hist.pdf
(経験則に基づいたものだとばかり思っていたのでビックリ)

課題

次の厚生労働省の統計データより理学療法士,又は作業療法士のいずれかの府県別(近畿圏内)の度数分布表を作成せよ
なお,近畿圏内の定義については指定しないので各自判断のこと
病院報告 / 平成28年病院報告 下巻(都道府県) 従事者数(e-stat/厚生労働省)
https://www.e-stat.go.jp/stat-search/files?page=1&layout=datalist&toukei=00450023&tstat=000001030749&cycle=7&tclass1=000001106855&tclass2=000001106865&tclass3=000001106869&stat_infid=000031628676&tclass4val=0
データが常勤換算のため,度数というには小数点があるとおかしいので四捨五入して整数化した以下のデータで作成してください.
orcstat2020-0101.png(60487 byte)
「平成28年(2016)医療施設(動態)調査・病院報告」(厚生労働省)(https://www.mhlw.go.jp/toukei/saikin/hw/iryosd/16/)を加工して作成

授業後補足(作業療法学科)


授業後補足(理学療法学科)


第2回 記述統計(Ⅱ)-代表値について

到達目標
2-1代表値にどのようなものがあるか説明・計算することが出来る
2-2度数分布表から平均値などの算出が出来る


代表値と散布度があると(構成数nもですが)その集団がどんなものか想像出来る(マラソン実況)

代表値

average(その集団を数値一つで表す。excelはaverage関数で算術平均を出すが、まぁ代表値の代表ということだからと解釈しています)

算術平均

mean
1/n・Σxii
正社員男性の平均給与「527万円」 引き上げているのは誰なのか?(BLOGOS-キャリコネニュース2014年10月04日)
http://blogos.com/article/95831/
加重平均 それぞれの変数を評価した上での平均
例えば
度数分布表から算術平均を計算
Σ(階級値×度数)/構成数

幾何平均 積を求めてn乗根をとったもの
テストの点が10,15,14,13,60
算術平均=22.4
幾何平均=17.5
移動平均 平滑化

中央値

median(別名第2四分位数)
量的変量を順序尺度で処理した代表値
順番に並べたとき真ん中の順位にきた個体の値
個体数が偶数の時は真ん中2つの数値の平均値
スキージャンプの飛型点は中央値的なノリで算術平均している
スキージャンプを知ろう!!ルール解説(ジャンプ雪印メグミルク)
https://www.meg-snow.com/jump/rule/rule.html

最頻値

mode(流行,はやり)
違う意味で数の理論(多数決)の世界
量的変量を名義尺度で処理した代表値
名義尺度でわかることは一緒か違うか
階級毎に度数をカウント
一番多いところの階級値
一位が同点の時は併記(平均をとると えっオレ優勝!?状態になる)


課題

1)下の身長データ(個票データ)より度数分布表を作成せよ.
2)平均値 中央値 最頻値を求めよ.
3)度数分布表より平均値を求めよ.
ID 身長(cm) ID 身長(cm)
1 178.0 13 175.0
2 173.0 14 189.0
3 180.0 15 175.0
4 170.0 16 182.0
5 162.0 17 166.0
6 176.0 18 176.0
7 166.0 19 177.0
8 171.0 20 167.0
9 164.0 21 178.0
10 169.0 22 182.0
11 165.0 23 161.0
12 171.0 24 189.0

授業後補足(作業療法学科)


授業後補足(理学療法学科)


第3回 記述統計(Ⅲ)-散布度について

到達目標
3-1散布度にどのようなものがあるか説明・計算することが出来る


散布度・・・dispersion

最大値と最小値を使う

最大値と最小値がわかればその集団のバラツキがわかる
最大値maximum excel max関数
最小値minimum excel min関数

範囲

Range
R=最大値-最小値

特徴
 外れ値もひらう
 算出が容易

四分位数を使う

Quartile
小さい順(昇順)に並べて集団を4分割

第1四分位数 First Quartile:Q1 = 25th percentile 25%タイル値
第2四分位数 Second Quartile:Q2 = 50th percentile 50%タイル値 = Median 中央値
第3四分位数 Third Quartile:Q3 = 75th percentile 75%タイル値
四分位数の求め方・・・厳密には数種類ある
授業では以下の方法

四分位数の求め方

注意:順序の話とその順位のラベル(数値)をこんがらがってしまわないように
例:テストの点 16,5,12,16,13,15,15,18,20,10,20
昇順に並べて順位(カッコ書き)をつける 5(1),10(2),12(3),13(4),15(5),15(6),16(7),16(8),18(9),20(10),20(11)
n数(11)を4で割る
第1四分位数・・・1/4の順位・・・11/4×1=2.75個に分割する場所に相当する数値
第2四分位数・・・2/4の順位・・・11/4×2=5.5個に分割する場所に相当する数値
第3四分位数・・・3/4の順位・・・11/4×3=8.25個に分割する場所に相当する数値

2.75個に分割した場所の出し方
+1/4番目の数値=3番目=12

5.5個に分割した場所の出し方
+2/4番目の数値=6番目=15

8.25個に分割した場所の出し方
+3/4番目の数値=9番目=18


四分位範囲

IQR(interquartile range)
IQR=Q3-Q1

四分位偏差

QD(Quartile Deviation)
QD=IQR/2
範囲は個々の値の幅をイメージ
偏差はある値からのズレをイメージ

平均値を使う

mean

偏差

Deviation
もともとは標準となる数値からのズレ(偏り)を意味するものだが統計の世界では集団の平均値からのズレを示す
偏差の平均をとれば集団内の各々のズレっぷりがわかる → 合計は常に0 故に平均も常に0

分散

variance
V excel関数はVAR
偏差の二乗したものの平均

標準偏差

Standard Deviation
記号は標本s 母集団σ
s=√V
(故にVはs^2やσ^2で表現する)

変動係数

C.V.=s/xbar バラつきを比較するため平均値を用いて正規化

到達度確認

1)第一章 章末問題問2の総経営耕地面積のデータを用いて,範囲,四分位範囲,四分位偏差,分散 標準偏差 変動係数を求めよ

授業後補足(作業療法学科)

授業で説明した四分位数の考え方をまとめたブログです.

授業後補足(理学療法学科)


第4回 推測統計(Ⅰ)-推定の原理

到達目標
4-1点推定を行うことが出来る
4-2区間推定を行うことが出来る

点推定

一つの数値(点)で推定値を示すこと
欠点:推定値と真の値がどの程度ズレているのかよくわからない
利点:区間推定よりも簡単に算出できる

区間推定

ある確率分布に従うと仮定したときに、その分布に基づき、推定に幅を持たせもの
欠点:点推定の計算に加え区間を求めるための計算が必要
利点:真の値を区間内に含む確率を示すことで,どの程度ズレているのか(なんとなく)わかる


不偏推定量

母数の推定=不偏推定量
算術平均・・・母平均の点推定値
分散・・・母分散の推定値

標本平均値は偏っていないが標本分散は偏っている
ここら辺のややこしいくだりは教科書参照
<参考>不偏分散は何故nではなく(n-1)で除するのか(生物統計学2018奈良医大)
https://medbb.net/education/nmubiostat2018/index.html#VAR

区間推定

ある確率分布に従うと仮定したときに、その分布に基づき、推定に幅を持たせる
母平均にある確率で入る幅を持った推定値
母平均は一つ(当然)だが、標本平均は標本ごとに異なる(当然)ので幅を持たせてある確率(95%)で母平均を表せるように
その幅は平均値のバラツキ具合(標準誤差)に信頼区間を表わす係数(標準正規分布表に基づき95%なら1.96)を掛け合わせたもの
https://medbb.net/education/ocrstat2020/img/orcstat2020-0602.png orcstat2020-0602.png(17719 byte)

標準偏差と標準誤差

・標準偏差は標本の分布のバラツキ具合を示したもの
・標準誤差は母集団から抽出した標本の平均値のバラツキ具合
SE=σ/√n
標準誤差SEはなぜ標準偏差σを√nで除するのか
標準誤差は母平均に対する標本平均のバラつき指標(標準偏差)の話
対象が母集団全体ならば0だが,母平均(μ)と標本平均(xbar)には差が生じる
ある標本における平均値と母平均の偏差平方は
(xbar-μ)
=((1/n)Σx-μ)
=((1/n)Σx-(1/n)Σμ)
=((1/n)Σ(x-μ))
=(1/n)(1/n)Σ(x-μ)
 -----
 ここで
 (1/n)Σ(x-μ)
 をσとおくと
 -----
=σ/n
故に標準誤差は
SE=σ/√n

確率の話

ちょっとしたクイズだしますのでお楽しみください

正規分布

人など生物の成長に関わるものなどは、正規分布に近いとされている
平均値μと分散σ^2で確率が決まる
常に曲線下の面積=1(100%)。といって裾野は広がるばかりで閉じない
中心極限定理によりかなり強力(通用しない相手にコーシー分布がいる)

中心極限定理

母集団の分布によらず、抽出した標本の平均値は表本数が大きくなるほど近似的に正規分布に従う

標準正規確率(z)分布表の見方

教科書に標準正規分布表は付いています.念のため以下に作成したものつけています.
標準正規分布表
kuswepi2021-01.png(339177 byte)
標準正規分布表のPDF版はコチラから

課題

以下のデータより実際に平均値の推定がどの程度の確率で当たっているのか計算せよ
表をクリックすると大きいサイズで見れますのでクリックしてください

エクセルでも扱えるCSV形式のファイルはコチラをクリック

授業後補足(作業療法学科)


授業後補足(理学療法学科)


第5回 推測統計(Ⅱ)-推定

到達目標
5-1t分布を説明出来る
5-2t分布を用いた区間推定を行うことが出来る

t分布

正規分布に基づき確率を求めるには母平均と母標準偏差が必要→nが多い場合標本平均と標本標準偏差で近似できるが
nが少ない場合は近似できない→t分布(標本の自由度νさえわかっていれば、後は検定統計量を求めれば確率がわかる)

実際にはt分布を用いた推定が行われることが多い
<4>自由度 考え方・・・標本の中で自由に振る舞うことが許されている個体の数
      統計値が母数の推定となると、自由に振る舞えない個体が出てくる(つじつま合わせ)
標本分散は偏差二乗和を個体の数で除することで求めるが母分散のほどよい推定である不偏分散はn-1(自由度)で除する

正規分布とt分布の比較

nmubiostat2018-0401.png(3867 byte)

t分布による母平均の推定

標本の平均(母平均の推定値)±t分布に基づく統計量×標準誤差

課題

1)前回の課題の下半分の表を計算し,正規分布によるものとt分布による区間推定が母平均を含んでいた確率を求めよ
2)ある集団の一部の36人の身長を測定したところ168.5cmであった.母標準偏差の推定値(不偏標準偏差)は8.2cmである.
  集団の身長の平均を信頼区間95%,及び99%で区間推定を行え.
3)以下は一部の学生の50m走のタイムである.
  全国の大学生の50m走のタイムを信頼区間を95%,99%で行え.
kuswepi2021-03.png(4299 byte)
  

第6回 推測統計(Ⅲ)-t検定

到達目標
6-1仮説検定の手順について説明できる

仮説検定

<大前提>やみくもに検定するのではなく、検定する理由・確信があるから確かめる という感じで
手順1:仮説をたてる(帰無仮説H0および対立仮説H1)
背理法に基づく証明をしている。
(差がない仮説が証明できないので、その対立である差がある仮説を採択する)
手順2:有意水準を決める
確率的に必然と偶然を切り分けている。一般に5%で分けているが1%の時もある
手順3:検定統計量を計算する
その事象の起こる確率を計算していることになるが、用いる確率分布によって計算式が異なる。
手順4:有意水準と比較し、仮説を棄却採択する
例)帰無仮説H0を棄却し対立仮説H1採択

検定と推定の違い

推定
../ocrstat2020/orcstat2020-0602.png(11589 byte)
検定
../ocrstat2020/orcstat2020-0603.png(12754 byte)

検定の前提条件

教科書P121参照
対応のある2群(paired-t)や一標本t検定はあまり気にしなくても良いが、対応のない二群は注意する必要がある。
この教科書では、私が習ったころと同じく7.5の等分散の検定を行ってから行うこととしている。等分散でない場合はウェルチの検定
近年では対応のない二群は最初からウェルチ
P120の例題
・成長速度の差を算出して区間推定(信頼係数95%)で行うこと)・・・差の平均-0.58を基に区間推定
 求める数式は Xbar±t×標準誤差
 今回はサンプル数5なので自由度は4.・・・両側で95%とするとt=2.776
 標準誤差=σ/√n
 標本で求めた標準偏差は偏りがある(μで計算せずXbarで計算しているのでその分小さくなる)→偏差平方和を(n-1)で除する(不偏分散)の正の平方根=不偏標準偏差
 n-1で割る理由は気になったときは以下
<参考>不偏分散は何故nではなく(n-1)で除するのか(生物統計学2018奈良医大)
https://medbb.net/education/nmubiostat2018/index.html#VAR
・成長速度の検定・・・母集団の差の平均が0(μ1=μ2)としたときに,算出された標本における差の平均-0.58は,よくあるバラツキの範疇として帰無仮説が成立するか
 仮説に基づく話なので,母平均は0ありきで進める(その話が成立するか否か)
 t値が-2.776~2.776の間に,今回の標本で得られたデータが収まっているかどうか
 →標本の値をt値にしたときにいくらになりますか?

課題

新開発のシューズを2種類開発した.それぞれ同一被験者に従来型と新型を履いて5km走のタイムを計測し比較を行った.
対応のある2群の差の検定を優位水準5%で行え
../ocrstat2020/img/orcstat2020-0601.png(44900 byte)
(対応のない2群の差との検定についても考えられるように)
参考
令和元年度体力・運動能力調査結果の概要及び報告書について(スポーツ庁)
https://www.mext.go.jp/sports/b_menu/toukei/chousa04/tairyoku/kekka/k_detail/1421920_00001.htm

授業後補足(作業療法学科)


授業後補足(理学療法学科)


第7回 推測統計(Ⅳ)-カイ二乗検定

到達目標
7-1カイ二乗分布がどのようなものか説明できる
7-2周辺度数より期待値を算出できるようになる

カイ二乗分布

χ=ΣZ
平均からのズレの平方をとったものを足し合わせていく→偏差平方和
標準正規分布に従う独立した確率変数が1つの場合
χ=Z
<参考>独立した確率変数が二つの場合
χ=Z+Z

カイ二乗分布表

t分布と同じく自由度により確率分布は変化する
カイ二乗分布(ν=1)の時のそれぞれの上側確率に相当する正規分布の確率(両側5%(片側2.5%ずつ)は全て上側に集約されてしまう
χ=((X-μ)/σ)
χ0.05=((1.96-0)/1)
例)標準正規分布で有意水準両側5%の場合の境界値はz=1.96.カイ二乗分布表より優位水準上側5%の時のカイ二乗値=3.84

ピアソンのカイ二乗

カイ二乗分布の話(X-μ)を(実際に出現した度数-出現が期待される度数(期待値))に置き換え
分散で除することで分子の差分を標準正規分布のN(0,1)にしていたものを,期待値で除して求めたものである.
(ポアソン分布であるとすると平均値=期待値=分散)
カイ二乗値=Σ(観察度数-期待値)/期待値

検定

先週までのt検定はパラメトリック検定と呼ばれていますが,カイ二乗検定はノンパラメトリック検定で質的変量の性質を利用(名義尺度)しています.
検定の手順は変わらないのですが,検定統計量の算出が変わる程度
以下の記事参照ください
よく,パラメトリック検定を分布に依存すると表現している件(奈良県立医科大学附属病院 統計学2021(HIM合格友の会))
https://medbb.net/education/nmuhimstat2021/index.php#paranonpara

適合度の検定

1行n列
事象の起こる確率に基づく頻度(=n×p)期待値(度数))と実際に観測された度数(観察度数)の差異について検定.帰無仮説(測定した分布は想定されている分布と等しい)H:P=(1/6,1/6,1/6,1/6,1/6,1/6)・・・サイコロの場合
<例題> 対象とする集団のABO式血液型の割合はA型40%、O型30%、B型20%、AB型10%なのか?
A型28人 O型22人 B型22人 AB型18人
有意水準5%で検定せよ
nmuhlthstat1202106-01.png(3747 byte)
血液型Aのカイ二乗値=(28-36)/36=1.78 O型以降も同様に求め足し合わせる
χ=1.78+0.93+0.89+9.00=12.59
この集計表の自由度は3・・・χ0.05(3)=7.815
帰無仮説を棄却し対立仮説を採択.つまり適合しない.

独立性の検定

m行n列
こちらはそれぞれが独立しているか(関係があるか無いか)を検定
考え方は一緒
事象の起こる確率は実際に観測された度数を基に算出して全体の度数を乗じることで期待値(度数)とする.
nmuhlthstat1202106-02.png(3628 byte)
期待値は周辺度数より求める格好
nmuhlthstat1202106-03.png(3808 byte)
喫煙あり×コーヒー好きの期待値=100×90/160=56.25 以降も同様に全ての組み合わせで期待値を求める
喫煙あり×コーヒー好きのカイ二乗値=(75-56.25)/56.25=6.25 以降も同様に求め足し合わせる
χ=6.25+10.42+8.04+13.39=38.10
この集計表の自由度は1・・・χ0.05(1)=3.84
帰無仮説を棄却し対立仮説を採択.つまり関連がある.

課題

1.コーヒーの好き嫌いが運動習慣に関連があるのかアンケート調査を行った.有意水準5%で検定を行え

nmubiostat202107-01.png(2907 byte)

2.上記の各セルの度数を勝手に倍にしてみた.(無論現実にはやってはいけない)同様に検定を行え

nmubiostat202107-02.png(2923 byte)