大阪リハビリテーション専門学校 統計学2020
(理学療法学科/作業療法学科)

授業について

教科書

入門統計学−検定から多変量解析・実験計画法まで(オーム社)
http://shop.ohmsha.co.jp/shop/shopdetail.html?brandcode=000000001900&search=978-4-274-06855-3&sort=

この教科書は授業中よりもむしろその後の人生で読み返すことが多いと思います。
そのような観点から本を選定しました。

本授業では以下のような格好で教科書を用います
O:概ね利用 △:少し利用る X:ほぼ利用しない

○1章 データの整理−記述統計学−
△2章 確率分布
○3章 不変推定量と標本分布
○4章 信頼区間の推定
△5章 カイ二乗分布とF分布
○6章 検定の基本
△7章 2群の平均の差の検定
X8章 分散分析
△9章 多重比較法
X10章 実験計画法
△11章 カテゴリーデータの検定−ノンパラメトリック手法@−
X12章 カテゴリーデータの検定−ノンパラメトリック手法A−
△13章 重回帰分析−多変量解析@−
X14章 主成分分析と因子分析−多変量解析A−
X15章 判別分析とクラスター分析−多変量解析B−

○:授業で取り扱う
△:一部授業で取り扱う
X:将来必要になったときに読んでください

大まかな進め方としては 記述統計→推測統計 の流れです。
PTもOTも、同じ構成で考えていますが、状況(学科の特性など)によって進度が異なるかもしれません
凡例:
作業療法学科授業時のコメント
理学療法学科授業時のコメント
電卓使いますのでよろしくお願いします(授業中はスマホで可ですが試験の時は×)
そもそも試験の時に電卓を使うべきかどうかも悩んでいます


授業メニュー
第1回 記述統計(T)−尺度・度数分布について [復習動画]

第2回 記述統計(U)−代表値について [復習動画] [課題解説]

第3回 記述統計(V)−散布度について [復習動画] [課題解説]

第4回 記述統計(W)−相関係数・回帰直線 [復習動画] [課題解説]

第5回 推測統計(T)−推定 [復習動画](正規分布編) [課題解説](+t分布編)

第67回 推測統計(U)−t検定 OT[復習動画] OT[課題解説]

               [PT講義動画]6-1 [PT講義動画]6-2  [PT講義動画]6-3

               [PT講義動画]7-1 [PT講義動画]7-2

復習動画閲覧の際の注意事項
iOS 11以降のiphone等で閲覧が出来ない場合があります.androidやPC等他の端末での閲覧を推奨します
もしiphone等で閲覧したい場合は自己判断の上以下の設定をしてください.
[設定]→[Safari]→[サイト越えトラッキングを防ぐ]を無効
<参考>iPhone向けSafariで「サイト越えトラッキングを防ぐ」機能をオフにする(Yahoo)
https://support.yahoo-net.jp/SccYjcommon/s/article/H000012099


第1回 記述統計(T)−尺度・度数分布について

到達目標
1−1記述統計と推測統計について説明できる
1−24つの尺度について説明できる
1−3度数分布表が作成できる


統計とは

教科書による統計学

『統計学はあくまで「確率で真の結論を推測する」だけ』

私の考える統計学

『気づかせてくれるもの。うすうす気づいていることを確認するもの』

私の考える医療統計学(2015)

『ある事象のなかで一般化出来るもの(法則性)を見いだすことは、その個別の事例にとどまらず広く利用できる知見をもたらす。そのためには複数の事例を集めて検討する統計処理が必要になる。
 それゆえ、統計処理は個別の事情を発生頻度などある条件に従って排除する主義に基づく。
 私達の周りで起こる様々な事象は自然現象によるものだけではなく人間活動などの人工的な要因の影響を受けるものも多く、そのため法則性を見いだすにはそれぞれの領域の目的に応じた統計処理が必要となる。
 医療統計学は、単に生物としてだけではなく活動状況も多様な集団である人に対して、提供する医療が及ぼす影響やその要因に関する法則性を見いだす方法を探求する学問分野である。』
(複雑なため確定的な事象はなく確率的に取り扱う必要がある)

統計の分類

記述統計(1章)と推測統計(3章)に分類される

記述統計とは

・収集したデータを要約してその集団の状況を表す
・そこにあるデータは全体(母集団)
・度数(分布)・代表値・散布度など

変量(データ)の分類・・・測定尺度

変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。
それぞれを尺度と呼び、4つに分類するのが一般的である(P5)
1名義尺度
2順序尺度
3間隔尺度
4比率(比例)尺度

1,2を質的データ(変量)(定性的)
3,4を量的データ(変量)(定量的)
性質としては上位互換性があり
4>3>2>1

度数分布表

それぞれのデータ(変量)の数(出現頻度)をまとめたもの
変量が名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数  ・・・出現頻度
相対度数・・・総出現頻度を1(100%)としたときのそのぞれの度数のしめる割合
累積度数・・・上位の変量の度数もあわせた度数
累積相対度数・・・累積度数の相対版

品名 度数 相対度数 累積度数 累積相対度数
いちご 15
みかん
ぶどう
30 1.00 ----- -----

度数分布図

度数分布表をグラフ化したもの
縦棒グラフだが量的変量に限っては「ヒストグラム」その棒の部分の面積が度数を示している
<余談>
図にするときには色々なお作法があります

スタージェスの公式

量的変量の度数分布表・図作成の時に階級幅設定の参考になる公式
K(階級数)=1+log2(サンプル数)
P6のキュウリの件サンプル数は30なので
1+4.907=5.907
6ぐらいが適当
上記を参考にしながら階級幅を決めるとよい(かも程度で)
(教科書のヒストグラムは7階級)

参考:ヒストグラムは怖い−スタージェスの公式(高校数学の問題を作る −工夫・コツとデータ− )
http://www10.plala.or.jp/mondai/columun/hist.pdf
(経験則に基づいたものだとばかり思っていたのでビックリ)

到達度確認

次の厚生労働省の統計データより理学療法士,又は作業療法士のいずれかの府県別(近畿圏内)の度数分布表を作成せよ
なお,近畿圏内の定義については指定しないので各自判断のこと
病院報告 / 平成28年病院報告 下巻(都道府県) 従事者数(e-stat/厚生労働省)
https://www.e-stat.go.jp/stat-search/files?page=1&layout=datalist&toukei=00450023&tstat=000001030749&cycle=7&tclass1=000001106855&tclass2=000001106865&tclass3=000001106869&stat_infid=000031628676&tclass4val=0
データが常勤換算のため,度数というには小数点があるとおかしいので四捨五入して整数化した以下のデータで作成してください.
orcstat2020-0101.png(60487 byte)
「平成28年(2016)医療施設(動態)調査・病院報告」(厚生労働省)(https://www.mhlw.go.jp/toukei/saikin/hw/iryosd/16/)を加工して作成

授業後補足(作業療法学科)


授業後補足(理学療法学科)


第2回 記述統計(U)−代表値について

到達目標
2−1代表値にどのようなものがあるか説明・計算することが出来る
2−2度数分布表から平均値などの算出が出来る


代表値と散布度があると(構成数nもですが)その集団がどんなものか想像出来る(マラソン実況)

代表値

average(その集団を数値一つで表す。excelはaverage関数で算術平均を出すが、まぁ代表値の代表ということだからと解釈しています)

算術平均

mean
1/n・Σxii
正社員男性の平均給与「527万円」 引き上げているのは誰なのか?(BLOGOS-キャリコネニュース2014年10月04日)
http://blogos.com/article/95831/
加重平均 それぞれの変数を評価した上での平均
例えば
度数分布表から算術平均を計算
Σ(階級値×度数)/構成数

幾何平均 積を求めてn乗根をとったもの
テストの点が10,15,14,13,60
算術平均=22.4
幾何平均=17.5
移動平均 平滑化

中央値

median(別名第2四分位数)
量的変量を順序尺度で処理した代表値
順番に並べたとき真ん中の順位にきた個体の値
個体数が偶数の時は真ん中2つの数値の平均値
スキージャンプの飛型点は中央値的なノリで算術平均している
スキージャンプを知ろう!!ルール解説(ジャンプ雪印メグミルク)
https://www.meg-snow.com/jump/rule/rule.html

最頻値

mode(流行,はやり)
違う意味で数の理論(多数決)の世界
量的変量を名義尺度で処理した代表値
名義尺度でわかることは一緒か違うか
階級毎に度数をカウント
一番多いところの階級値
一位が同点の時は併記(平均をとると えっオレ優勝!?状態になる)


到達度確認

1)下の身長データ(個票データ)より度数分布表を作成せよ.
2)平均値 中央値 最頻値を求めよ.
3)度数分布表より平均値を求めよ.
ID 身長(cm) ID 身長(cm)
1 178.0 13 175.0
2 173.0 14 189.0
3 180.0 15 175.0
4 170.0 16 182.0
5 162.0 17 166.0
6 176.0 18 176.0
7 166.0 19 177.0
8 171.0 20 167.0
9 164.0 21 178.0
10 169.0 22 182.0
11 165.0 23 161.0
12 171.0 24 189.0

授業後補足(作業療法学科)


授業後補足(理学療法学科)


第3回 記述統計(V)−散布度について

[復習動画]
到達目標
3−1散布度にどのようなものがあるか説明・計算することが出来る


散布度・・・dispersion

最大値と最小値を使う

最大値と最小値がわかればその集団のバラツキがわかる
最大値maximum excel max関数
最小値minimum excel min関数

範囲

Range
R=最大値−最小値

特徴
 外れ値もひらう
 算出が容易

四分位数を使う

Quartile
小さい順(昇順)に並べて集団を4分割

第1四分位数 First Quartile:Q1 = 25th percentile 25%タイル値
第2四分位数 Second Quartile:Q2 = 50th percentile 50%タイル値 = Median 中央値
第3四分位数 Third Quartile:Q3 = 75th percentile 75%タイル値
四分位数の求め方・・・厳密には数種類ある
授業では以下の方法

四分位数の求め方

注意:順序の話とその順位のラベル(数値)をこんがらがってしまわないように
例:テストの点 16,5,12,16,13,15,15,18,20,10,20
昇順に並べて順位(カッコ書き)をつける 5(1),10(2),12(3),13(4),15(5),15(6),16(7),16(8),18(9),20(10),20(11)
n数(11)を4で割る
第1四分位数・・・1/4の順位・・・11/4×1=2.75個に分割する場所に相当する数値
第2四分位数・・・2/4の順位・・・11/4×2=5.5個に分割する場所に相当する数値
第3四分位数・・・3/4の順位・・・11/4×3=8.25個に分割する場所に相当する数値

2.75個に分割した場所の出し方
+1/4番目の数値=3番目=12

5.5個に分割した場所の出し方
+2/4番目の数値=6番目=15

8.25個に分割した場所の出し方
+3/4番目の数値=9番目=18


四分位範囲

IQR(interquartile range)
IQR=Q3-Q1

四分位偏差

QD(Quartile Deviation)
QD=IQR/2
範囲は個々の値の幅をイメージ
偏差はある値からのズレをイメージ

平均値を使う

mean

偏差

Deviation
もともとは標準となる数値からのズレ(偏り)を意味するものだが統計の世界では集団の平均値からのズレを示す
偏差の平均をとれば集団内の各々のズレっぷりがわかる → 合計は常に0 故に平均も常に0

分散

variance
V excel関数はVAR
偏差の二乗したものの平均

標準偏差

Standard Deviation
記号は標本s 母集団σ
s=√V
(故にVはs^2やσ^2で表現する)

変動係数

C.V.=s/xbar バラつきを比較するため平均値を用いて正規化

到達度確認

1)第一章 章末問題問2の総経営耕地面積のデータを用いて,範囲,四分位範囲,四分位偏差,分散 標準偏差 変動係数を求めよ

授業後補足(作業療法学科)

授業で説明した四分位数の考え方をまとめたブログです.

授業後補足(理学療法学科)


第4回 記述統計(W)−相関係数・回帰直線

到達目標
4−1相関係数を説明・計算することが出来る
4−2回帰直線がどのようなものか説明することが出来る


食事と学力、体温(テルモ体温研究所)
https://www.terumo-taion.jp/health/study/01.html
朝ごはんを食べると学力が向上するって本当?〜食事の大切さについてどう伝えるか〜(YAHOO!Japan) https://news.yahoo.co.jp/byline/naritatakanobu/20180406-00083651/

相関

correlative
相関関係がある・・・関連がある
相関関係が無い・・・関連がない
他方の影響を受けるか受けないか

因果

cause and effect
原因と結果
因果関係がある・・・影響がある
因果関係が無い・・・影響がない

普通は関連がある(相関がある)=影響を及ぼす関係(因果関係がある)と考える(考えたくなる)

たばこを吸う−肺がん・・・・相関関係○

タバコを吸う人にコーヒーを飲む人が多いのは・・・(yahoo知恵袋)
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1293675642
この関係を使うと
コーヒーを飲む−肺がん・・・相関関係○

コーヒー愛飲者に肺がんが多い理由は?生活習慣との関連を検証
アメリカで約50万人を対象にした調査から
from International journal of epidemiology
http://medley.life/news/item/5589521b660815fe00d5ec8e

コーヒーと肺がんの相関関係に割り込んでいる(どちらとも相関関係がある)状態=交絡
割り込んでいるそれ=交絡因子・・・たばこ
コーヒーと肺がんに因果関係が無いとしたならその関係は疑似相関

例(空想):年末に私の前を歩く人から「ついてこないで!」と言われるが、別にその人を追いかけているわけではない。お互い宝くじ売り場に向かっているだけ

この授業(統計学)は医療系対象で「提供する医療が及ぼす影響やその要因に関する法則性を見いだす方法を探求する学問分野」(再掲)
知りたいのは「影響」が何なのかであるから目的を見失わないように

相関図

X軸とY軸に一つの対象に与えられるそれぞれの値をプロット(例:身長と体重)
とりあえず図にすると関係が直感的にわかる(場合がある)

相関係数

-1から1までの値をとる
Xが増加すればYも増加する・・・1
Xが増加すればYは減少する・・・-1
Xが増加しようが減少しようがYは関係ない・・・0

X軸で見たときのバラツキ具合とY軸で見たときのバラツキ具合を元に計算してる
バラツキ=散布度・・・分散・・・偏差の二乗の平均
共分散=ある対象のX軸の偏差とY軸の偏差を乗じたものがベース
  
Xの偏差 Yの偏差 乗じた結果
乗じた結果の平均が共分散
共分散はX軸Y軸のバラツキ具合が混ざっているのでそのままの数字だと解釈しにくい→XとYの標準偏差で除する(正規化)→相関係数

直線では無い場合は変数変換(例えば対数変換)してから計算する。

回帰直線

X軸の値とY軸の値を数式(y=ax+b)で示す
直線を引いたときにそれぞれの点からの差(残差)の2乗して足したもの(平方和)が最も小さい時の数式が回帰直線

決定係数

相関係数を二乗したもの
数式によって説明できる割合を示す。(寄与率とも)
高ければ高いほど数式で説明出来る

到達度確認

1)以下のデータより関西2府4県,中国・四国地方9県,九州・沖縄地方8県の医療従事者数で自分が目指す医療職種と相関係数が一番高いものと低いものを選び散布図を描け
なお比較する職種は医師,歯科医師,薬剤師,保健師,助産師,看護師,視能訓練士,言語聴覚士,歯科衛生士,歯科技工士,診療放射線技師,臨床検査技師,臨床工学技士,精神保健福祉士,事務職員とする.

病院報告 / 平成28年病院報告 下巻(都道府県) 従事者数(e-stat/厚生労働省)
https://www.e-stat.go.jp/stat-search/files?page=1&layout=datalist&toukei=00450023&tstat=000001030749&cycle=7&tclass1=000001106855&tclass2=000001106865&tclass3=000001106869&stat_infid=000031628676&tclass4val=0
orcstat2020-0401.png(199698 byte)
「平成28年(2016)医療施設(動態)調査・病院報告」(厚生労働省)(https://www.mhlw.go.jp/toukei/saikin/hw/iryosd/16/)を加工して作成

授業後補足(作業療法学科)


授業後補足(理学療法学科)


第5回 推測統計(T)−推定

到達目標
5−1標準誤差がどのようなものか理解することが出来る
5−2中心極限定理を説明することが出来る


不偏推定量

母数の推定=不偏推定量
算術平均・・・母平均の点推定値
分散・・・母分散の推定値

標本平均値は偏っていないが標本分散は偏っている
ここら辺のややこしいくだりは教科書参照
<参考>不偏分散は何故nではなく(n-1)で除するのか(生物統計学2018奈良医大)
https://medbb.net/education/nmubiostat2018/index.html#VAR

区間推定

ある確率分布に従うと仮定したときに、その分布に基づき、推定に幅を持たせる

確率の話

ちょっとしたクイズ

二項分布

コインを一回投げて表の出る確率0.5=p(事象の起こる確率)
表の出る回数x 試行回数n 
P(X)=nCx・p^x・(1−p)^(nーx)

ポアソン分布

二項分布(試行回数nと成功の確率p)→(事象の起こる回数=npを一定にして試行回数を↑確率↓)→ポアソン分布
発生確率の低い(pが非常に小さい)事象が従う(とされている)
npの積λさえあれば求められる(事象の起こる回数さえ推定(過去の事象の平均など)できれば)
事象が起こる回数の確率を推定できる

正規分布

二項分布(試行回数nと成功の確率p)→(試行回数を無限大 確率を一定)→正規分布
起こる確率(チャンスを掴む確率)が一定であるとしても積み重ねていくことでバラツキ(差)が出てしまう
人など生物の成長に関わるものなどは、正規分布に近いとされている
平均値μと分散σ^2で確率が決まる
常に曲線下の面積=1(100%)。といって裾野は広がるばかりで閉じない
中心極限定理によりかなり強力(通用しない相手にコーシー分布がいる)

中心極限定理

母集団の分布によらず、抽出した標本の平均値は表本数が大きくなるほど近似的に正規分布に従う

区間推定の話に戻る

母平均にある確率で入る幅を持った推定値
母平均は一つ(当然)だが、標本平均は標本ごとに異なる(当然)ので幅を持たせてある確率(95%)で母平均を表せるように
nmubiostat2016-0401.png(9702 byte)
・標準正規確率(z)分布表の見方

標本の平均の分布

標準誤差は標本の平均のバラツキ
標準偏差は標本のバラツキ
(過去のこの授業の補足参照 http://www.medbb.net/education/ocrstat2015/index.html#SE

到達度確認

以下のエクセルシートより実際に平均値の推定がどの程度の確率で当たっているのか計算せよ
orcstat2020-0501.png(10019 byte)
orcstat2020-0501.xlsx

動画で説明していた,実際に計算していただく数値は以下になります.
表をクリックすると大きいサイズで見れますのでクリックしてください
orcstat2020-0502s.png(130948 byte)

授業後補足(作業療法学科)

t分布

正規分布に基づき確率を求めるには母平均と母標準偏差が必要→nが多い場合標本平均と標本標準偏差で近似できるが
nが少ない場合は近似できない→t分布(標本の自由度νさえわかっていれば、後は検定統計量を求めれば確率がわかる)
<参考>Points of significanceコラム2:統計における推定と検定 (2)(一人抄読会)
http://syodokukai.exblog.jp/20853048/
自由度
考え方・・・標本の中で自由に振る舞うことが許されている個体の数
      統計値が母数の推定となると、自由に振る舞えない個体が出てくる(つじつま合わせ)
標本分散は偏差二乗和を個体の数で除することで求めるが母分散のほどよい推定である不偏分散はn-1(自由度)で除する


授業後補足(理学療法学科)


第6回 推測統計(U)−t検定

到達目標
6−1仮説検定の手順について説明できる

仮説検定

<大前提>やみくもに検定するのではなく、検定する理由・確信があるから確かめる という感じで
手順1:仮説をたてる(帰無仮説H0および対立仮説H1)
背理法に基づく証明をしている。
(差がない仮説が証明できないので、その対立である差がある仮説を採択する)
手順2:有意水準を決める
確率的に必然と偶然を切り分けている。一般に5%で分けているが1%の時もある
手順3:検定統計量を計算する
その事象の起こる確率を計算していることになるが、用いる確率分布によって計算式が異なる。
手順4:有意水準と比較し、仮説を棄却採択する
例)帰無仮説H0を棄却し対立仮説H1採択

<参考>とりあえずt検定やってみたという統計の話(medbb.net)
http://www.medbb.net/education/ocrstat2015/img/01toriaezu.pdf

検定と推定の違い

推定
orcstat2020-0602.png(11589 byte)
検定
orcstat2020-0603.png(12754 byte)

検定の前提条件

教科書P121参照
対応のある2群(paired-t)や一標本t検定はあまり気にしなくても良いが、対応のない二群は注意する必要がある。
この教科書では、私が習ったころと同じく7.5の等分散の検定を行ってから行うこととしている。等分散でない場合はウェルチの検定
近年では対応のない二群は最初からウェルチ
P120の例題
・成長速度の差を算出して区間推定(信頼係数95%)で行うこと)・・・差の平均-0.58を基に区間推定
 求める数式は Xbar±t×標準誤差
 今回はサンプル数5なので自由度は4.・・・両側で95%とするとt=2.776
 標準誤差=σ/√n
 標本で求めた標準偏差は偏りがある(μで計算せずXbarで計算しているのでその分小さくなる)→偏差平方和を(n-1)で除する(不偏分散)の正の平方根=不偏標準偏差
 n-1で割る理由は気になったときは以下
<参考>不偏分散は何故nではなく(n-1)で除するのか(生物統計学2018奈良医大)
https://medbb.net/education/nmubiostat2018/index.html#VAR
・成長速度の検定・・・母集団の差の平均が0(μ1=μ2)としたときに,算出された標本における差の平均-0.58は,よくあるバラツキの範疇として帰無仮説が成立するか
 仮説に基づく話なので,母平均は0ありきで進める(その話が成立するか否か)
 t値が-2.776~2.776の間に,今回の標本で得られたデータが収まっているかどうか
 →標本の値をt値にしたときにいくらになりますか?

到達度確認

新開発のシューズを2種類開発した.それぞれ同一被験者に従来型と新型を履いて5km走のタイムを計測し比較を行った.
対応のある2群の差の検定を優位水準5%で行え
orcstat2020-0601.png(44900 byte)
Aのこたえ
orcstat2020-0601a.png(20254 byte)
Bのこたえ
orcstat2020-0601b.png(22201 byte)
Aは差がある。Bは判定保留(差がない)。
判定保留というのは、もともと差がある(タイムが上がる)という裏付けを持ったうえで実証するプロセスだから
(対応のない2群の差との検定についても考えられるように) 参考 令和元年度体力・運動能力調査結果の概要及び報告書について(スポーツ庁)
https://www.mext.go.jp/sports/b_menu/toukei/chousa04/tairyoku/kekka/k_detail/1421920_00001.htm

授業後補足(作業療法学科)


授業後補足(理学療法学科)