大阪リハビリテーション専門学校 統計学2018
(理学療法学科/作業療法学科)
授業について
教科書
入門統計学−検定から多変量解析・実験計画法まで(オーム社)http://shop.ohmsha.co.jp/shop/shopdetail.html?brandcode=000000001900&search=978-4-274-06855-3&sort=
この教科書は授業中よりもむしろその後の人生で読み返すことが多いと思います。
そのような観点から本を選定しました。
本授業では以下のような格好で教科書を用います
O:概ね利用 △:少し利用る X:ほぼ利用しない
○1章 データの整理−記述統計学−
△2章 確率分布
○3章 不変推定量と標本分布
○4章 信頼区間の推定
△5章 カイ二乗分布とF分布
○6章 検定の基本
△7章 2群の平均の差の検定
X8章 分散分析
△9章 多重比較法
X10章 実験計画法
△11章 カテゴリーデータの検定−ノンパラメトリック手法@−
X12章 カテゴリーデータの検定−ノンパラメトリック手法A−
△13章 重回帰分析−多変量解析@−
X14章 主成分分析と因子分析−多変量解析A−
X15章 判別分析とクラスター分析−多変量解析B−
○:授業で取り扱う
△:一部授業で取り扱う
X:将来必要になったときに読んでください
大まかな進め方としては 記述統計→推測統計 の流れです。
PTもOTも、同じ構成で考えていますが、状況(学科の特性など)によって進度が異なるかもしれません
凡例:
作業療法学科授業時のコメント |
理学療法学科授業時のコメント |
そもそも試験の時に電卓を使うべきかどうかも悩んでいます
授業メニュー
第1回 記述統計(T)−尺度・度数分布について
第2回 記述統計(U)−代表値について
第3回 記述統計(V)−散布度について
第4回 記述統計(W)−相関係数・回帰直線
第5回 推測統計(T)−推定
第6回 推測統計(U)−t検定
第7回 推測統計(V)−カイ二乗検定
第1回 記述統計(T)−尺度・度数分布について
到達目標1−1記述統計と推測統計について説明できる
1−24つの尺度について説明できる
1−3度数分布表が作成できる
統計とは
教科書による統計学
『統計学はあくまで「確率で真の結論を推測する」だけ』私の考える統計学
『気づかせてくれるもの。うすうす気づいていることを確認するもの』私の考える医療統計学(2015)
『ある事象のなかで一般化出来るもの(法則性)を見いだすことは、その個別の事例にとどまらず広く利用できる知見をもたらす。そのためには複数の事例を集めて検討する統計処理が必要になる。それゆえ、統計処理は個別の事情を発生頻度などある条件に従って排除する主義に基づく。
私達の周りで起こる様々な事象は自然現象によるものだけではなく人間活動などの人工的な要因の影響を受けるものも多く、そのため法則性を見いだすにはそれぞれの領域の目的に応じた統計処理が必要となる。
医療統計学は、単に生物としてだけではなく活動状況も多様な集団である人に対して、提供する医療が及ぼす影響やその要因に関する法則性を見いだす方法を探求する学問分野である。』
(複雑なため確定的な事象はなく確率的に取り扱う必要がある)
統計の分類
記述統計(1章)と推測統計(3章)に分類される記述統計とは
・収集したデータを要約してその集団の状況を表す・そこにあるデータは全体(母集団)
・度数(分布)・代表値・散布度など
変量(データ)の分類・・・測定尺度
変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。それぞれを尺度と呼び、4つに分類するのが一般的である(P5)
1名義尺度
2順序尺度
3間隔尺度
4比率(比例)尺度
1,2を質的データ(変量)(定性的)
3,4を量的データ(変量)(定量的)
性質としては上位互換性があり
4>3>2>1
度数分布表
それぞれのデータ(変量)の数(出現頻度)をまとめたもの変量が名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数 ・・・出現頻度
相対度数・・・総出現頻度を1(100%)としたときのそのぞれの度数のしめる割合
累積度数・・・上位の変量の度数もあわせた度数
累積相対度数・・・累積度数の相対版
品名 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|
いちご | 15 | |||
みかん | 8 | |||
ぶどう | 7 | |||
計 | 30 | 1.00 | ----- | ----- |
度数分布図
度数分布表をグラフ化したもの縦棒グラフだが量的変量に限っては「ヒストグラム」その棒の部分の面積が度数を示している
<余談>
図にするときには色々なお作法があります
スタージェスの公式
量的変量の度数分布表・図作成の時に階級幅設定の参考になる公式K(階級数)=1+log2(サンプル数)
P6のキュウリの件サンプル数は30なので
1+4.907=5.907
6ぐらいが適当
上記を参考にしながら階級幅を決めるとよい(かも程度で)
(教科書のヒストグラムは7階級)
参考:ヒストグラムは怖い−スタージェスの公式(高校数学の問題を作る −工夫・コツとデータ− )
http://www10.plala.or.jp/mondai/columun/hist.pdf
(経験則に基づいたものだとばかり思っていたのでビックリ)
到達度確認
1)4つの尺度についてそれぞれの変量の例をあげよ2)P20のデータ(親子の身長データ)より度数分布表・度数分布図を作成せよ
授業後補足(作業療法学科)
次回の冒頭に到達度確認します 度数分布表はどの尺度でも作成できます。 お作法的に名義の場合は度数の大きいもの(その他は最後)から順に書きます。順序尺度以上であればその順番 お作法なので、分かりやすくするために破る場合もあります(比較の場合など) |
授業後補足(理学療法学科)
第2回 記述統計(U)−代表値について
到達目標2−1代表値にどのようなものがあるか説明・計算することが出来る
2−2度数分布表から平均値などの算出が出来る
代表値と散布度があると(構成数nもですが)その集団がどんなものか想像出来る(マラソン実況)
代表値
average(その集団を数値一つで表す。excelはaverage関数で算術平均を出すが、まぁ代表値の代表ということだからと解釈しています)算術平均
mean1/n・Σxii
正社員男性の平均給与「527万円」 引き上げているのは誰なのか?(BLOGOS-キャリコネニュース2014年10月04日)
http://blogos.com/article/95831/
加重平均 それぞれの変数を評価した上での平均
例えば
度数分布表から算術平均を計算
Σ(階級値×度数)/構成数
幾何平均 積を求めてn乗根をとったもの
テストの点が10,15,14,13,60
算術平均=22.4
幾何平均=17.5
移動平均 平滑化
中央値
median(別名第2四分位数)量的変量を順序尺度で処理した代表値
順番に並べたとき真ん中の順位にきた個体の値
個体数が偶数の時は真ん中2つの数値の平均値
スキージャンプの飛型点は中央値的なノリで算術平均している
スキージャンプを知ろう!!ルール解説(ジャンプ雪印メグミルク)
https://www.meg-snow.com/jump/rule/rule.html
最頻値
mode(流行,はやり)違う意味で数の理論(多数決)の世界
量的変量を名義尺度で処理した代表値
名義尺度でわかることは一緒か違うか
階級毎に度数をカウント
一番多いところの階級値
一位が同点の時は併記(平均をとると えっオレ優勝!?状態になる)
到達度確認
1)P7表1.2のキュウリの収量の算術平均と、表1.3度数分布表から算術平均を求めよ授業後補足(作業療法学科)
前回(2回)から今回の分に関して授業中に示していたエクセルファイルは以下です ocrstat2018-02.xlsx |
授業後補足(理学療法学科)
こちらでは到達度確認以下の問題でした. 50人の誕生月を調査した.平均値,中央値,最頻値を求めよ
中央値 7 最頻値 4,7,8 ランダム関数で発生させたデータなので,誕生月に偏りがないデータになっていますが実際には異なります. 紹介したtweet
|
第3回 記述統計(V)−散布度について
到達目標3−1散布度にどのようなものがあるか説明・計算することが出来る
散布度・・・dispersion
最大値と最小値を使う
最大値と最小値がわかればその集団のバラツキがわかる最大値maximum excel max関数
最小値minimum excel min関数
範囲
RangeR=最大値−最小値
特徴
外れ値もひらう
算出が用意
四分位数を使う
Quartile小さい順(昇順)に並べて集団を4分割
第1四分位数 First Quartile:Q1 = 25th percentile 25%タイル値
第2四分位数 Second Quartile:Q2 = 50th percentile 50%タイル値 = Median 中央値
第3四分位数 Third Quartile:Q3 = 75th percentile 75%タイル値
四分位数の求め方・・・厳密には数種類ある
授業では以下の方法
四分位数の求め方注意:順序の話とその順位のラベル(数値)をこんがらがってしまわないように例:テストの点 16,5,12,16,13,15,15,18,20,10,20 昇順に並べて順位(カッコ書き)をつける 5(1),10(2),12(3),13(4),15(5),15(6),16(7),16(8),18(9),20(10),20(11) n数(11)を4で割る 第1四分位数・・・1/4の順位・・・11/4×1=2.75個に分割する場所に相当する数値 第2四分位数・・・2/4の順位・・・11/4×2=5.5個に分割する場所に相当する数値 第3四分位数・・・3/4の順位・・・11/4×3=8.25個に分割する場所に相当する数値 2.75個に分割した場所の出し方 +1/4番目の数値=3番目=12 5.5個に分割した場所の出し方 +2/4番目の数値=6番目=15 8.25個に分割した場所の出し方 +3/4番目の数値=9番目=18 |
四分位範囲
IQR(interquartile range)IQR=Q3-Q1
四分位偏差
QD(Quartile Deviation)QD=IQR/2
範囲は個々の値のバラツキをイメージ
偏差はある値からのズレをイメージ
平均値を使う
mean偏差
Deviationもともとは標準となる数値からのズレ(偏り)を意味するものだが統計の世界では集団の平均値からのズレを示す
偏差の平均をとれば集団内の各々のズレっぷりがわかる → 合計は常に0 故に平均も常に0
分散
varianceV excel関数はVAR
偏差の二乗したものの平均
標準偏差
Standard Deviation記号は標本s 母集団σ
s=√V
(故にVはs^2やσ^2で表現する)
変動係数
C.V.=s/xbar バラつきを比較するため平均値を用いて正規化到達度確認
1)第一章 章末問題問2より分散 標準偏差 変動係数を求めよ授業後補足(作業療法学科)
今回の到達度確認をエクセルでまとめた資料は以下 ocrstat2018-03.xlsx 求めたものは集団全体の分散,標準偏差,変動係数 実際には集団全体(=母集団)を調査することは難しい場合が多く集団の一部(=標本)から母集団の分散など(の統計量)(=母数)を推定することになる |
授業後補足(理学療法学科)
第4回 記述統計(W)−相関係数・回帰直線
到達目標4−1相関係数を説明・計算することが出来る
4−2回帰直線がどのようなものか説明することが出来る
本日の授業に関係あるtweet
朝食を採る子どもの方が成績が高い、とはよく聞く話ですが pic.twitter.com/GP7fPvp3i7
— えふわら(ぞうたま (@efuwara) 2018年10月13日
相関
correlative相関関係がある・・・関連がある
相関関係が無い・・・関連がない
他方の影響を受けるか受けないか
因果
cause and effect原因と結果
因果関係がある・・・影響がある
因果関係が無い・・・影響がない
普通は関連がある(相関がある)=影響を及ぼす関係(因果関係がある)と考える(考えたくなる)
例
たばこを吸う−肺がん・・・・相関関係○
タバコを吸う人にコーヒーを飲む人が多いのは・・・(yahoo知恵袋)
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1293675642
この関係を使うと
コーヒーを飲む−肺がん・・・相関関係○
コーヒー愛飲者に肺がんが多い理由は?生活習慣との関連を検証
アメリカで約50万人を対象にした調査から
from International journal of epidemiology
http://medley.life/news/item/5589521b660815fe00d5ec8e
コーヒーと肺がんの相関関係に割り込んでいる(どちらとも相関関係がある)状態=交絡
割り込んでいるそれ=交絡因子・・・たばこ
コーヒーと肺がんに因果関係が無いとしたならその関係は疑似相関
例(空想):年末に私の前を歩く人から「ついてこないで!」と言われるが、別にその人を追いかけているわけではない。お互い宝くじ売り場に向かっているだけ
この授業(統計学)は医療系対象で「提供する医療が及ぼす影響やその要因に関する法則性を見いだす方法を探求する学問分野」(再掲)
知りたいのは「影響」が何なのかであるから目的を見失わないように
相関図
X軸とY軸に一つの対象に与えられるそれぞれの値をプロット(例:身長と体重)とりあえず図にすると関係が直感的にわかる(場合がある)
相関係数
-1から1までの値をとるXが増加すればYも増加する・・・1
Xが増加すればYは減少する・・・-1
Xが増加しようが減少しようがYは関係ない・・・0
X軸で見たときのバラツキ具合とY軸で見たときのバラツキ具合を元に計算してる
バラツキ=散布度・・・分散・・・偏差の二乗の平均
共分散=ある対象のX軸の偏差とY軸の偏差を乗じたものがベース
Xの偏差 | Yの偏差 | 乗じた結果 |
---|---|---|
+ | + | + |
+ | − | − |
− | + | − |
− | − | + |
共分散はX軸Y軸のバラツキ具合が混ざっているのでそのままの数字だと解釈しにくい→XとYの標準偏差で除する(正規化)→相関係数
直線では無い場合は変数変換(例えば対数変換)してから計算する。
回帰直線
X軸の値とY軸の値を数式(y=ax+b)で示す直線を引いたときにそれぞれの点からの差(残差)の2乗して足したもの(平方和)が最も小さい時の数式が回帰直線
決定係数
相関係数を二乗したもの数式によって説明できる割合を示す。(寄与率とも)
高ければ高いほど数式で説明出来る
到達度確認
1)P20のデータ(親子の身長データ)より相関図を描け授業後補足(作業療法学科)
相関係数がどのようなからくりで求めているのか理解しておいてください. 相関係数の絶対値が大きいほど強い相関とは言えるが,その基準となる値は特に決められているわけでもなく・・・という話をしました. やみくもに相関係数を求めて値のみを根拠にして関係性を述べるのは危険というところでしょうか. <参考> 相関係数の大きさに対する目安の歴史的変遷(Tarotanのブログ) http://tarotan.hatenablog.com/entry/2015/08/16/222137 |
授業後補足(理学療法学科)
第5回 推測統計(T)−推定
到達目標5−1標準誤差がどのようなものか理解することが出来る
5−2中心極限定理を説明することが出来る
不偏推定量
母数の推定=不偏推定量算術平均・・・母平均の点推定値
分散・・・母分散の推定値
標本平均値は偏っていないが標本分散は偏っている
ここら辺のややこしいくだりは教科書参照
区間推定
ある確率分布に従うと仮定したときに、その分布に基づき、推定に幅を持たせる確率の話
二項分布
コインを一回投げて表の出る確率0.5=p(事象の起こる確率)表の出る回数x 試行回数n
P(X)=nCx・p^x・(1−p)^(nーx)
表の出る回数3 試行回数10
P(X-3)=10*9*8*7*6*5*4*3*2*1/((7*6*5*4*3*2*1)*(3*2*1))・0.5^3・(1-0.5)^(10-3)
=10*9*8/(3*2*1)・0.125・0.0078125
=0.1171875
サイコロ5回で1の目2回の場合
P(X=2)=5*4*3*2*1/(3*2*1*2*1)・(1/6)^2・(5/6)^3
ポアソン分布
二項分布(試行回数nと成功の確率p)→(事象の起こる回数=npを一定にして試行回数を↑確率↓)→ポアソン分布発生確率の低い(pが非常に小さい)事象が従う(とされている)
npの積λさえあれば求められる(事象の起こる回数さえ推定(過去の事象の平均など)できれば)
事象が起こる回数の確率を推定できる
正規分布
二項分布(試行回数nと成功の確率p)→(試行回数を無限大 確率を一定)→正規分布起こる確率(チャンスを掴む確率)が一定であるとしても積み重ねていくことでバラツキ(差)が出てしまう
人など生物の成長に関わるものなどは、正規分布に近いとされている
平均値μと分散σ^2で確率が決まる
常に曲線下の面積=1(100%)。といって裾野は広がるばかりで閉じない
中心極限定理によりかなり強力(通用しない相手にコーシー分布がいる)
中心極限定理
母集団の分布によらず、抽出した標本の平均値は表本数が大きくなるほど近似的に正規分布に従う区間推定の話に戻る
母平均にある確率で入る幅を持った推定値母平均は一つ(当然)だが、標本平均は標本ごとに異なる(当然)ので幅を持たせてある確率(95%)で母平均を表せるように
・標準正規確率(z)分布表の見方
標本の平均の分布
標準誤差は標本の平均のバラツキ標準偏差は標本のバラツキ
(昨年のこの授業の補足参照 http://www.medbb.net/education/ocrstat2015/index.html#SE)
授業後補足(作業療法学科)
大数の法則の話で示した平均値の推移(40〜80点) 不偏分散絡みの話は以下参照
|
授業後補足(理学療法学科)
第6回 推測統計(U)−t検定
到達目標6−1仮説検定の手順について説明できる
仮説検定
<大前提>やみくもに検定するのではなく、検定する理由・確信があるから確かめる という感じで手順1:仮説をたてる(帰無仮説H0および対立仮説H1)
背理法に基づく証明をしている。
(差がない仮説が証明できないので、その対立である差がある仮説を採択する)
手順2:有意水準を決める
確率的に必然と偶然を切り分けている。一般に5%で分けているが1%の時もある
手順3:検定統計量を計算する
その事象の起こる確率を計算していることになるが、用いる確率分布によって計算式が異なる。
手順4:有意水準と比較し、仮説を棄却採択する
例)帰無仮説H0を棄却し対立仮説H1採択
t分布
正規分布に基づき確率を求めるには母平均と母標準偏差が必要→nが多い場合標本平均と標本標準偏差で近似できるがnが少ない場合は近似できない→t分布(標本の自由度νさえわかっていれば、後は検定統計量を求めれば確率がわかる)
<参考>Points of significanceコラム2:統計における推定と検定 (2)(一人抄読会)
http://syodokukai.exblog.jp/20853048/
自由度
考え方・・・標本の中で自由に振る舞うことが許されている個体の数
統計値が母数の推定となると、自由に振る舞えない個体が出てくる(つじつま合わせ)
標本分散は偏差二乗和を個体の数で除することで求めるが母分散のほどよい推定である不偏分散はn-1(自由度)で除する
<参考>とりあえずt検定やってみたという統計の話(medbb.net)
http://www.medbb.net/education/ocrstat2015/img/01toriaezu.pdf
検定の前提条件
教科書P121参照対応のある2群(paired-t)や一標本t検定はあまり気にしなくても良いが、対応のない二群は注意する必要がある。
この教科書では、私が習ったころと同じく7.5の等分散の検定を行ってから行うこととしている。等分散でない場合はウェルチの検定
近年では対応のない二群は最初からウェルチ
到達度確認
P116の例題を有意水準を両側1%で検定せよ授業後補足(作業療法学科)
授業後補足(理学療法学科)
第7回 推測統計(V)−カイ二乗検定
到達目標7−1周辺度数から期待度数を算出することができる
7−2カイ二乗の検定統計量を求めることが出来る
本来あるべき姿(期待度数)と実際に測定されたデータ(測定度数)がどれだけかけ離れているか、その出現する確率を見ている
手順3の部分の手順
1−観察して度数を記入(観察度数)2−観察度数より周辺度数を求める(いわゆる合計)
3−周辺度数から期待度数を求める(CTの画像再構成の話を彷彿とさせる)
4−それぞれの観察度数と期待度数の差の二乗を求め、それを期待度数で除する(量的変量の分散の話に似ている・・・偏り)
5−4で求めた値を全部足す(これが検定統計量)