大阪保健医療大学 統計学2016
(保健医療学部リハビリテーション学科 理学療法学専攻・作業療法学専攻)
第1回 誤差と交絡
到達目標1−1真度を高くする対策を考えることができる
1−2真度を高くする対策を考えることができる
1−3交絡について例を挙げ説明することができる
誤差
偶然誤差と系統誤差に分かれる偶然誤差・・・精度の話
系統誤差・・・真度の話
精度の向上
偶然誤差の排除偶然発生する誤差・・・確率論
体温計・・・測定場所を同じにしているつもりでも意図せずに微妙にずれる
中心極限定理
標本の大きさが十分であれば標本平均の分布は正規分布
→正しく測定されているのであれば偶然誤差の発生は正規分布に従う
→測定回数を増やせば増やすほど
<参考>
http://aoki2.si.gunma-u.ac.jp/lecture/SampleSurvey/samplesize.html
真度の向上
系統誤差の排除偶然ではない(必然の)誤差への対応・・・偏り(バイアス)の除去
選択の偏り
うすうす感づいており、診断がつきやすかった。
情報の偏り 虚偽の報告とか
交絡因子
疫学でお目にかかる言葉ライターを持つと肺がんになる???(危険因子)
この場合、喫煙が交絡因子
交絡因子とは
・疾病発生の危険要因・曝露(ライター)と関連がある
・曝露(ライター)と疾病の中間過程ではない
第2〜5回 確率的推論
到達目標2−1感度と特異度の算出が出来る
2−2ROC曲線が書ける
2−3ベイズの定理を用いた計算が行える
確率
P(A)・・・事象Aが起こる確率P(A|B)・・・事象Bが起こった中で事象Aが起こる確率
感度と特異度
感度=P(陽性|D)偽陽性率=P(陽性|Dc)
特異度=1−偽陽性率
何でも陽性と判断する検査は感度も偽陽性率も1になる
(なんでもかんでも、あります!! のノリ)
ROC曲線
検出能の評価 感度と特異度(1−偽陽性率)を用いて曲線を描くベイズの定理
P(A|B)の世界の時間の向きを反対にしたP(B|A)の世界へ事前確率(例:一般に罹患する確率)→データ(例:検査結果)→事後確率の算出
到達度確認
1)Aさんは炊飯ジャーを買いに商店街に行こうとしています。A商店街では炊飯ジャーを買うと20%の確率で景品(米5kg)のあたる抽選会でくじを一回引くことができます。
一方B商店街で買うと10%の確率で景品(米10kg)のあたる抽選会に参加できます。
A商店街の方が品が安く買えるため60%の確率で購入、
B商店街の方は若干価格が高いのですが品数豊富で40%の確率で購入するとした場合、
Aさんが景品(米)を手にする確率は何%でしょうか。
2)以下のマンモグラフィに関する検査結果結果からROC曲線を描き、教科書P13の結果と比較してどちらの性能がすぐれているか述べよ
右クリックでダウンロード
回答例は以下(数式は授業にて解説)
3)教科書P9表1.1のデータを用いてベイズの定理を用いて陽性的中率を求めよ
補足
教科書該当ページ 1章P2-P22 ROC曲線の評価は面積の話と左上に近い曲線の方がすぐれているという話 カットオフポイントの話もしました 一般的(教科書的)な理解はそれで良いかと思います ただし、目的によって話感度を高めにすることが偽陽性の発生よりも優先する場合もありますし、他の検査との組み合わせもあるので良く考える必要はある 参考記事: がんの検査で「陽性」と言われたら、がんがあるのか?(MEDLEY) https://medley.life/news/item/56a097e14f22981e008b4572 がん検診「陽性」でも99%は問題なし?意外と知らないデータの真実 http://bylines.news.yahoo.co.jp/mamoruichikawa/20160503-00057271/ 感度・特異度は疾患の確率に依存しないが、予測値は依存するという話 複数回の内訳 第2回:確率の計算,感度特異度の計算,ROC曲線の作成 第3回:エクセルを用いて第2回の復習 第4回:エクセルを用いて個票データからROC曲線の作成(数式を用いた表作成) 第5回:エクセルを用いて個票データからROC曲線の作成,評価 復習にどうぞ 【統計学】ROC曲線とは何か、アニメーションで理解する。 ROCに関する話はたとえば以下のサイト(統計WEB(SSRI))等があります。エクセルにソフトをアドインする方法もあります https://software.ssri.co.jp/statweb2/sample/example_25.html |
第6〜7回 記述統計
到達目標6−1個票から度数分布表を作成できる
6−2代表値を算出できる
6−3散布度を算出できる
6−4標準誤差、中心極限定理について説明できる
度数分布
以下の度数分布表のフォーマットに従い教科書P23のPCBの測定値について1.度数分布表の作成
個票データからカウントさせること
2.ヒストグラムの作成
階級 | 階級値 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|---|
0-2.5 | |||||
2.5-5 | |||||
5-7.5 | |||||
計 | ----- | ----- | ----- |
代表値の算出
平均値は個票データ及び度数分布表から求めること散布度の算出
標本分散と不偏分散に注意乱数を用いた定理の確認
・中心極限定理・標本誤差と標準偏差
補足
教科書該当ページ 2章P23-P31 3章P70-71,P85-P97 複数回の内訳 第6回:度数分布表の作成、代表値の算出 第7回:散布度の算出 |
第8回 推定(T) 回帰直線
到達目標8−1回帰直線の切片β0と傾きβ1を求められる
8−2ピアソンの相関係数について説明できる
8−3決定係数(寄与率)を求めることが出来る
データから未知パラメータの推定値を求める
最小二乗法
誤差の二乗和を最小になるように推定したものP119の例5.2を定理5.3を用いて求めよ
エクセルで散布図を描いてみて同様な結果になることを確認せよ
相関係数
β1を見れば正の相関があるのか負の相関があるのか分かるもののXとYの関連の強さまでは分からない相関係数rは-1〜1迄の値しかとらない。
関数を使わずにP119.例5.2からピアソンの相関係数を求めよ
<参考資料> 大阪リハビリテーション専門学校 統計学2015(理学療法学科)授業資料より参考になる部分
http://www.medbb.net/education/ocrstat2015/index.html#4
第9回 推定(U) 区間推定
到達目標9−1母分散が既知の集団の母平均の区間推定ができる
9−2母分散が未知の集団の母平均の区間推定ができる
教科書P126〜
母数がある確率で入る幅を持った推定値
母平均は一定だが標本平均は標本毎に異なる
標本平均に幅を持たせることで、その枠内に母平均が入る
正規分布
左右対称の釣鐘状分布(教科書P34)平均値に近いほど出現率が高く遠ざかるに従って低くなる(ことが多い)
同じモノを同じ条件で繰り返すと正規分布という話
標準正規分布
平均値が0標準偏差=1(分散も1)になるように値を変換したもの
偏差値は平均値を50、標準偏差=10になるように値を変換したもの
標準偏差と標準誤差
・標準偏差は標本の分布のバラツキ具合を示したもの・標準誤差は母集団から抽出した標本の平均値のバラツキ具合
SE=σ/√n
私が過去に理由を説明したときの資料 http://www.medbb.net/education/ocrstat2015/index.html
母標準偏差が未知の場合の区間推定
正規分布は母平均値と母標準偏差が分からないと使えない→nが多い場合標本平均と標本標準偏差で近似できるがnが少ない場合は近似できない→t分布(標本の自由度νさえわかっていれば、後は検定統計量を求めれば確率がわかる)
t分布
自由度のみできまる確率分布
自由度・・・標本の中で自由に振る舞うことが許されている個体の数
統計値が母数の推定となると、自由に振る舞えない個体が出てくる(つじつま合わせ)
標本分散は偏差二乗和を個体の数で除することで求めるが母分散のほどよい推定である不偏分散はn-1(自由度)で除する
関数
母分散既知 NORM.S.INV母分散未知 T.INV.2T
P135表5.7
第10〜11回 t検定
到達目標10−1仮説検定の手順について説明できる
10−2t検定を行うことが出来る
仮説検定
<大前提>やみくもに検定するのではなく、検定する理由・確信があるから確かめる という感じで手順1:仮説をたてる(帰無仮説H0および対立仮説H1)
背理法に基づく証明をしている。
(差がない仮説が証明できないので、その対立である差がある仮説を採択する)
手順2:有意水準を決める
確率的に必然と偶然を切り分けている。一般に5%で分けているが1%の時もある
手順3:検定統計量を計算する
その事象の起こる確率を計算していることになるが、用いる確率分布によって計算式が異なる。
手順4:有意水準と比較し、仮説を棄却採択する
例)帰無仮説H0を棄却し対立仮説H1採択
t分布
正規分布に基づき確率を求めるには母平均と母標準偏差が必要→nが多い場合標本平均と標本標準偏差で近似できるがnが少ない場合は近似できない→t分布(標本の自由度νさえわかっていれば、後は検定統計量を求めれば確率がわかる)
自由度
考え方・・・標本の中で自由に振る舞うことが許されている個体の数
統計値が母数の推定となると、自由に振る舞えない個体が出てくる(つじつま合わせ)
標本分散は偏差二乗和を個体の数で除することで求めるが母分散のほどよい推定である不偏分散はn-1(自由度)で除する
t検定の種類
一標本(ビフォーアフター)一つの集団を対象としているので楽
二標本(不達の集団を比較)
それぞれの集団を一緒と見なして良いか
<参考>とりあえずt検定やってみたという統計の話(medbb.net)
http://www.medbb.net/education/ocrstat2015/img/01toriaezu.pdf
到達度確認
1:18人の患者にA剤を1週間投与し前後の脈拍数を計測した。A剤に効果があるか検定を行う。両側検定で有意水準α=0.05,0.01で検定せよ。2:これはある病院(従業者数300人)で実施した健康診断一部署(放射線室)の身長の記録である
性別 | 人数 | 平均値(cm) | 不偏分散 |
---|---|---|---|
女 | 11 | 152.5 | 25 |
男 | 13 | 160.3 | 9 |
補足
複数回の内訳 第10回:検定の手順、t分布 第11回:t検定 |
第12〜13回 比率の検定
到達目標12−1二項検定
12−2カイ二乗検定を行うことが出来る
12−3直接検定を行うことが出来る
二項分布
教科書P39<ベルヌイ試行>コイン(表裏共に50%)をトスしたときに表が出る確率を求めよ(n=2,100,1000)
P=nCi×P^i×(1−p)^(n-i)
nci=n!/(k!(n-i)!))
<例>
コインを2回トスしたときに表が0回になる確率
nci=2*1/(1*2*1)=1
P(i=0)=1*0.5^0*(1-0.5)^2=0.25
コインを2回トスしたときに表が1回になる確率
nci=2*1/(1*1)=2
P(i=1)=2*0.5^1*(1-0.5)^1=2*0.5*0.5=0.5
コインを2回トスしたときに表が2回になる確率
nci=2*1/(2*1*1)=1
P(i=2)=1*0.5^2*(1-0.5)^0=0.25
あとでエクセルのBINOM.DISTでも確認
P62 二項分布と正規分布
P176
=NORM.S.DIST(-2.58,TRUE) という感じで
カイ二乗検定
P180出現度数Oiと期待度数Eiのズレを検定
カイ二乗分布と正規分布の関係を確認
CHISQ.INV.RT
=NORM.S.INV
出現度数と期待度数のズレの話
=CHISQ.TEST
直接検定
その状況が起こる確率を直接組み合わせから計算周辺和を固定しH1の方向(期待度数から離れる方向)に変えながら計算を繰り返す
求められた確率を全てたす
両側対立仮説の場合、片側はその半分
有効 | 無効 | 計 | |
---|---|---|---|
A群 | O1 | O2 | m |
B群 | O3 | O4 | n |
j | k | t |
補足
複数回の内訳 第12回:二項分布,カイ二乗分布 第13回:カイ二乗検定,直接検定 |
第14〜15回 総まとめ
P102表4.2より季節により平均出産時間に差があるか検定せよP102表4.2より季節により異常出産の出現比率に違いがあるか検定せよ
P102表4.2及び表4.3より季節により平均出産時間に差があるか検定せよ
P102表4.2及び表4.3より冬期において出産場所により平均出産時間に差があるか検定せよ