大阪保健医療大学 統計学2017
(保健医療学部リハビリテーション学科 理学療法学専攻・作業療法学専攻)
授業について
教科書
入門統計学−検定から多変量解析・実験計画法まで(オーム社)http://shop.ohmsha.co.jp/shop/shopdetail.html?brandcode=000000001900&search=978-4-274-06855-3&sort=
授業メニュー(授業の進み具合により状況に応じて変更しながら実施します)
第1〜2回 記述統計(T)−度数分布について
第3〜4回 記述統計(U)−代表値・散布度について
第5〜6回 推定(T)−大数の法則・中心極限定定理
第7〜8回 推定(U) 推定(正規分布,t分布)
第9回 検定(T)t検定
第10回 検定(U)ウィルコクソンの符号順位検定
第11〜12回 判断分析−感度・特異度・ROC曲線
第13回 検定(V)多重比較法
第14回 検定(W)カイ二乗検定
第1〜2回 記述統計(T)−度数分布について
到達目標1−1度数分布表を作成できる
統計とは
教科書による統計学
『統計学はあくまで「確率で真の結論を推測する」だけ』私の考える統計学
『気づかせてくれるもの。うすうす気づいていることを確認するもの』私の考える医療統計学(2015)
『ある事象のなかで一般化出来るもの(法則性)を見いだすことは、その個別の事例にとどまらず広く利用できる知見をもたらす。そのためには複数の事例を集めて検討する統計処理が必要になる。それゆえ、統計処理は個別の事情を発生頻度などある条件に従って排除する主義に基づく。
私達の周りで起こる様々な事象は自然現象によるものだけではなく人間活動などの人工的な要因の影響を受けるものも多く、そのため法則性を見いだすにはそれぞれの領域の目的に応じた統計処理が必要となる。
医療統計学は、単に生物としてだけではなく活動状況も多様な集団である人に対して、提供する医療が及ぼす影響やその要因に関する法則性を見いだす方法を探求する学問分野である。』
(複雑なため確定的な事象はなく確率的に取り扱う必要がある)
統計の分類
記述統計(1章)と推測統計(3章)に分類される記述統計とは
・収集したデータを要約してその集団の状況を表す・そこにあるデータは全体(母集団)
・度数(分布)・代表値・散布度など
推測統計とは
事象の起こる確率を仮定した上で全体(過去・現在だけではなく未来も含む)を推測する。推定と検定に分類される。推定とは
・収集したデータを基にしてその集団の状況を表す・そこにあるデータは一部(標本)
・点推定・区間推定
検定とは
・収集したデータを基にしてその集団の状況を仮定に従ってyes/Noで判断する・そこにあるデータは一部(標本)
・t検定・カイ二乗検定など
母集団とは
対象としている集団の全体を指し示すときに「母」を最初に付ける。無限母集団と有限母集団からなる。
対象が有限か無限に増殖するかの違い
(P44トピックスの話に関するところで貴学園(OHSU)のOTの先生と色々お話しました)
標本とは
母集団の一部。昆虫標本を思い浮かべると、偏りに注意する必要があることは自明。
変量(データ)の分類・・・測定尺度
変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。それぞれを尺度と呼び、4つに分類するのが一般的である(P5)
1名義尺度
2順序尺度
3間隔尺度
4比率(比例)尺度
1,2を質的データ(変量)(定性的)
3,4を量的データ(変量)(定量的)
性質としては上位互換性があり
4>3>2>1
度数分布表
それぞれのデータ(変量)の数(出現頻度)をまとめたもの変量が名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数 ・・・出現頻度
累積度数・・・上位の変量の度数もあわせた度数
相対度数・・・総出現頻度を1(100%)としたときのそのぞれの度数のしめる割合
累積相対度数・・・累積度数の相対版
度数分布図
度数分布表をグラフ化したもの縦棒グラフだが量的変量に限っては「ヒストグラム」その棒の部分の面積が度数を示している
<余談>
図にするときには色々なお作法があります
到達度確認
1)4つの尺度についてそれぞれの変量の例をあげよ2)P6のデータ(キュウリの収量)より度数分布表・度数分布図を作成せよ
授業後補足
教科書該当部分 csv形式は様々なところで使われています 度数を数えるときはint関数(もしくはround関数)を上手く使ってcountifで |
第3〜4回 記述統計(U)−代表値・散布度について
到達目標3−1代表値にどのようなものがあるか説明・計算することが出来る
3−2度数分布表から平均値などの算出が出来る
代表値と散布度があると(構成数nもですが)その集団がどんなものか想像出来る(マラソン実況)
代表値
average(その集団を数値一つで表す。excelはaverage関数で算術平均を出すが、まぁ代表値の代表ということだからと解釈しています)算術平均
mean関数はaverage
1/n・Σxi
加重平均 それぞれの変数を評価した上での平均
幾何平均 積を求めてn乗根をとったもの
テストの点が10,15,14,13,60
算術平均=22.4
幾何平均=17.5
移動平均 平滑化
中央値
median(別名第2四分位数)量的変量を順序尺度で処理した代表値
順番に並べたとき真ん中の順位にきた個体の値
個体数が偶数の時は真ん中2つの数値の平均値
最頻値
mode(流行,はやり)違う意味で数の理論(多数決)の世界
量的変量を名義尺度で処理した代表値
名義尺度でわかることは一緒か違うか
階級毎に度数をカウント
一番多いところの階級値
一位が同点の時は併記(平均をとると えっオレ優勝!?状態になる)
度数分布表から算術平均を計算
Σ(階級値×度数)/構成数
散布度
dispersion最大値と最小値を使う
最大値と最小値がわかればその集団のバラツキがわかる最大値maximum excel max関数
最小値minimum excel min関数
範囲
RangeR=最大値−最小値
特徴
外れ値もひらう
算出が用意
四分位数を使う
Quartile小さい順(昇順)に並べて集団を4分割
第1四分位数 First Quartile:Q1 = 25th percentile 25%タイル値
第2四分位数 Second Quartile:Q2 = 50th percentile 50%タイル値 = Median 中央値
第3四分位数 Third Quartile:Q3 = 75th percentile 75%タイル値
四分位数の求め方・・・厳密には数種類ある
授業では簡易に求められるヒンジ値を使用
参考記事 ダンゴ包丁理論(MedBBexblog)
http://medbb.exblog.jp/12047409/
四分位範囲
IQR(interquartile range)IQR=Q3-Q1
四分位偏差
QD(Quartile Deviation)QD=IQR/2
範囲は個々の値のバラツキをイメージ
偏差はある値からのズレをイメージ
平均値を使う
偏差
Deviationもともとは標準となる数値からのズレ(偏り)を意味するものだが統計の世界では集団の平均値からのズレを示す
偏差の平均をとれば集団内の各々のズレっぷりがわかる → 合計は常に0 故に平均も常に0
分散
varianceV excel関数はVAR
偏差の二乗したものの平均
標準偏差
Standard Deviation記号は標本s 母集団σ
s=√V
(故にVはs^2やσ^2で表現する)
変動係数
C.V.=s/xbar バラつきを比較するため平均値を用いて正規化到達度確認
1)P7表1.2のキュウリの収量の代表値と散布度をそれぞれ求めよ2)20面体のサイコロを作り、不偏分散が母分散の程よい推定になるか検証せよ
授業後補足
教科書該当部分 第1章 1.3-1.5 授業で話題になった関数 GEUMEAN 昔はなかった。PRODUCT()^(1/COUNT())でも出来る PRODUCT sum関数の掛け算版 QUARTILE MODE 今回はデータを階級値に置き換えたセルを作っていたのでそのまま使えました randbetween 昔はなかったrand()関数で関数組み合わせていた |
第5〜6回 推定(T)−大数の法則・中心極限定定理
到達目標5−1大数の法則をについて説明する資料を作成することが出来る
5−2中心極限定理について説明する資料を作成することが出来る
大数の法則
(教科書P58)標本平均はn数が大きくなるほど母平均に近くなっていく
中心極限定理
(教科書P58)標本の大きさが十分であれば標本平均の分布は正規分布
→正しく測定されているのであれば偶然誤差の発生は正規分布に従う
→測定回数を増やせば増やすほど
標準偏差と標準誤差
(教科書P51)・標準偏差は標本の分布のバラツキ具合を示したもの
・標準誤差は母集団から抽出した標本の平均値のバラツキ具合
SE=σ/√n
誤差伝搬の法則の話で考えると良い
私が過去に理由を説明したときの資料
http://www.medbb.net/education/ocrstat2015/index.html
到達度確認
1)標本のn数が大きくなるほど標本の平均が母平均に近づくグラフを作成せよ2)標本のn数が大きくなるほど標本の平均のバラつきがσ/√nになるか確認せよ
3)中心極限定理で示したところの動画のようなグラフを作成せよ
授業後補足
excelセルの指定で ,カンマ は その番地のみ :コロンはその番地の間も含めて 医療機関の一覧(近畿厚生局管内)はコチラから 保険医療機関・保険薬局の管内指定状況等について(近畿厚生局) https://kouseikyoku.mhlw.go.jp/kinki/gyomu/gyomu/hoken_kikan/shitei_jokyo.html 1)20面体サイコロを1万回 500回までの平均値のグラフ 1万回までの平均値のグラフ 2)3)20面体サイコロを2回〜20回降った平均を各1000回記録 平均値の標準偏差・・・それそれの平均から求めた標準偏差=標準誤差 σ/√n・・・標準誤差の式σ/√nより求めた値 |
第7〜8回 推定(U) 推定(正規分布,t分布)
到達目標7−1母分散が既知の集団の母平均の区間推定ができる
7−2母分散が未知の集団の母平均の区間推定ができる
母数がある確率で入る幅を持った推定値
母平均は一定だが標本平均は標本毎に異なる
標本平均に幅を持たせることで、その枠内に母平均が入る
正規分布
左右対称の釣鐘状分布(教科書P62)平均値に近いほど出現率が高く遠ざかるに従って低くなる(ことが多い)
同じモノを同じ条件で繰り返すと正規分布という話
標準正規分布
平均値が0標準偏差=1(分散も1)になるように値を変換したもの
偏差値は平均値を50、標準偏差=10になるように値を変換したもの
標準偏差と標準誤差
・標準偏差は標本の分布のバラツキ具合を示したもの・標準誤差は母集団から抽出した標本の平均値のバラツキ具合
SE=σ/√n
私が過去に理由を説明したときの資料 http://www.medbb.net/education/ocrstat2015/index.html
母標準偏差が未知の場合の区間推定
正規分布は母平均値と母標準偏差が分からないと使えない→nが多い場合標本平均と標本標準偏差で近似できるがnが少ない場合は近似できない→t分布(標本の自由度νさえわかっていれば、後は検定統計量を求めれば確率がわかる)
t分布
自由度のみできまる確率分布
自由度・・・標本の中で自由に振る舞うことが許されている個体の数
統計値が母数の推定となると、自由に振る舞えない個体が出てくる(つじつま合わせ)
標本分散は偏差二乗和を個体の数で除することで求めるが母分散のほどよい推定である不偏分散はn-1(自由度)で除する
関数
母分散既知 NORM.S.INV母分散未知 T.INV.2T
P135表5.7
第9回 検定(T) t検定
到達目標9−1仮説検定の手順について説明できる
9−2t検定を行うことが出来る
仮説検定
<大前提>やみくもに検定するのではなく、検定する理由・確信があるから確かめる という感じで手順1:仮説をたてる(帰無仮説H0および対立仮説H1)
背理法に基づく証明をしている。
(差がない仮説が証明できないので、その対立である差がある仮説を採択する)
手順2:有意水準を決める
確率的に必然と偶然を切り分けている。一般に5%で分けているが1%の時もある
手順3:検定統計量を計算する
その事象の起こる確率を計算していることになるが、用いる確率分布によって計算式が異なる。
手順4:有意水準と比較し、仮説を棄却採択する
例)帰無仮説H0を棄却し対立仮説H1採択
t分布
正規分布に基づき確率を求めるには母平均と母標準偏差が必要→nが多い場合標本平均と標本標準偏差で近似できるがnが少ない場合は近似できない→t分布(標本の自由度νさえわかっていれば、後は検定統計量を求めれば確率がわかる)
自由度
考え方・・・標本の中で自由に振る舞うことが許されている個体の数
統計値が母数の推定となると、自由に振る舞えない個体が出てくる(つじつま合わせ)
標本分散は偏差二乗和を個体の数で除することで求めるが母分散のほどよい推定である不偏分散はn-1(自由度)で除する
t検定の種類
一標本(ビフォーアフター)一つの集団を対象としているので楽
二標本(不達の集団を比較)
それぞれの集団を一緒と見なして良いか
<参考>とりあえずt検定やってみたという統計の話(medbb.net)
http://www.medbb.net/education/ocrstat2015/img/01toriaezu.pdf
到達度確認
1:18人の患者にA剤(降圧剤)を投与し6カ月後の血圧を計測した。A剤に効果があるか検定を行う。両側検定で有意水準α=0.05,0.01で検定せよ。ファイルはコチラ
<参考>降圧剤使用成績調査等データベース 高血圧治療患者の背景分析に関する研究報告書(くすりの適正使用協議会データベース委員会)
https://www.rad-ar.or.jp/pharmacoepidemiology/database/pdf/koatsu-haikei_201503.pdf
2:これはある病院で実施した健康診断の一部署(放射線室)の身長の記録である
性別 | 人数 | 平均値(cm) | 不偏分散 |
---|---|---|---|
女 | 11 | 152.5 | 25 |
男 | 13 | 160.3 | 9 |
補足
第10回 検定(U)ウィルコクソンの符号順位検定
到達目標11−1パラメトリック検定とノンパラメトリック検定の違いについて説明できる
11−2ウィルコクソンの符号順位検定を行うことが出来る
パラメトリック検定・・・分布の形状(母数)に依存する統計量(平均値 標準偏差・・・量的変量)
ノンパラメトリック検定・・・分布の形状(母数)に依存しない統計量(順位 中央値 パーセント値・・・質的変量)
検定の流れはt検定と同じ
一標本t検定に対応するのがウィルコクソンの符号順位検定
二標本t検定に対応するのがMann-Whitney検定
どちらも順位の和を求めて比較したときに違いがあるか否か検定
有意確率については直接計算出来ます。
が、大変なのでWilcoxonT検定表を使ってください。
計算して求めた元データも載せておきます。
N数が少ないと判定保留にしかならない理由も確認しておいてください。
ウィルコクソンT検定表
P | ||
---|---|---|
標本数 | 両側0.05 | 両側0.01 |
6 | 0 | |
7 | 2 | |
8 | 3 | 0 |
9 | 5 | 1 |
10 | 8 | 3 |
11 | 10 | 5 |
12 | 13 | 7 |
13 | 17 | 9 |
14 | 21 | 12 |
15 | 25 | 15 |
16 | 29 | 19 |
17 | 34 | 23 |
18 | 40 | 27 |
19 | 46 | 32 |
20 | 52 | 37 |
順位和出現確率
出現確率のデータ公開しておきます。
Wilcoxon統計量理論分布(N=20まで)
到達度確認
1:18人の患者にA剤(降圧剤)を投与し6カ月後の血圧を計測した。A剤に効果があるかウィルコクソンの符号順位検定を行う。両側検定で有意水準α=0.05,0.01で検定せよ。(前回t検定で行った問題)ファイルはコチラ
第11〜12回 判断分析−感度・特異度・ROC曲線
到達目標12−1判別特性値の計算が出来る
12−2評価結果よりROC曲線を作成し評価やカットオフ値の検討が出来る
検査法の診断的有用性を評価する話
有病率の影響を受ける指標、受けない指標を整理しておくこと
「率」ではあるが実際には割合。時点有病率ともいう(期間有病率は時点有病率に期間中の罹患を加えたもの) 比と率と割合の違いについて 比・・・異なるものを比較(無単位になる場合もあるが) 率・・・比だが時間と比較(単位は/sec /min /hr となる) 割合・・全体と一部(同じもの)を比較(無単位) 以下参考にしてください 第13回 医療統計(U)−比と率と割合(大阪保健医療大学 医療情報学2016) http://www.medbb.net/education/ohsumedinfo2016/#13 |
感度と特異度
感度=P(陽性|D) 疾患群における真陽性の割合偽陽性率=P(陽性|Dc) 非疾患群における偽陽性の割合
特異度=1−偽陽性率 非疾患群における真陰性の割合
予測値
有病率の影響を受ける
陽性的中率=P(D|陽性)
陰性的中率=P(Dc|陰性)
検査法の評価指標
尤度比=感度/偽陽性率
オッズ比=教科書参照 検査の有用性
ROC−AUC=ROC曲線を描いて算出 検査の分別能
何でも陽性と判断する検査は感度も偽陽性率も1になる
(なんでもかんでも、あります!! のノリ)
ROC曲線
判別度の分析感度と偽陽性率(1−特異度)を用いて曲線を描く
例題21でEをカットオフ値としたときの陽性的中率=7/9 陰性的中率=8/11
到達度確認
1)次のマンモグラフィの検査結果からROC曲線を描き、AUCを(小数点以下2桁まで求め四捨五入)求め、カットオフ値の検討をせよ<参考>
森本 忠興,日本の乳癌検診の歴史と課題,日乳癌検診学会誌,18(3)211-231,2009
https://www.jstage.jst.go.jp/article/jjabcs/18/3/18_3_211/_article/references/-char/ja/
異常なし(1) | 良性(2) | 悪性を否定できない(3) | 悪性の疑い(4) | 悪性(5) | 計 | |
---|---|---|---|---|---|---|
疾患群 | 0 | 4 | 14 | 12 | 10 | 40 |
非疾患群 | 20 | 20 | 12 | 8 | 0 | 60 |
異常なし(1) | 良性(2) | 悪性を否定できない(3) | 悪性の疑い(4) | 悪性(5) | 計 | |
---|---|---|---|---|---|---|
疾患群 | 1 | 5 | 16 | 10 | 8 | 40 |
非疾患群 | 20 | 16 | 14 | 10 | 0 | 60 |
第13回 多重比較法
到達目標14−1分散分析と多重検定の違いを説明できる
F分布
カイ二乗分布と同じく分散に関する確率分布それぞれの群のカイ二乗値の比=分散の比・・・F値(FはフィッシャーのF)
F分布とカイ二乗分布の関係
χ^2(ν)=ν×F(ν,∞)
多群間の比較
考え方 群分け・・・順序尺度以上でその関連をみたい→同時比較群分け・・・名義尺度or関連を見るわけではない→多重比較
同時比較して差があったから多重比較するというのは、何を述べたいかによるが・・・
同時比較
これまでと同じように正規分布に従うか否かの話一元配置分散分析
P130群間分散と群内分散の比をとる
多重検定
検定統計量と有意水準の調整・・・教科書P155ポイントとしては、それぞれの検定が独立した仮説にもとづいたものと考えて良いか否か。良いのであれば多重検定にならない
一連のものであれば対立仮説を考えたときに有意水準が5%と言いながら5%になっていないのでは?
多重に検定することでどれかあたれば帰無仮説は棄却できるので例えば3群総当たりだと有意水準0.05で多重検定(6通り)すると有意水準が0.265になってしまう。(からよくない)
有意確率補正法
Bonferriniの場合は6通り検定するのであれば、一検定あたりの有意水準だと0.05/6=0.0083となる。全体では1-(1-0.00833)^6=1-0.95103=0.0490Sidak補正の場合は同様に1-(1-0.05)^(1/6)=0.008512 1-(1-0.008512)^6=1-0.95=0.0500
多群になるほど検定あたりの有意水準が下がる→差が出にくい
到達度確認
P146問1を一元配置分散分析および多重検定をしてください第14回 カイ二乗検定
到達目標14−1周辺度数から期待度数を算出することができる
14−2カイ二乗の検定統計量を求めることが出来る
本来あるべき姿(期待度数)と実際に測定されたデータ(測定度数)がどれだけかけ離れているか、その出現する確率を見ている
手順
1−観察して度数を記入(観察度数)2−観察度数より周辺度数を求める(いわゆる合計)
3−周辺度数から期待度数を求める
4−それぞれの観察度数と期待度数の差の二乗を求め、それを期待度数で除する(量的変量の分散の話に似ている・・・偏り)
5−4で求めた値を全部足す(これが検定統計量)
カイ二乗分布について
カイ二乗分布と正規分布の関係を確認CHISQ.INV.RT
=NORM.S.INV