奈良県立医科大学 生物統計学2016
(医学部医学科)
本授業の位置付け
医学教育モデル・コア・カリキュラム/準備教育モデル・コア・カリキュラム(平成22年度改訂版)をベースに構成http://www.mext.go.jp/b_menu/shingi/chousa/koutou/033-1/toushin/1304433.htm
本講義が準備教育モデル・コア・カリキュラムにおいて担う部分
3情報の科学
(2)統計の基礎
確率論的なものの見方を理解し、確率変数とその分布、推測的推計の原理と方法を理解する。
(3)統計手法の適用
医学生物学でよく遭遇する標本に、統計手法を適用するときに生じる問題点や統計パッケージの利用を含めた具体的な扱い方を習得する
以下、本講義で医学教育モデル・コア・カリキュラムの中で関連する項目
「A基本事項」
2医療における安全性確保
(1)安全性の確保
4)医療の安全性に関する情報を共有し、事後に役立てるための分析の重要性を説明できる
4課題探究・解決能力
(3)医学研究への志向の涵養
3)患者や疾患の分析をもとに、教科書・論文等から最新の情報を検索・整理統合し、疾患の理解・診断・治療の深化につなげることができる。
4)検索・検出した医学・医療情報から新たな課題・仮説を設定し、解決に向けて科学的研究(臨床研究、疫学研究、生命科学研究等)に参加することができる。
(5)医療の評価・検証
1)科学的根拠に基づいた医療の評価と検証の必要性を説明できる。
「B医学・医療と社会」
(2)地域医療
1)地域社会における医療の状況、機能および体制等を含めた地域医療について概説できる。
2)医師の偏在(地域及び診療科)の現状について説明できる。
(3)疫学と予防医学
3)疾病・有病・傷害統計、年齢調整率と標準化死亡比を説明できる。
(8)臨床研究と医療
4)研究デザインを概説できる
授業メニュー
第1回 オリエンテーション
第2回 尺度・度数分布
第3回 代表値・散布度
第4回 平均値の推定
第5回 相関係数・回帰直線
第6回 感度・特異度・ROC曲線
第7回 相対危険度
第8回 検定の原理
第9回 パラメトリック検定
第10回 ノンパラメトリック検定
第11回 計数値データの検定
第12回 独立多群間の比較
第13回 多変量解析
第14回 生存時間分析
第15回 まとめ
第1回 オリエンテーション
到達目標1−1授業の概要を説明できる
1−2統計の種類について説明できる
1−3データの可視化の必要性について説明できる
本授業の目的
生物統計学は、統計的手法を用いて保健医療分野における課題の解決に資する学問領域である。そのため統計学の基礎だけではなく、これまで本分野においてどのような統計的手法が用いられてきたのか理解し、データの収集・解析・解釈を実施する際に最適な手法を選択するための知識と、それを活用する能力の獲得を目的とする。
本授業の到達目標
1)データの性質に関して説明できる2)適切な統計手法を選択できる
3)仮説の統計学的検定法を説明できる
4)研究デザイン毎の特徴とデータを取り扱う上での注意点を説明できる
0)統計手法など必要に応じて「勉強すれば出来るようになる能力」を獲得する
教科書
カラーイメージで学ぶ<新版>統計学の基礎http://www.nikkyoken.com/pub/edu.html
参考図書
バイオサイエンスの統計学−正しく活用するための実践理論http://www.nankodo.co.jp/g/g9784524220366/
参考資料
必要に応じて適宜配布します授業の進め方
電卓使いますのでよろしくお願いします(授業中はスマホで可ですが試験の時は×)
statflexは授業中私しか使えないので、画面見てください
記述統計と推測統計
統計とは2つ以上の要素の集まりからなる集団の特性を明らかにすること集団の特性≒個々の特性 という考え方。実際には 集団の特性≠個々の特性 のケースも多い
記述統計学
データの集団が何を示すのか(取り扱うデータが全て)度数分布・代表値・散布度
推測統計学
推定と検定に分かれるどちらも取り扱うデータは明らかにしたい全体の一部分となる
推定
データが何を示すのか 一部のデータを対象 → 全体を推測
検定
データがどのような状況か 与えられたデータを対象 → 検証・・・未来予測
両者は密接に関連している
統計データの利活用
スマホの位置データ
yahooアプリの利用状況を地図上に表示
東日本大震災関連の日の東京近辺
公開されている時系列データ
グラフで図示化するとトレンドが良くわかる平成27年版 情報通信白書(総務省)
東日本大震災前後の地震データの可視化。グラフだけでなく地理情報を含めると状況が良くわかる
http://chihochu.jp/52515696/
東日本大震災の
忘れない〜震災犠牲者の行動記録
到達度確認
1)記述統計と推測統計についてまとめよ授業後補足
紹介したリンク先のページの地震に関する統計データの可視化の部分のみ見て頂きました。 実際の映像に関しては控えました。ご自身の判断でご覧ください。 統計処理により語れること、現場を見て語れることの違いについて考えておいてください。 科学的根拠は統計処理によりそれぞれの固有の尖っている部分が無くなってしまうので、臨床ではその固有の尖っている部分を補填して考えなくてはいけない 全数調査(悉皆調査)は労力がかかって大変(国勢調査) |
第2回 尺度・度数分布
到達目標2−1データの尺度分類(4つの尺度)について説明できる
2−2度数分布表が作成できる
2−3標本の抽出によって結果が変わることを説明できる
名古屋から長野まで繋がっている。まさに中央構造線沿い。昨日の地震よりはるかに広範囲でマグニチュードも大きい。RT @dom_kyon: 範囲広い pic.twitter.com/3pKAYJD7qD
— 岩上安身 (@iwakamiyasumi) 2016年4月15日
【紙面】震源域 帯状に。熊本県・大分県の主な被害と断層帯。ほか 詳しくは本日(4月17日付)東京新聞朝刊にて。 pic.twitter.com/hI9P8Vmd2b
— 東京新聞ほっとWeb オフィシャル (@tokyohotweb) 2016年4月16日
母集団とは
対象としている集団の全体を指し示すときに「母」を最初に付ける。無限母集団と有限母集団からなる。
対象が有限か無限に増殖するかの違い
標本とは
母集団の一部。昆虫標本を思い浮かべると、偏りに注意する必要があることは自明。
参考
標本調査はサンプル抽出が命(The Huffington Post Japan)http://www.huffingtonpost.jp/nissei-kisokenkyujyo/sample-survey_b_5878832.html
例)復元抽出と非復元抽出
極端な例・・・アタリカード1枚と外れカード1枚入った箱から2回カードを引く・・・アタル確率50%
復元抽出・・・アタリが出る確率75%(コイントスのような感じ)
非復元抽出・・アタリが出る確率100%
10枚のくじ(あたり2本)から5枚抽出。復元抽出した場合と非復元抽出をした場合の結果の違い
余談
確率は事前情報によって変化する→ベイズ理論モンティホール問題
ネコでもわかるモンティホールジレンマ(DOFI-BLOG どふぃぶろぐ)
この場合は最初に選ぶカードに関する情報が与えられていないこと。
2回目の選択において情報が与えられていること。
臨床においては様々な情報をgetしながらカードを選んでいく
変量(データ)の分類
変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。それぞれを尺度と呼び、4つに分類するのが一般的である
1分類尺度(名義尺度)
2順序尺度
3間隔尺度
4比尺度(比例)
1,2を質的変量(定性的)
3,4を量的変量(定量的)
性質としては上位互換性があり
4>3>2>1
教科書は間隔尺度及び比尺度に関して統計処理上区別する意味は無いとなっているが、注意は必要
ポイントは数学的には正しかったとしても意味的に正しいかどうか
度数分布表
それぞれのデータ(変量)の数(出現頻度)をまとめたもの変量が名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数 ・・・出現頻度
累積度数・・・上位の変量の度数もあわせた度数
相対度数・・・総出現頻度を1(100%)としたときに、それぞれの度数がしめる割合
累積相対度数・・・累積度数の相対版
教科書P76のA剤による尿量の度数分布表を作成してください
階級 | 階級値 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|---|
0.5〜1.0 | 0.75 | 5 | 0.167 | 5 | 0.167 |
1.0〜1.5 | 1.25 | 5 | 0.167 | 10 | 0.334 |
1.5〜2.0 | 1.75 | 12 | 0.4 | 22 | 0.734 |
2.0〜2.5 | 2.25 | 3 | 0.1 | 25 | 0.834 |
2.5〜3.0 | 2.75 | 3 | 0.1 | 28 | 0.934 |
3.0〜3.5 | 3.25 | 1 | 0.033 | 29 | 0.967 |
3.5〜4.0 | 3.75 | 1 | 0.033 | 30 | 1.00 |
計 | ----- | 30 | 1.00 | ----- | ----- |
到達度確認
1)上記の度数分布表を完成させよ授業後補足
教科書該当ページ 第1章(P10-P20) 第2章(P22,P31) モンティホール問題の学生の回答状況 A組: 2枚にしたときに確率が高くなるものは? 最初に選んだ方・・・3名 どちらも同じ・・・20名 選んでない方・・・12名 2枚になったとき最初に選んだほうの確率は? 10%・・・20名(カードをABC3枚ではなく10枚で) 50%・・・10名 B組: 2枚にしたときに確率が高くなるものは? 最初に選んだ方・・・8名 どちらも同じ・・・・8名 選んでない方・・・21名 (21名の内この話を知っていた学生14名) 経緯を把握してその情報を活かさないと折角のチャンスを失うという話 ただし、これは確率の話であって、 |
度数分布図
度数分布表をグラフ化したもの縦棒グラフだが量的変量に限っては「ヒストグラム」その棒の部分の面積が度数を示している
スタージェスの公式
量的変量の度数分布表・図作成の時に階級幅設定の参考になる公式K(階級数)=1+log2(サンプル数)
サンプル数は14なので
1+3.81=4.81
4〜5ぐらいが適当
上記を参考にしながら階級幅を決めるとよい(かも程度で)
参考:ヒストグラムは怖い−スタージェスの公式(高校数学の問題を作る −工夫・コツとデータ−)
http://www10.plala.or.jp/mondai/columun/hist.pdf
(経験則に基づいたものだとばかり思っていたのでビックリ→ウェーバー・フェヒナーの法則)
人間の五感は対数に変換されている(はまぐりの数学)
ゴルゴの地震超怖いコラを思い出す pic.twitter.com/t44gJNqVA7
— ナルパジン (@narupajin) 2016年4月15日
補足
教科書該当ページ 第1章(P10-P20) 第2章(P22,P31) |
第3回 代表値・散布度
到達目標3−1代表値の算出及び特性について説明できる
3−2散布度の算出及び特性について説明できる
代表値と散布度と大きさn(個数や事象数)が提示されれば、その集団がどんなものか想像出来る(マラソン実況)
代表値
average(その集団を数値一つで表す。excelはaverage関数で算術平均を出すが、まぁ代表値の代表ということだからと解釈しています)算術平均
mean(算術平均以外にも相乗平均(積して累乗根をとる)などもあります)1/n・Σxii
正社員男性の平均給与「527万円」 引き上げているのは誰なのか?(BLOGOS-キャリコネニュース2014年10月04日)
http://blogos.com/article/95831/
パレートの法則(80-20の法則)
代表値なのに実在しない場合がある → 集団の指標であって、代表する事象を示しているとは限らない
度数分布表を基にした平均値の計算法について
Σ(階級値×度数)/観測数
中央値
median(別名第2四分位数)量的変量を順序尺度で処理した代表値
順番に並べたとき真ん中の順位にきた個体の値
個体数が偶数の時は真ん中2つの数値の平均値
スキージャンプの飛型点は中央値的なノリで算術平均している
スキージャンプを知ろう!!ルール解説(ジャンプ雪印メグミルク)
https://www.meg-snow.com/jump/rule/rule.html
最頻値
mode(流行,はやり)違う意味で数の理論(多数決)の世界
量的変量を名義尺度で処理した代表値
名義尺度でわかることは一緒か違うか
階級毎に度数をカウント
一番多いところの階級値
一位が同点の時は併記(平均をとると えっオレ優勝!?状態になる)
散布度
dispersion最大値と最小値を使う
最大値と最小値がわかればその集団のバラツキがわかる最大値maximum excel max関数
最小値minimum excel min関数
範囲
RangeR=最大値−最小値
特徴
外れ値もひらう
算出が用意
四分位数を使う
Quartile小さい順(昇順)に並べて集団を4分割
第1四分位数 First Quartile:Q1 = 25th percentile 25%タイル値
第2四分位数 Second Quartile:Q2 = 50th percentile 50%タイル値 = Median 中央値
第3四分位数 Third Quartile:Q3 = 75th percentile 75%タイル値
四分位数の求め方・・・厳密には数種類ある(P43)
この授業の世界での取り決め
四分位は特に指定しない限りtukeyのヒンジで
http://medbb.exblog.jp/12047409/
授業で用いた数値(だんご)は以下のとおり
四分位範囲
IQR(interquartile range)IQR=Q3-Q1
四分位偏差
QD(Quartile Deviation)QD=IQR/2
範囲は集団を外から見たバラツキをイメージ
偏差は集団の内部のある値からのバラツキをイメージ
平均値を使う
mean偏差
Deviationもともとは標準となる数値からのズレ(偏り)を意味するものだが統計の世界では集団の平均値からのズレを示す
偏差の平均をとれば集団内の各々のズレっぷりがわかる → 合計は常に0 故に平均も常に0
分散
varianceV excel関数はVAR
偏差の二乗したものの平均
標準偏差
Standard Deviation記号は標本標準偏差s 母標準偏差σ
s=√V
(故にVはs^2やσ^2で表現する)
授業中説明に用いた表
到達度確認
2)4つの尺度についてそれぞれの変量の例をあげ、特徴を記せ
3)次の度数分布表のA〜Cに入る数値を記し尿量の平均値を概算せよ
4)(まとめておくこと)なぜ、不偏分散では偏差平方和をnではなくn-1で割るのか。証明せよ
階級 | 階級値 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|---|
0.5〜1.0 | |||||
1.0〜1.5 | 6 | A | 0.325 | ||
1.5〜2.0 | 0.1 | 17 | |||
2.0〜2.5 | B | 0.65 | |||
2.5〜3.0 | 7 | ||||
3.0〜3.5 | 0.125 | C | |||
3.5〜4.0 | |||||
計 | ----- | 1.00 | ----- | ----- |
補足
教科書該当ページ 第2章(P22-33,P43) 分散のところちょっと整理しておきましょう。 教科書では標本標準偏差を不偏分散によるものとしているので (実用上それでよいが、混乱しないように整理) 母分散 σ^2:母集団の分散・・・全要素の値が必要 標本分散 s^2:標本の分散・・・標本の値が必要 不偏分散 u^2:標本より母分散の不偏推定量をもとめたもの <参考>標本平均, 標本分散, 不偏分散(琉球大学工学部電気電子工学科電子システム工学講座(准教授)半塲 滋) http://dsl4.eee.u-ryukyu.ac.jp/DOCS/error/node19.html 標本分散と不偏分散もどちらも母分散の推定値・平均値の推定とはワケが違う 上記サイトから引用「正規分布に対し, 標本平均は平均の最尤推定量かつ不偏推定量なのであるが, 標本分散は分散の最尤推定量ではあるが不偏推定量ではなく, 不偏分散は分散の不偏推定量ではあるが最尤推定量ではない。 」 |
第4回 平均値の推定
到達目標4−1標準偏差と標準誤差の違いを説明できる
4−2母分散が未知の場合でも母平均を区間推定できる
推定
母集団から抽出した標本を基に母集団の分布を示す値(母数)を推測する点推定と区間推定がある
点推定
一つの値で推定母平均の推定値は標本平均
母分散の推定値は不偏分散
区間推定
母数がある確率で入る幅を持った推定値P25のように、母平均は一定だが標本平均は標本毎に異なる
標本平均に幅を持たせることで、その枠内に母平均が入る
正規分布
左右対称の釣鐘状分布(教科書P34)平均値に近いほど出現率が高く遠ざかるに従って低くなる(ことが多い)
同じモノを同じ条件で繰り返すと正規分布という話
真度と精度の話(誤差)に置換えると
上段が正規分布。裾広がりが右に行くほど広がる
下の段は良くわからない分布になるが、例えばP35のような混成分布の場合もありうる
k 信頼区間限界指数・・・標準正規分布でzスコアのこと
標準正規分布
平均値が0標準偏差=1(分散も1)になるように値を変換したもの
偏差値は平均値を50、標準偏差=10になるように値を変換したもの
P41例題4をしてみてください。(4)として60点〜70点に含まれる学生は何人?
回答例
中心極限定理
標本の大きさが十分であれば標本平均の分布は正規分布→正しく測定されているのであれば偶然誤差の発生は正規分布に従う
→測定回数を増やせば増やすほど
<参考> http://aoki2.si.gunma-u.ac.jp/lecture/SampleSurvey/samplesize.html
標準偏差と標準誤差
(教科書P52)・標準偏差は標本の分布のバラツキ具合を示したもの
・標準誤差は母集団から抽出した標本の平均値のバラツキ具合
SE=σ/√n
P89の話は誤差伝搬の法則の話
私が過去に理由を説明したときの資料 http://www.medbb.net/education/ocrstat2015/index.html
母標準偏差が未知の場合の区間推定
P63-69 正規分布は母平均値と母標準偏差が分からないと使えない→nが多い場合標本平均と標本標準偏差で近似できるがnが少ない場合は近似できない→t分布(標本の自由度νさえわかっていれば、後は検定統計量を求めれば確率がわかる)
t分布
P63
自由度のみできまる確率分布
自由度・・・標本の中で自由に振る舞うことが許されている個体の数
統計値が母数の推定となると、自由に振る舞えない個体が出てくる(つじつま合わせ)
標本分散は偏差二乗和を個体の数で除することで求めるが母分散のほどよい推定である不偏分散はn-1(自由度)で除する
母標準偏差が未知の場合と既知の場合まとめ
P69
到達度確認
1)P33演習1のデータを用いてその人の母平均体重の95%信頼区間を求めよ2)P68例題9の95%信頼区間を±0.2以内に抑えるには被験者は何名以上必要か求めよ
3)(まとめておくこと)なぜ、標準誤差は標準偏差sを測定回数の正の平方根√nで割るのか
補足
教科書該当ページ 第2章(P25,33,35-41) 第3章(P52-53) 第4章(P63-69) 到達度確認の答え 1) P242より 平均値=53.3kg 不偏分散=0.363 不偏標準偏差=0.602kg tα=2.447 信頼区間[53.3-2.447*0.602/sqrt(7),53.3+2.447*0.602/sqrt(7)] [52.7,53.9] 2) tαを固定するべきか可変すべきかで話が少し変わるが 固定の場合 (2.030*1.1/0.2)^2=124.6 125人以上 tα=1.96とすると(1.96*1.1/0.2)^2=116.2 117人以上 キッチリ計算すると(1.981*1.1/ 問題のままであれば不偏分散を求めたときの信頼区間限界指数で推定するのが妥当 → 125人以上とする。 (ともかく0.2以内に抑えることを考えると、高くなる条件で求めるべきで信頼区間限界指数が高くなる条件であることと、不偏分散もサンプルが増えたときに小さくなることが期待(n-1≒nとなる)されるので)・・・但し特に指示が無いので算出根拠を示せば良い 一部の学生さんと、1)の回答が正規分布を使っているケースが多かった話をしていたのですが、そこから補正対象問題の話をしました。ネット上では医師国家試験に関するところは見あたりませんでした。 薬剤師国家試験のものは以下(m3.com) https://www.m3.com/news/iryoishin/310654 |
第5回 記述統計(W)−相関係数・回帰直線
到達目標5−1相関係数を説明・計算することが出来る
5−2回帰直線がどのようなものか説明することが出来る
相関
(教科書P19) correlative相関関係がある・・・関連がある
相関関係が無い・・・関連がない
他方の影響を受けるか受けないか
因果
cause and effect原因と結果
因果関係がある・・・影響がある
因果関係が無い・・・影響がない
普通は関連がある(相関がある)=影響を及ぼす関係(因果関係がある)と考える(考えたくなる)
例
たばこを吸う−肺がん・・・・相関関係○
タバコを吸う人にコーヒーを飲む人が多いのは・・・(yahoo知恵袋)
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1293675642
この関係を使うと
コーヒーを飲む−肺がん・・・相関関係○
コーヒー愛飲者に肺がんが多い理由は?生活習慣との関連を検証
アメリカで約50万人を対象にした調査から
from International journal of epidemiology
http://medley.life/news/item/5589521b660815fe00d5ec8e
コーヒーと肺がんの相関関係に割り込んでいる(どちらとも相関関係がある)状態=交絡)
割り込んでいるそれ=交絡因子・・・たばこ
コーヒーと肺がんに因果関係が無いとしたならその関係は疑似相関
例:電車に乗るとき皆がそれぞれ駅に向かって仲良く歩いてるように見えるが、互いに関係は無い。
解説は教科書P191
本授業(統計学)は医療系対象で「提供する医療が及ぼす影響やその要因に関する法則性を見いだす方法を探求する学問分野」(再掲)
知りたいのは「影響」であるから目的を見失わないように
相関図
X軸とY軸に一つの対象に与えられるそれぞれの値をプロット(例:身長と体重)とりあえず図にすると関係が直感的にわかる(場合がある→交絡現象交互作用に注意)
相関係数
-1から1までの値をとる(教科書P163)+の場合正の相関 −の場合負の相関
Xが増加すればYも増加する・・・1
Xが増加すればYは減少する・・・-1
Xが増加しようが減少しようがYは関係ない・・・0
相関係数が0出なければ相関は「ある」ワケだが程度は数字が0から離れるほど強くなる
一般に〜0.2であれば相関はなく、0.7〜であれば強い相関の目安とされてる。
X軸で見たときのバラツキ具合とY軸で見たときのバラツキ具合を元に計算してる
バラツキ=散布度・・・分散・・・偏差の二乗の平均
共分散=ある対象のX軸の偏差とY軸の偏差を乗じたものがベース
注意
基本事項のところは偏差平方和の話になっているが標本分散の場合両辺をnで割らないといけない
割ると・・・二乗の平均−平均の二乗 というリズム感のある公式が出来る
Xの偏差 | Yの偏差 | 乗じた結果 |
---|---|---|
+ | + | + |
+ | − | − |
− | + | − |
− | − | + |
共分散はX軸Y軸のバラツキ具合が混ざっているのでそのままの数字だと解釈しにくい→XとYの標準偏差で除する(正規化)→相関係数
説明すると(クリックすると別ウインドウ立ち上がります)
直線で無い場合は変数変換(例えば対数変換)してから計算してもよい(対数グラフ)
対数グラフの例(方眼紙ネット)
http://houganshi.net/taisuu.php
回帰直線
X軸の値とY軸の値を数式(y=ax+b)で示す直線を引いたときにそれぞれの点からの差(残差)の2乗して足したもの(平方和)が最も小さい時の数式が回帰直線
決定係数
相関係数を二乗すると求められる数式によって説明できる割合を示す。(寄与率とも)
つまり高ければ高いほど数式で説明出来ることになる
デモ(P169例題33)補足
変数の定義独立変数・・・input(コントロール出来る)
従属変数・・・output(系によって決まる)
有意差の話は、第8回 検定の原理
で説明する予定ですので、今回のところはスルーします
(教科書P171r表の話などはその時に)
到達度確認
1)P188例題38のデータより相関係数を求めよ2)次の表に示す4組のデータの相関係数r=-1だった。A B に入る数値を記せ
ID | x | y |
---|---|---|
1 | 4.5 | 1.2 |
2 | -1 | A |
3 | B | 4 |
4 | 8.5 | 0.6 |
補足
教科書該当ページ 第1章(P19) 第9章(P162-170,181-188) 第10章(PP191-192) 到達度確認の答え 1) r=Sxy/sqrt(Sxx×Sxy)に下記の値を代入 Sxx=64.85 Syy=66.35 Sxy=62.85 r=62.85/sqrt(64.85*66.35)=0.958 旧法と新法の話ですから相関係数低いとそのまま代替するには問題であります。 P164の方法で行う場合ここで出ている標準偏差とは不偏標準偏差(母集団の推定)なので(n-1で割っている)注意のこと この教科書では標本分散を不偏分散としているため偏差平方和による計算式にしている 2) ID1及び4より y=-0.15x+1.875 A=-0.15*(-1)+1.875=2.025 4=-0.15B+1.875 ∴B=(4-1.875)/(-0.15)=-14.167 もう少しキリ良く答え出せる予定でしたが・・・ 2)の問題のような相関係数値ありきの話は通常有り得ない。理解のため問題にしました |
第6回 感度・特異度・ROC曲線
到達目標6−1判別特性値の計算が出来る
6−2評価結果よりROC曲線を作成し評価やカットオフ値の検討が出来る
検査法の診断的有用性を評価する話
有病率の影響を受ける指標、受けない指標を整理しておくこと
感度と特異度
教科書(P104)感度=P(陽性|D) 疾患群における真陽性の割合
偽陽性率=P(陽性|Dc) 非疾患群における偽陽性の割合
特異度=1−偽陽性率 非疾患群における真陰性の割合
予測値
陽性的中率=P(D|陽性)
陰性的中率=P(Dc|陰性)
検査法の評価指標
尤度比=感度/偽陽性率
オッズ比=教科書参照 検査の有用性
ROC−AUC=ROC曲線を描いて算出 検査の分別能
何でも陽性と判断する検査は感度も偽陽性率も1になる
(なんでもかんでも、あります!! のノリ)
ROC曲線
教科書(P107)判別度の分析
感度と偽陽性率(1−特異度)を用いて曲線を描く
例題20でEをカットオフ値としたときの感度・特異度・陽性的中率・陰性的中率を求めてみてください
授業ではマンモグラフィの例を紹介するので以下紹介しておきます
参考:マンモグラフィ技術編(医療科学社)の見本
http://www.iryokagaku.co.jp/frame/03-honwosagasu/391/index03-391.html
到達度確認
1)なぜ予測値(例えば陽性的中率)は有病率の影響を受け、感度は影響を受けないか簡潔に述べよ2)P108例20のAUCを求めよ(キッチリ計算出来ます)
3)次のマンモグラフィの検査結果からROC曲線を描き、AUCを(小数点以下2桁まで求め四捨五入)求めよ。またカットオフ値を検討せよ
異常なし(1) | 良性(2) | 悪性を否定できない(3) | 悪性の疑い(4) | 悪性(5) | 計 | |
---|---|---|---|---|---|---|
疾患群 | 1 | 1 | 6 | 14 | 18 | 40 |
非疾患群 | 5 | 14 | 15 | 6 | 0 | 40 |
補足
教科書該当ページ 第6章(P104-111) 性能評価の話を自動車のエンジンで考えると理解しやすい(と勝手に思っています) 馬力があっても常用回転域の部分がスカスカ(ピーキー)だと扱いにくいなどなど 到達度確認の答え 2)0.85 3)0.88 カットオフ値の目安は2と3の間(1-特異度(偽陽性率)や感度の数値を書かれても困るので注意) 検査でのカットオフ値の意味合いの話と入試のカットオフ値の話。後者は入学した時点からスタートなわけで、それは教育が切り開く未来の話でもある。 卒業時に入学して良かったとなるように、皆さんも私も含めた関係各位何卒よろしくお願いいたします。 学生からの質問及び到達度確認の回答 質問 Q1)感度が高い検査で陰性であれば疾患である可能性が低い と解釈出来る理由 Q2)特異度が高い検査で陽性であれば疾患である可能性が高い と解釈出来る理由 回答 A1) 授業内容を思い浮かべると感度の話で陰性の話は関係ないように思ってしまうわけで。 感度=a/(a+c)が高いと言うことは、aが高値若しくはcが低値 ここで述べている話は陰性的中率のこと 陰性的中率=d/(c+d)が高くなるには、cが低値の場合 有病率を一定としたら、a+cが一定なので感度が高いaは高値且つcは低値となる ゆえに陰性的中率は高くなるという話 A2)は同様の考え方で カットオフ値の話で情報処理技術系の試験の合格基準の話をしましたが、ある筋から率を調整していると聞いていたので、そのまま喋っちゃいましたが実際には点数で決めております。 おそらく難易度で合格率を調整していると言う話なのだと思いますが、誤解がないように IPA、情報セキュリティマネジメント試験と基本情報技術者試験の合格者を発表、異例の合格率、予想外の受験者層(資格Zineニュース) http://shikakuzine.jp/article/detail/124 |
第7回 相対危険度
到達目標7−1相対危険度を示す指標にどのようなものがあるか説明できる
7−2症例対照研究では相対危険をオッズ比で算出する理由を説明できる
相関は関連がどの程度あるか
判断分析は、疾患を検査によりどの程度判断することが出来るか
相対危険度は、疾患(結果)が曝露(原因)の影響をどの程度受けているのか
指標は数字として計算出来る限り結果が現れるのだが、それの解釈を誤らないようにすることであったり、そもそも解釈しようが無いので出しても意味なしの場合もある
この授業では相対危険度=Relative Risk は一般的な用語であり、その算出指標の一つに相対危険=リスク比(Risk Ratio)があると整理します
一般的にはここらへんの言葉ゴチャゴチャです。
研究手法の話
(教科書P190)観察研究(Observational study)
横断研究(Cross-sectional study)曝露と疾患を同時に評価
時間軸がない場合が多く(例外は性別など)因果関係までは不明になってしまいやすい
コホート研究(Cohort study)
対象に曝露している人々を把握し、その中から曝露群と非曝露群を設定、追跡調査していくスタイル
通常前向きだが、後ろ向きにみる回顧的コホート研究というのもある。(後々でも曝露群に関する情報がある場合)
症例対照研究(Case-control study)
ある状態(例えば病気に罹患している)群と、罹患していない群を設定、時間を遡って調査していくスタイル
後ろ向きにしか行えない(前向きだと曝露→疾患の順がおかしくなる)
実験的研究(介入研究)(intervention study)
コホート研究の場合、曝露群(介入群)を研究者が割り付ける → 被験者に対する倫理的配慮が肝要無作為に割り付けることが出来る場合は交絡因子を制御できる(ことが期待される)
倫理的に考えると非介入群の方が不利益になってしまう可能性が高いので、配慮した研究デザインが求められる
説明用データ
疾病発症 | 疾病無 | 計 | |
---|---|---|---|
曝露有 | A | B | A+B |
曝露無 | C | D | C+D |
計 | A+C | B+D |
相対危険
Risk Ratio(RR)「リスク比」と言った方がわかりよい(と思うが)
曝露(介入)の有る時と無の時の危険を示す指標の比
危険を示す指標には罹患率やら有病率やら死亡率やら
A〜D:疾病発生頻度(頻度以外に罹患率やら有病率・・・)
曝露有群の発症リスク=A/(A+B)
曝露無群の発症リスク=C/(C+D)
リスク比=A/(A+B)/C/(C+D)
もし、発生頻度が低ければA+B≒B C+D≒D
リスク比≒A/B/B/D=AD/BC
オッズ比
Odds Ratio(OR)「リスク比」を出せない場合でも出せる(リスク比はそれぞれの群のリスクがわかっていないと出せない)
危険な事象が起きた場合と起きなかった場合度数の比(=オッズ)について曝露(介入)の有無毎に求め比をとったもの
発症有群の曝露オッズ=A/C
発症無群の曝露オッズ=B/D
オッズ比=A/C/B/D
=AD/BC
上記のように発症頻度が低ければオッズ比とリスク比の近似値となる
到達度確認
コホートと症例対照研究両方で行っていたものとする。1)それぞれから相対危険度(リスク比もしくはオッズ比)を求めよ
2)リスク比とオッズ比は近似値となる条件を述べよ
3)症例対照研究ではなぜリスク比を求めてたらだめなのか。簡潔に述べよ
4)介入研究では倫理的な問題に注意しなくてはならないがナゼか?自分の考えを簡潔に述べよ
コホート研究
不整脈あり | 不整脈なし | 計 | |
---|---|---|---|
曝露群 | 100 | 1900 | 2000 |
非曝露群 | 50 | 1950 | 2000 |
計 | 150 | 3850 | 4000 |
不整脈あり | 不整脈無し | 計 | |
---|---|---|---|
曝露歴あり | 50 | 30 | 80 |
曝露歴無し | 50 | 70 | 120 |
計 | 100 | 100 |
補足
教科書該当ページ 第10章(P190-194) 紹介した動画(NATS作成飛行機の可視化) http://videotopics.yahoo.co.jp/videolist/official/others/p2fa7e9e1ddcf091a4586fb2068d46390 |
第8回 検定の原理
到達目標8−1確率がどのような意味合いのものか理解する
8−2仮説検定の論理構成を説明できる
教科書第三章P48〜
確率
ある事象が起こることが期待される度合い(割合)ある個体に事象が起こる/起こらないのいずれかとしても、確率では答えられない
試行 サイコロを振って3の目が出る(y or n)
確率 サイコロを振って3の目が出る(1/6)
繰り返し試行を行うと頻度割合はその事象の確率へ収束していく
生物を対象とした場合試行を繰り返せる?→無理な場合が多い→条件を近づけて繰り返したと見做す
帰納(個別の事象から法則を導き出す)⇔演繹
参考
推論の基本「演繹法」と「帰納法」を使い分けて考える力を身につけよう
http://matome.naver.jp/odai/2139625697364840601
しかし試行の結果は事実として正しいが、かといってそれが確率的に正しい(真)とは限らない
次の試行以降で異なる結果がでる可能性を排除できない→永遠に試行を繰り返さないとならず法則が出せない
(故に異なる現象の起こる確率にたいして閾値を定めて、なかったことにして一般性を主張するスタイル)
事象の起こる確率が著しく低くても、実際に起こらないわけではない。
参考
まさに歴史的瞬間、オバマ大統領の被爆地ヒロシマ訪問にさすがのテレビ東京も特別番組で生中継
http://kabumatome.doorblog.jp/archives/65863513.html
背理法
命題の否定を仮定して話をすすめることで矛盾を示すことで命題が成り立つとする論法仮説検定
教科書P48-<大前提>やみくもに検定するのではなく、検定する理由・確信があるから確かめる という感じで
手順1:仮説をたてる(帰無仮説H0および対立仮説H1)
背理法に基づく証明をしている。
(差がない仮説が証明できないので、その対立である差がある仮説を採択する)
手順2:有意水準を決める
確率的に必然と偶然を切り分けている。一般に5%で分けているが1%の時もある
手順3:検定統計量を計算する
その事象の起こる確率を計算していることになるが、用いる確率分布によって計算式が異なる。
手順4:有意水準と比較し、仮説を棄却採択する
例)帰無仮説H0を棄却し対立仮説H1採択
注意
区間推定の話の延長線上が検定(P69とP50を比較)
配布資料の解説
仮説検定がしっくりしないそもそも
「ある」の反対が「ない」ってのは違うんじゃないの(何があるの?ないの?)
対立仮説(ある)の否定は帰無仮説(なし)では(なし)の反対は二重否定になるには → 仮説の立て方
「関心がある」の反対は「関心がない」。だから「好き」の反対は「関心がない」そして「嫌い」の反対も「関心がない」
不完全な帰納法で導くのって危険じゃないの
エラーを起こすことが前提の帰納法(とりあえず結論を早く出せるものの)αエラー βエラーが存在する
エラーを気にしなければいつの日か、都合の良い結論が得られるかもしれない
故にやみくもに検定するのではなく、至るまでのストーリーが大切
物語全体は演繹法の話。検証を仮説検定使っていると理解すればよい
データマイニングの世界は帰納法(仮説は生成できる)
しっくりするポイントは勝手に拡大解釈しないことで、仮説検定は用法を守り正しく使いましょう
エラー
教科書P202第一種の過誤(αエラー)・・・誤って違うと判定する確率
第二種の過誤(βエラー)・・・誤って一緒と判定する確率
<参考>
正しく「同じ」と判定する確率・・・1−α
正しく「違う」と判定する確率・・・1−β
関連する話
P204,198,207
有意差検定の有意水準は0.05でよいの
βエラーは0.2(データ数の設定)
検定回数が多いと補正が必要な理由
到達度確認
1)P50例題6の標準偏差をそれぞれ3,5,7cmクラスの人数を16,25,49人としたときに、それぞれ全国平均と比べたとき全国水準と違うと言えるか。有意水準は1%及び5%とする (書き方)n.s. 非有意 *:P<0.05 **:P<0.01
2)多群間を検定する際に注意しなくてはならないのはどのようなことか?理由も含めてまとめよ。
補足
教科書該当ページ 第3章(P48-54) 第10章(P198-209) 配付資料該当ページ 心理学的研究における統計的有意性検定の適用限界,葛西俊治,札幌学院大学人文学会紀要79,P45-78, 2006 http://ci.nii.ac.jp/naid/110004812630 配布したのはP7-14 紹介した動画 東京駅から全国各地への所要時間を可視化した映像。これはタメになる!−whats http://whats.be/114963 思ったこと 違う事を証明するために皆と一緒じゃないから違うというのは、なにやら消極的な論法で出る杭は打たれる的な印象を持ってしまうが、集団教育の中でそれぞれの優れた特性を伸ばす事を考えるのが難しい話であることを示唆しているようにも思う ただ杭が出ることで新しい世界が出てくる訳であるから杭が出ること自体は良いわけで、その内容を解釈する必要があり誰しもが悩んでいると思います(帰無仮説と対立仮説の話と一緒) |
第9回 パラメトリック検定
到達目標9−1パラメトリック検定の頑強性robustnessを説明できる
9−2t検定を行い判定することが出来る
パラメトリックとノンパラメトリック
教科書P46分布の形状(母数)に依存する統計量(平均値 標準偏差・・・量的変量)
分布の形状(母数)に依存しない統計量(順位 中央値 パーセント値・・・質的変量)
教科書P196
ノンパラメトリック検定は量的変量でも用いることが出来るが、β(第二種の過誤)が上昇する(1−β)=検出力が低下
パラメトリック検定・・・計測値の分布が正規分布であることを仮定
教科書P195
データが出てから検定法を選択するのは適切ではない
教科書P6
今回と次回でテーブル(適用要件による使い分け)の上2行を対象
分布の正規性について「データ数が大きくなると制約無し」・・・どの程度 パラメトリックの場合→結局妥当な話になってしまうが、考え方としてはP199参照に考えれば良い 教科書の効果量に対する必要データ数を可変させたものが以下
各群10データで検定すると10kg程度となるが、そこまで体重が変化しているとなにか違う出来事が起こっている気がする
各群1000データぐらいで検定すると1kg程度で有意な結果となるが、本当に意味あるのか気になる
分散の制約の話
1標本t検定・・・空白
2標本t検定・・・2群の等分散性
空白を私は、データの元が同じところなので問題にならないでしょう と解釈しています。
2群の等分散性に関しては、ぞれを前提として検定が成り立っているので(以下に紹介する(スチューデントの)t検定は
無論、等分散ではない場合に用いる検定(ウェルチのt検定)もあるのですが、そちらを最初から使った方が良いという話もあります。
ノンパラかパラメトリックの話と同様ですが、どちらでやろうとも有意差が出てるぐらい明確なものが理想ではありますが
(ここら辺の話はノンパラのところでひっくるめて取り上げます 教科書P99)
関連2群の差の検定
1標本t検定
教科書P56P59例題8を見ながら
関連する2群(ペア)・・・一つの群を2回測定している
前後の差を見る
t値(標準化された検定統計量)・・・2群のペアの差の平均を標準誤差で正規化したもの
帰無仮説は前後の差がゼロ
検定統計量と有意水準αのt値を比較する。
有意水準1%の場合判定はどうなるか?
演習4で確認のこと
2標本t検定
教科書P78〜 P80例題12 P87例題14こちらの場合は、F検定(P86)で等分散を確認してからの手順になる。
しかしながら、差が無い場合は帰無仮説を棄却できなかったということで、積極的に差があることを証明できなくてガッカリするべきものである(判定保留)
故に教科書は考慮して「等分散と考えて矛盾しない」と表現している
(F分布の話などは一元配置分散分析にて)
一標本との違いは分散が2種あること(一標本はペアの差をとるので一つ)
そのため合成する
t値・・・それぞれの群の平均の差を標準誤差で正規化したもの
ただし・・平均の差の標準誤差はそれぞれの和になるので、SE=√(s1^2/n1)+√(s2^2/n2)で、教科書の式になる
演習5で確認のこと
両側検定と片側検定
到達度確認
1)18人の患者にA剤を1週間投与し前後の脈拍数を計測した。A剤に効果があるか検定を行う。両側検定で有意水準α=0.05,0.01で検定せよ。前半
後半
2)A+X群とA群の抗体価に有意差があるか検定を行う。両側検定で有意水準α=0.05,0.01で検定せよ。
前半
後半
補足
教科書該当ページ 第0章(P5-6) 第2章(P46) 第4章(P56-62) 第5章(P78-87) 第10章(P195-199) 配付資料該当ページ なし 紹介した話など 「空のF1」で悲願の初Vを果たした室屋の逆境人生(THE PAGE) https://thepage.jp/detail/20160605-00000002-wordleafs 第112回日本精神神経学会学術総会 http://www.congre.co.jp/jspn112/ 【交流戦挑発ポスター】2016は非交流戦士マジワラン!クルーズも敵ロボットとして斬る !(SPIN!OUT) http://spinout-kj.com/poster-gandam-3460/ 思ったこと 検定の話は、品質管理の話由来と考えれば両側検定がスタンダードなのは自明 有意差あるあると思って検定して、帰無仮説を棄却できない時にだけ、おかしいと思わないように |
第10回 ノンパラメトリック検定
到達目標10−1パラメトリック検定とノンパラメトリック検定の違いを説明できる
10−2ノンパラメトリック検定を行い判定することが出来る
一標本Wilcoxon検定
ウィルコクソンの符号付順位和検定分布型,計測尺度,分散の制約なし
教科書(P6)
1:ペアのデータの差dを求める
2:dの絶対値よりそれぞれの差(d)の順位(昇順)を求める
3:検定統計量Tは+,−別に順位を足したもので小さい方
有意確率については直接計算出来るが(P74)延々と計算していくのは大変
n≦25まではWilcoxon検定表を使ってください
n>25は正規分布に近似と見なしてz値を求める方法で検定
平均値
平均値となっているが期待値(ただし一様なので中央値でも有り平均値でもあるが)Σk=n(n+1)/2 より
連続補正
順位は順序尺度で離散量(パラメトリックの頑強性がここでも登場)
このまま扱うと正規分布と合わないのでそれぞれ0側に向かって0.5だけシフト
近似式でn≦25の部分を計算しました
P72(例題10)
t検定も行うと・・・
(順位を見ている・・・外れ値の程度は影響しない)
Mann-Whitney検定
二標本になるとややこしくなるのはパラメトリック検定と同じP99参照
検定統計量
他群から見た自群の個々の順位−1の総和を求めて検定統計量としている
1:ある群(A)の値それぞれがもう一方の群(B)に入ったとしたときに(Aの)その値よりも(Bの群のなかで)値が大きい個数をカウントする。(A群の)全てについて行い和をとる
2:AとBを入れ替えて1:と同様の計算をするか、公式でB群の和を求め小さい方を検定統計量Uとする
到達度確認
1)被験者12名の運動前後の血中ホルモンAの測定をした。運動によりA値は変動したと言ってよいかパラメトリック、及びノンパラメトリック検定をせよ
ID | 運動前 | 運動後 |
---|---|---|
1 | 121 | 140 |
2 | 100 | 142 |
3 | 173 | 174 |
4 | 143 | 137 |
5 | 134 | 160 |
6 | 125 | 151 |
7 | 158 | 190 |
8 | 156 | 149 |
9 | 176 | 210 |
10 | 165 | 162 |
11 | 140 | 180 |
12 | 167 | 200 |
問題
補足
教科書該当ページ 第0章(P5-6) 第2章(P46) 第4章(P56-62) 第5章(P78-87) 第10章(P195-199) 紹介した話など マンモグラフィーの乳がん判別困難例伝えず…自治体の7割(読売新聞) http://www.yomiuri.co.jp/national/20160611-OYT1T50095.html http://girlschannel.net/topics/785359/ 「ある」と判断出来なければ「ない」・・・グレーゾーンは「ない」紹介したニュースの話 「ない」と判断出来なければ「ある」・・・グレーゾーンは「ある」仮説検定の論法 |
第11回 計数値データの検定
到達目標11−1二項分布と正規分布の関係を説明できる
11−2カイ二乗分布と正規分布の関係を説明できる
計量値と計数値
計量値・・・量を測定計数値・・・頻度を測定
頻度を頻度で割ったものは計数値(割合=比率)
打率(頻度率では無いけど)
量的変量は頻度の測定も出来る
二項分布
標本の大きさ=n事象の起こる確率=p
r=np=n回試行を繰り返したときに事象の起こる回数(期待度数)
二項分布→npが5よりも大きい(nが十分に大きい場合 教科書ではnp≧10 and n(1-p)≧10)正規分布に近似
χ2乗分布
教科書P128-129χ2乗分布・・・母分散を推定できる確率分布
自由度とともに分散も増加する
正規分布から上側確率を計算
バラツキの話なので下側の確率はバラつきすぎていない確率
→ 正規分布の両側2.5%はカイ二乗で上側に集約される
χ2乗検定
出現度数Oiと期待度数Eiのズレを検定期待度数は与えられた情報から推測した理論的に求めた度数
適合度は対象がある条件下において想定される比率(一様 4:3:2:1 とか)に基づき推測
独立性はそれぞれの要因を用いて推測
期待度数が低い場合、そのまま使えないが、計算は楽
Fisherの直接確率法はいつでも使えるが計算大変
(コンピュータを使える時代)
故に教科書では2×2表以外出てこない(考え方は一緒)
よくある?間違え
度数なのに比率(100%)に直してから検定とか
<確認>
教科書P135の計数値を10倍すると
薬剤群 | 偽薬群 | ||
---|---|---|---|
+ | 90 | 30 | 120 |
− | 210 | 270 | 480 |
300 | 300 |
到達度確認
1)イチロー選手の打率を.350とするとき、4打数ノーヒットになってしまう確率はどの程度か求めよ2)ある症状に対して薬物療法を行った場合1年以内に15%の人が再発する。新薬を開発し試験的に200例の患者に投与したところ、再発例が20例あった。新薬に効果があるか検定せよ
3)以下の治療法と生存死亡数の関係から治療法により転帰が異なるか検定せよ
治療法A | 治療法B | ||
---|---|---|---|
生存 | 30 | 25 | 55 |
死亡 | 20 | 35 | 55 |
50 | 60 |
補足
教科書該当ページ 第7章(P114-140) 紹介した話など 人口ピラミッドの話。ちなみに日本の場合丙午の影響で人口が落ち込んでいる年(1966)があります。 我が国の人口ピラミッド−日本の統計2016(総務省統計局)より http://www.stat.go.jp/data/nihon/g160402.htm
誕生日の話もしましたが、過去に調べていた方がおられました。4月2日多いですね
m3で「「低学年クライシス」、6割強が実感◆Vol.1 」という記事が出ていたという話をしました。 その中で紹介されているアンケート調査の結果が公表されているのでリンク張っておきます。 医学生の学力に関するアンケート調査結果報告書(平成28年1月)全国医学部長病院長会議 https://www.ajmc.jp/download/gakuryoku-27.pdf Fisherの直接確率計算法は面倒くさいという話で納めましたが、教科書P137〜を参考に実際に復習で計算をしてみてください。 |
第12回 独立多群間の比較
到達目標12−1F分布とカイ二乗分布の関係を説明できる
12−2分散分析と多重検定の違いを説明できる
F分布
カイ二乗分布と同じく分散に関する確率分布それぞれの群のカイ二乗値の比=分散の比・・・F値(FはフィッシャーのF)
F分布とt分布の関係
t^2(ν)=F(1,ν)
F分布とカイ二乗分布の関係
χ^2(ν)=ν×F(ν,∞)
F検定の話
等分散性の検定・・・分散比を求めてF値より判定「2群の分散は異なるとは言えない」・・・帰無仮説を棄却できない(保留)
「2群の分散に差が無いとは言えないとは言えない」という日本語になる
多群間の比較
教科書P142群分け・・・順序尺度以上でその関連をみたい→同時比較
群分け・・・名義尺度or関連を見るわけではない→多重比較
同時比較して差があったから多重比較するというのは、何を述べたいかによるが・・・
P154参照
同時比較
これまでと同じように正規分布に従うか否かの話になる→P159(P99と対比させながら)一元配置分散分析
群間分散と群内分散の比をとるKruskal-Wallis検定
教科書P152P154例題32のデータで外れ値の話も
多重検定
教科書P207それぞれの検定が独立した仮説にもとづいたものと考えて良いか?
一連のものであれば対立仮説を考えたときに有意水準が5%と言いながら5%になっていないのでは?
多重に検定することでどれかあたれば帰無仮説は棄却できるので例えば3群総当たりだと有意水準0.05で多重検定(6通り)すると0.265になってしまう。
以下はP146例題32で解説
有意確率補正法
Bonferriniの場合は6通り検定するのであれば、一検定あたりの有意水準だと0.05/6=0.0083となる。全体では1-(1-0.00833)^6=1-0.95103=0.0490Sidak補正の場合は同様に1-(1-0.05)^(1/6)=0.008512 1-(1-0.008512)^6=1-0.95=0.0500
多群になるほど検定あたりの有意水準が下がる→差が出にくい
多重比較法
パラメトリック法Tukey法・・・各ペアに対する平均値の差の検定
Dunnett検定・・・一つの対象群との対比
ノンパラメトリック法
Dunn法
到達度確認
1)P151演習14で70dB〜90dBのデータを一元配置分散分析をした場合どのような結果になるか求めよ2)P148例題30より多重検定の計算結果を(画面上に)示す。Bonferroni補正をしたうえで検定結果を示せ
補足
結局同時比較はカイ二乗検定の時と同様に違うことが分かってもどの関係が違うかまではわからない 教科書該当ページ 第8章(P141-159) 第9章(P207-209) 参考資料 分析法の妥当性確認に関するガイダンス(農研機構)より http://www.naro.affrc.go.jp/org/nfri/yakudachi/datosei/pdf/F_and_Chisquare.pdf F分布とは何か?(ようこそ、化学標準物質の不確かさへのいざない (産業技術総合研究所)) https://staff.aist.go.jp/t.ihara/f.html 雑談系 ニンニク料理の件は、金曜日に消費量が多くて日曜日は少ないのではないかという仮説(曜日により違いがある) ちなみに料理はこれ。美味しかったです
多重検定のくだりは、モヤモヤしている方がまだおられることでしょう。私に質問にきた学生は意味を理解して納得の様子。要は対立仮説は何?と考えれば、腑に落ちるように思います。 |
第13回 多変量解析
到達目標13−1相関係数と偏相関係数の違いを理解する
13−2重回帰分析においてどのように変数が選ばれているか説明できる
多変量解析について
教科書P5多くの変量を用いて探索的に 分類・予測・・・(重回帰分析)
要約・・・外的基準がない(主成分分析)
「関係ありそうなデータを集めたけどどうしたらまとまるのやら」という悩みを解決してくれる夢を見やすい
重回帰分析
教科書P193(回帰直線の話を思い出す→単回帰分析)
回帰・・・元に戻る・・・何らか(定理や関係)に基づき戻っていく
単回帰分析
教科書P181回帰係数・・・Y=a+bXのb
<復習>rは共分散
単相関係数の検定・・・(有意に相関があるか否か)教科書P168例題33
同様に 回帰係数の検定
Ti=^Bi/SE
自由度=n-2のt分布
同様に検定
相関係数と回帰係数
回帰直線の場合は従属変数と独立変数の関係をa項とb項(回帰係数)に分離させて考える相関係数は分離させずにそれぞれのバラツキを基に求めている
XとYを入れ替えると回帰係数は変わる。相関係数は変わらない
偏相関係数と偏回帰係数
相関行列 単相関と偏相関
実態としては相関関係で構わないが、それぞれの変量の関係性を明らかにするには偏相関多くの変量に対する相関→相関行列
P172演習17に(豪快に)年齢を入れて分析すると・・・(ID1〜5を9歳 6〜10を10歳 11〜15を11歳)
肺活量の話なのに・・・
5.2 偏相関とは(アイスクリーム屋さんで学ぶ楽しい統計学──相関から因子分析まで──)
http://kogolab.chillout.jp/elearn/icecream/chap5/sec2.html
重回帰分析の概要
Y=b0+b1x1+b2x2+(中略)+bnxn補正 R2・・・自由度修正済み決定係数・・・1に近いほど良好なモデル。
t値・・・係数が0か否かの検定
多重共線性
通称:マルチコ説明変数の間に相関があるとおかしくなる(上の話もそれ)
相関のある変数を一つにまとめるなど・・・
到達度確認
1)P162の相関例A〜Cについて無相関の検定を行え2)今までの到達度確認で特に解説を求めたい問題を記してください(但し3問以内)
補足
探索的な話なので検定結果は、「もしも仮説があるならば」的に考えないといけない。 その変量の意味合いは分析屋は限界があり対話の中で把握していきます。故に実際の研究では研究者とディスカッションしながらの日々です。 教科書該当ページ 第0章(P5) 第9章(P168-172,P181-188) 第10章(P193-194) 参考資料 雑談系 |
第14回 生存時間分析
到達目標14−1カプランマイヤー法による生存率を計算することが出来る
14−2ログランク検定による生存率の差の検定を行うことが出来る
生存時間分析は治療法等の評価に時間軸を含めたもの
イベント発生までの時間による分析
生存率
生存率には計算方式が複数電算機の普及によりKaplan-Meier法でも容易に計算出来る時代
そもそも率は比の特殊な形態で単位時間あたりのイベント数を表わす
人年法(参考)大阪保健医療大学医療情報学2015の該当ページ)
http://www.medbb.net/education/ohsumedinfo2015/index.html#13
Kaplan-Meierで求める非イベント発生(生存)率=1-イベント発生(死亡)率は、率では無く時点イベント(死亡)割合なので注意
<参考>
患者の生存率(地域がん登録全国協議会)
http://www.jacr.info/about/survival.html
直接法は割合。中途打ち切りがあると困る
生命保険数理法も割合。中途打ち切りについては1/2を観察期間に含めているがイベント発生(死亡)者の観察期間を考慮していないので率では無い(考慮していたら人年あたり(率)になる)
カプランマイヤー法によるイベント発生率の計算
個票データ患者ID | 診断名 | 再発時期 | 患者ID | 診断名 | 再発時期 | 患者ID | 診断名 | 再発時期 | 患者ID | 診断名 | 再発時期 | 患者ID | 診断名 | 再発時期 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | b | 3 | 11 | a | 8 | 21 | b | 9 | 31 | b | 24+ | 41 | a | 3+ |
2 | b | 5 | 12 | b | 14 | 22 | b | 18 | 32 | a | 12 | 42 | b | 8 |
3 | b | 6 | 13 | b | 9 | 23 | a | 12+ | 33 | a | 3+ | 43 | b | 24+ |
4 | b | 14 | 14 | a | 1 | 24 | a | 3 | 34 | b | 13 | 44 | a | 5+ |
5 | a | 7+ | 15 | a | 2 | 25 | b | 17+ | 35 | b | 17 | 45 | b | 14 |
6 | a | 14 | 16 | a | 3 | 26 | a | 7 | 36 | a | 3 | |||
7 | a | 17 | 17 | a | 13 | 27 | a | 8 | 37 | b | 15 | |||
8 | b | 21 | 18 | b | 21 | 28 | a | 12 | 38 | b | 13 | |||
9 | b | 21 | 19 | b | 16 | 29 | b | 12+ | 39 | a | 21 | |||
10 | b | 16 | 20 | b | 24+ | 30 | a | 1 | 40 | b | 18 |
実測正常率の計算
疾患a診断からの月数 | 月開始時の正常数 | 発症数 | 中途打ち切り数 | 発症割合 | 正常割合 | 累積正常率 |
---|---|---|---|---|---|---|
1 | 20 | 2 | 0 | 0.100 | 0.900 | 0.900 |
2 | 18 | 1 | 0 | 0.056 | 0.944 | 0.850 |
3 | 17 | 3 | 2 | 0.176 | 0.824 | 0.700 |
5 | 12 | 0 | 1 | 0.700 | ||
7 | 11 | 1 | 1 | 0.091 | 0.909 | 0.636 |
8 | 9 | 2 | 0 | 0.222 | 0.778 | 0.495 |
12 | 7 | 2 | 1 | 0.286 | 0.714 | 0.354 |
13 | 4 | 1 | 0 | 0.250 | 0.750 | 0.265 |
14 | 3 | 1 | 0 | 0.333 | 0.667 | 0.177 |
17 | 2 | 1 | 0 | 0.500 | 0.500 | 0.088 |
21 | 1 | 1 | 0 | 1.000 | 0.000 | 0.000 |
診断からの月数 | 月開始時の正常数 | 発症数 | 中途打ち切り数 | 発症割合 | 正常割合 | 累積正常率 |
---|---|---|---|---|---|---|
3 | 25 | 1 | 0 | 0.040 | 0.960 | 0.960 |
5 | 24 | 1 | 0 | 0.042 | 0.958 | 0.920 |
6 | 23 | 1 | 0 | 0.043 | 0.957 | 0.880 |
8 | 22 | 1 | 0 | 0.045 | 0.955 | 0.840 |
9 | 21 | 2 | 0 | 0.095 | 0.905 | 0.760 |
12 | 19 | 0 | 1 | 0.760 | ||
13 | 18 | 2 | 0 | 0.111 | 0.889 | 0.676 |
14 | 16 | 3 | 0 | 0.188 | 0.813 | 0.549 |
15 | 13 | 1 | 0 | 0.077 | 0.923 | 0.507 |
16 | 12 | 2 | 0 | 0.167 | 0.833 | 0.422 |
17 | 10 | 1 | 1 | 0.100 | 0.900 | 0.380 |
18 | 8 | 2 | 0 | 0.250 | 0.750 | 0.285 |
21 | 6 | 3 | 0 | 0.500 | 0.500 | 0.143 |
24 | 3 | 0 | 3 | 0.143 |
疾患a:青線
疾患b:赤線
ログランク検定
カイ二乗分布による検定を行う(期待度数と比較してバラツキがあるか否か)
イベント発生毎のクロス表(カッコ内は期待度数)
1ヶ月発症数 | 健常数 | 合計 | |
症例a | 2(0.889) | 18(19.111) | 20 |
症例b | 0(1.111) | 25(24.889) | 25 |
合計 | 2 | 43 | 45 |
発症数 | 健常数 | 合計 | |
症例a | 1(0.419) | 17(16.581) | 18 |
症例b | 0(0.581) | 25(24.419) | 25 |
合計 | 1 | 42 | 43 |
実測罹患率及び期待度数
診断からの月数 | a観察度数 | a打ち切り数 | a総人数 | a期待度数 | b観察度数 | b打ち切り数 | b総人数 | b期待度数 |
---|---|---|---|---|---|---|---|---|
1 | 2 | 0 | 20 | 0.889 | 0 | 0 | 25 | 1.111 |
2 | 1 | 0 | 18 | 0.419 | 0 | 0 | 25 | 0.581 |
3 | 3 | 2 | 17 | 1.619 | 1 | 0 | 25 | 2.381 |
5 | 0 | 1 | 12 | 0.333 | 1 | 0 | 24 | 0.667 |
6 | 0 | 0 | 11 | 0.324 | 1 | 0 | 23 | 0.676 |
7 | 1 | 1 | 11 | 0.333 | 0 | 0 | 22 | 0.667 |
8 | 2 | 0 | 9 | 0.871 | 1 | 0 | 22 | 2.129 |
9 | 0 | 0 | 7 | 0.500 | 2 | 0 | 21 | 1.500 |
12 | 2 | 1 | 7 | 0.538 | 0 | 1 | 19 | 1.462 |
13 | 1 | 0 | 4 | 0.545 | 2 | 0 | 18 | 2.455 |
14 | 1 | 0 | 3 | 0.632 | 3 | 0 | 16 | 3.368 |
15 | 0 | 0 | 2 | 0.133 | 1 | 0 | 13 | 0.867 |
16 | 0 | 0 | 2 | 0.286 | 2 | 0 | 12 | 1.714 |
17 | 1 | 0 | 2 | 0.333 | 1 | 1 | 10 | 1.667 |
18 | 0 | 0 | 1 | 0.222 | 2 | 0 | 8 | 1.778 |
21 | 1 | 0 | 1 | 0.571 | 3 | 0 | 6 | 3.429 |
今回は二つの群の比較・・・自由度k=n-1=1
O1=a観察度数の総和=15
E1=a期待度数の総和=8.549
O2=b観察度数の総和=20
E2=b期待度数の総和=26.451
検定統計量χ^2=6.441
χ^2(1,0.95)=3.8415
故に帰無仮説を棄却し対立仮説を採択する(a,bの再発率に差がある)
補足
到達度確認特に解説を求めたい問題アンケート結果 アンケート(13回授業到達度確認) 回収数 100件 有効回答数 61件 1位 28 第7回 相対危険度 1)リスク比(コホート)(100/2000)/(50/2000)=2.0 オッズ比(症例対照)(50/30)/(50/70)=2.33 2)相対危険の項参照 3)データからそれぞれの群のリスクを推定できないから 4)略 2位 25 第8回 検定の原理 1)σ=3cmの時 16人・・z=(137-40)/(3/√16)=-4 P=P(|z|≧4)<P(|Z|≧2.58)=0.01 以下略 2)略 3位 17 第4回 平均値の推定 該当授業補足参照 4位 16 第9回 パラメトリック検定 1)P59例題8参照 2)P80例題12参照 教科書該当ページ 参考資料 雑談系 |
第15回 まとめ
到達目標15−1これまでの授業で理解していなかった部分を理解する
第13回目アンケート記述部分に対する回答
3問のみと言わず全部解説して欲しい
授業の内容に沿っているので復習すると基本解けます。その上で分からない部分を教えていただけるとピンポイントアドバイスで理解に導けます各検定の使い分けを教えて欲しい
(カイ二乗検定がどこで生きてくるのかわからないです)とりあえず教科書P4〜P7を読んで落ち着いてください
そもそもt検定って何
t分布そのものは第4回の「母標準偏差が未知の場合の区間推定」のところを読んでみてください。何故不偏分散ではn-1で割るのか
第3回到達度確認問題4)母分散σ^2=1/NΣ(Xi-μ)^2
標本分散s^2=1/nΣ(xj-xbar)^2
(xj-xbar=(xj-μ)-(xbar-μ)を代入)
標本分散s^2=1/nΣ(((Xj-μ)^2-2(xj-μ)(xbar-μ)+(xbar-μ)^2)
=1/nΣ(Xj-μ)^2-2(xbar-μ)1/nΣ(xj-μ)+(xbar-μ)^2
=1/nΣ(Xj-μ)^2-(xbar-μ)^2 ・・・ 1式
母平均μを使えないため標本分散は(xbar-μ)^2=誤差分散(標準誤差の二乗)分だけ小さくなる
(xbar-μ)^2=1/n(1/nΣ(Xj-μ)^2)
1式に代入
標本分散s^2=1/nΣ(Xj-μ)^2−1/n(1/nΣ(Xj-μ)^2)
=(1−1/n)1/nΣ(Xj-μ)^2
母平均を用いた分散1/nΣ(Xj-μ)^2・・・不偏分散
∴不偏分散=n/(n-1)s^2=n/(n-1)・1/nΣ(xj-xbar)^2
=1/(n-1)Σ(xj-xbar)^2
ということで、標本の分散を求める場合は通常の分散のようにnで割るのではなく(n-1)で割って母分散を推定します(不偏分散)