奈良県立医科大学 生物統計学2019
(医学部医学科)

開講するにあたって

本授業の位置付け

医学教育モデル・コア・カリキュラム(平成28年度改訂版)をベースに構成
http://www.mext.go.jp/b_menu/shingi/chousa/koutou/033-2/toushin/1383962.htm

本講義が医学教育モデル・コア・カリキュラムにおいて担う部分・主に関連する部分
B社会と医学・医療
 B-1 集団に対する医療
  B-1-1) 統計の基礎
   確率には頻度と信念の度合いの二つがあり、それを用いた統計・推計学の有用性と限界を理解し、確率変数とその分布、統計的推測(推定と検定)の原理と方法を理解する。
  B-1-2) 統計手法の適用
   医学、生物学でよく遭遇する標本に統計手法を適用するときに生じる問題点、統計パッケージの利用を含めた具体的な扱い方を修得する。
  B-1-4) 疫学と予防医学
   保健統計の意義と現状、疫学とその応用、疾病の予防について学ぶ。

以下の部分は統計データ的に話が出来たらと思っています.

  B-1-7) 地域医療・地域保健
   地域医療・地域保健の在り方と現状及び課題を理解し、地域医療に貢献するための能力を獲得する。

授業メニュー
第1回 オリエンテーション

第2回 尺度・度数分布

第3回 代表値・散布度

第4回 平均値の推定

第5回 検定の原理

第6回 パラメトリック検定

第7回 ノンパラメトリック検定

第8回 計数値データの検定

第9回 独立多群間の比較

第10回 相関係数・回帰直線

第11回 多変量解析

第12回 相対危険度

第13回 感度・特異度・ROC曲線

第14回 生存時間分析

第15回 まとめ



第1回 オリエンテーション

到達目標
1−0本科目における単位取得の意味合いを理解する
1−1統計によりの限界について理解する
1−2確率について理解する

本授業の目的

 生物統計学は、保健医療分野における課題を統計的手法により明らかにし解決に資する学問である。ここでは、統計学の基礎から本分野においてどのような統計的手法が用いられてきたのか理解し、データの収集・解析・結果の解釈に必要とされる基礎知識を修得する。

本授業の到達目標

0)統計手法など必要に応じて「勉強すれば出来るようになる能力」を獲得する
1)データの性質に関して説明できる
2)基本的な統計指標を算出できる
3)統計的推定を理解し実施できる
4)統計的検定を理解し実施できる
5)データを取り扱う上での注意点を説明できる

教科書

新版統計学の基礎 第2版
http://www.nikkyoken.com/catalog/catalog_education/642

参考図書

授業中に紹介します

参考資料

必要に応じて適宜配布しますがなるべく配布せずに済むように出来たらと思っています

授業の進め方


電卓使いますのでよろしくお願いします(授業中はスマホでかまいません。試験はどうしようか考え中)

単位認定

毎回「到達度確認」を実施します。提出いただいたものは次回の講義で返却します。

集計したものや学習指導上皆で共有したほうが良いものについては出す場合があります.
問題があるようでしたらご連絡ください.
あと,設問に関係ないけどほのぼの内容も時々
昨年の講義で印象に残ったもの
nmubiostat2018-0701.png(42771 byte)
nmubiostat2018-0903.png(24401 byte)
昨年度の「到達度確認」の状況
nmubiostat2018-1501.png(7344 byte)
nmubiostat2018-1502.png(23289 byte)
キチンとデータをとりまとめていても最後に間違えると・・・ 統計はある集団の全体像を一方向から眺めているだけ

条件が違うと
評価方法はシラバスのとおりです. 出欠システムに「ピッ」としてもエントリーしただけで講義に参加したことを示す証拠にはなりません
(ということを某先生からご教授いただきました.)

Donabedianの提唱する医療の質の評価・・・「構造」「過程」「成果」
本授業では
構造・・・講義を行う環境(受講に関する全体評価)
過程・・・到達度確認の状況(受講に関する個別評価)
成果・・・試験(個々)
と定義しました。
成果の指標も色々
参考:医療の成果に関する指標(アウトカム指標)及び過程に関する指標(プロセス指標)の取扱い(医療情報の提供のあり方等に関する検討会(第8回)厚生労働省)
http://www.mhlw.go.jp/stf/shingi/2r9852000001u0or-att/2r9852000001u0tr.pdf

統計の世界の枠組み

記述統計と推測統計に分類される

記述統計とは

・収集したデータを要約してその集団の状況を表す
・そこにあるデータは全体(母集団)
・度数(分布)・代表値・散布度・相関係数など

推測統計とは

事象の起こる確率を仮定した上で全体(過去・現在だけではなく未来も含む)を推測する。推定と検定に分類される。
推定とは
・収集したデータを基にしてその集団の状況を表す
・そこにあるデータは一部(標本)
・点推定・区間推定・モデリング
検定とは
・収集したデータを基にしてその集団の状況を仮定に従ってyes/Noで判断する
・そこにあるデータは一部(標本)
・t検定・カイ二乗検定など

母集団とは

対象としている集団の全体を指し示すときに「母」を最初に付ける。
無限母集団と有限母集団からなる。
対象が有限か無限に増殖するかの違い

標本とは

母集団の一部。
昆虫標本を思い浮かべると、偏りに注意する必要があることは自明。
参考
標本調査はサンプル抽出が命(The Huffington Post Japan)
http://www.huffingtonpost.jp/nissei-kisokenkyujyo/sample-survey_b_5878832.html

統計処理について

集団から個々のデータをとりまとめて示すので・・・
nmucommed2017-01.png(276444 byte)
奈良県立医科大学大学院看護学研究科 地域医療学(分担:データ分析編) より)
データは目的に応じて丸めたり切ったりしてしまう。故に二次利用の場合は注意が必要。
とりあえず収集してデータベース構築をすることが目的ならば、分析は既に二次利用。耐えうるデータを目指さなければ意味が無い
・一次データは情報源からダイレクトに取得するので粒度を目的にあわせてコントロールしている
・二次データは本来の目的と異なるデータ活用となるので、その目的に対してデータの粒度があわない事がある(細かい場合は粗くできるが粗いものは推定するしかない)
医療情報学の分野は二次利用がテーマ

たとえば平均値の話

平均を一つの指標であって個々は自由にふるまう結果に過ぎないが,情報に過剰適合しようとすると 1980年代後半と2010年代前半のとある会社の入社式を比較すると、時代の流れで規格品化が加速しているよう…様々な背景がある? (Togetter)
https://togetter.com/li/1334360
データ(情報)により意図せずとも同期がとれる時代なのかもしれない
ちょっとした確率のアンケート問題
https://forms.gle/yrWcnp3VaoudvVTP9

到達度確認

1)(公表しても良い範囲で)一番確率の低いと思われる遭遇したことのある出来事はなんでした?その確率は何%ぐらいの出来事だったと思われますか?。

授業後補足

設問1
確率を書いていないウッカリさんご注意ください
有効回答数104
最小値2.5×10-88
最大値0.3
平均値0.0267
(「ありえない」は5%が一つの基準とされていますがまんざらじゃないなと思う結果でした)
最小値の作品
じゃんけん5年間通算0勝291敗

じゃんけん系他には
じゃんけん10連敗(0.017)

回答の一部
・医大合格系
0.07,0.05,0.02,0.01,0.01
 (参考)目の前の可能性を見つめ修正を繰り返しながら視野の広い人生を築こう(前学長吉岡章先生 関塾タイムス)
   http://www.kanjuku-times.com/201302/bengaku.php

・試験系
分からない問題で20個の選択肢の中から選ぶ 0.05
以前テストで出た生物の細かい知識の問題が本番の入試で出た 0.002
模擬試験の前日に読んだ文章が試験で出題された 0.001
入試の化学でおそらくノーミス 0.0625
センター模試で完答が5個ともマーク.勘で当てた 0.00001

・芸能・聖地系
高校にたむけん来た 0.01
住んだ場所が好きなアニメの聖地 0.001
一番好きな俳優が学校に映画撮影で1カ月ほど毎日会えた 0.001
道端で芸能人と遭遇 0.0003
親戚の家の周辺に某芸能人の実家 0.0002
野村沙知代さんに頭をなでられた 0.0001
(天皇陛下御即位三十年奉祝感謝の集いで祝辞を述べた)芸能人とホテルのエレベータで乗り合わせる 7.69231E-12

・友人知人ばったり系
東京に住む友人と関西でお食事後別な場所で偶然出会ってまた食事 0.05
高校時代に地下鉄で幼稚園の先生に名前呼ばれる 0.001
通学の電車で高校の先生がたまたま乗り合わせてて出会う 0.001
引越し前の隣人と引越し後入学した学校で一緒に 0.001
2年間の間に友人Aと京セラのライブ,名古屋旅行のお土産屋,東京旅行では同じ飛行機,海外旅行に行くときは関空で出会う 0.0001

・くじ引き当たった系
少年誌の応募でQUOカード当たる 0.01
ヤフオクドームのスクラッチで野球のチケット当たる 0.01
一口4枚までしか抽選応募出来ないライブ.8人で二人が当てた 0.01
駄菓子屋のきなこ棒 当たったらもう一本で7回連続アタリ 0.008
〇〇寿司のびっ〇〇ぽんで5枚しかお皿入れてないのに当たった 0.005
薬局のガラポンくじ一等あたる 0.001
スーパーの正月くじで一等のDSあたる 0.001
10円ガムの当たりを3回連続で 0.00003
単発ガチャで欲しいキャラ出た 0.00001
スロットであたった 0.00000286
宝くじの一等に当選する事 0.000001(設問どおり解釈すると本人が身近にあたった人がいるということになる)
宝くじで当たりがでる確率1等サマージャンボで0.0000001(二人目)

・がっくり系
昔彼女がいた
頭に鳥の糞 0.3
頭に鳥の糞 0.3
傘を差していて雨が降ているか確認すべく手を傘の外に出したらカラスの糞 0.3
鳥の糞2回落とされる 0.1
映画の前売り券得点4種類ランダムで3枚買ったが推しキャラ以外当たった 0.04
タンスの角で尾てい骨骨折 0.02
顔面骨折 0.01
生食用カキにあたる 0.01
鳩に糞をかけられる 0.0025
電車の席に座ったら尿しみてる 0.001
料理を注文するも三品連続品切れ 0.001
目の前の人に糞が落ちた 0.0001
アメリカについた初日に青信号で横断歩道を歩いていたら車にはねられるも,ほぼ無傷 0.0001
スーパー抽選会20回で全部残念賞 0.0001

・アスリート系
サッカーでチビリンピック出場 0.01
サッカーで二人で同時にジャストミート 0.01
弓道で弓が場外に出ていったこと 0.0001 2018W杯のToToグループステージ10試合 1.69351E-05

・めずらしい
小学校の入学式でパトカーが送ってくれた 0.05
母と父方の祖母と祖母の友達が一緒な名前 0.05
母と父の母の名前が同じ字 0.02
注意をした痴漢の人が同一人物(2回) 0.02
眼科に彩雲 0.01
塾の友達の友達が大学で同じ部活に入って私の友達と友達になっていた 0.01
ポーカーゲームで配られた時点で5カード 0.000005
自分担当の美容師のカノジョが元カノ 0.00001

スクープ系
新元号をあてる確率 (あてたの?)
高校の先生同士がデートしていた 0.03

・これからの医療について考えるキッカケとして
スペインに語学研修に行ったときに初めて話した方がイギリス人のLGBTの方 0.01
大西彩乃,日本におけるLGBT特有の医療問題を解決する方法について,医療・生命と倫理・社会 / Vol.13,pp1-14,2016
https://ir.library.osaka-u.ac.jp/repo/ouka/all/57403/

全部掲載出来なかったのですが,パチスロ系ガチャ系も多かったかなと思います.

ベンフォードの法則

皆さんの書かれた確率の先頭数字を集計しました.
nmubiostat2019-0101.png(2221 byte)
【ベンフォードの法則】不正を暴く「1」の法則:先頭の数字として最も多いのは何? (永野裕之のBlog)
https://www.naganomathblog.com/entry/2018/06/02/160224

第2回 尺度・度数分布

到達目標
2−1データの尺度分類(4つの尺度)について説明できる
2−2度数分布表が作成できる

母集団とは

対象としている集団の全体を指し示すときに「母」を最初に付ける。
無限母集団と有限母集団からなる。
対象が有限か無限に増殖するかの違い

標本とは

母集団の一部。
昆虫標本を思い浮かべると、偏りに注意する必要があることは自明。

平成28年(2016年)医師・歯科医師・薬剤師調査の概況(厚生労働省)
https://www.mhlw.go.jp/toukei/saikin/hw/ishi/16/index.html
地域偏在,診療科偏在の話
naracommed20190313-11.png(144357 byte)
奈良県の医療を取り巻く状況について より)

変量(データ)の分類

変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。
それぞれを尺度と呼び、4つに分類するのが一般的である
1分類尺度(名義尺度)
2順序尺度
3間隔尺度
4比尺度(比例)

1,2を質的変量(定性的)
3,4を量的変量(定量的)
性質としては上位互換性があり
4>3>2>1

教科書は間隔尺度及び比尺度に関して統計処理上区別する意味は無いとなっているが、注意は必要
ポイントは数学的には正しかったとしても意味的に正しいかどうか

度数分布表

それぞれのデータ(変量)の数(出現頻度)をまとめたもの
変量が名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数  ・・・出現頻度
相対度数・・・総出現頻度を1(100%)としたときに、それぞれの度数がしめる割合
累積度数・・・上位の変量の度数もあわせた度数
累積相対度数・・・累積度数の相対版

教科書P11の「複雑な調査データ」TGの度数分布表を作成してください
<参考> トリグリセリド(TG:中性脂肪)―脂肪の主成分、肥満の指標―(公益財団法人 神奈川県予防医学協会)
http://www.yobouigaku-kanagawa.or.jp/kensa/kensati09.html
階級 階級値 度数 相対度数 累積度数 累積相対度数
75〜100 87.5
100〜125
125〜150
150〜175
175〜200
200〜225
225〜250
250〜275
275〜300
----- 18 1.00 ----- -----

度数分布図

度数分布を縦棒グラフで示したもの
量的変量の場合「ヒストグラム」→縦棒の間隔は無し(量だから)
棒グラフの面積がその度数の量を示す。→ある部分だけ階級幅を倍にした場合度数は半分で描く
例:
nmubiostat2017-0102.png(3848 byte)
第1回 オリエンテーション 奈良県立医科大学 生物統計学2017(医学部医学科) より)

到達度確認

1)上記の度数分布表を完成させよ
2)下記の度数分布表の空欄部A,B,Cを求めよ
3+α)4つの尺度に関して例を挙げよ(他者の回答と被ってないほど高得点・・・情報量・・・確率)
階級 階級値 度数 相対度数 累積度数 累積相対度数
0.5〜1.0
1.0〜1.5 6 A 0.325
1.5〜2.0 0.1 17
2.0〜2.5 B 0.65
2.5〜3.0 7
3.0〜3.5 0.125 C
3.5〜4.0
----- 1.00 ----- -----

授業後補足

0.5〜1.0 はこの授業では0.5以上1.0未満 で統一します
設問2)に関しては全数を把握すればわかる→全数がわかるにはある階級の(累積)度数−(累積)相対度数のペアが分かれば
回答より

順序尺度
〇がんのステージ
<参考>
がんの病期のことを知る(国立がん研究センターがん情報サービス)
https://ganjoho.jp/hikkei/chapter3-1/03-01-03.html
間隔尺度
〇偏差値
〇年号・西暦
×年齢
×クラブの予算
×クラス全員のテストの点
×ジャンプの到達点
×数直線
×囲碁将棋の段位
×気圧
×質量数
×車免許を取るのにかかる日数
?料理などにおける追加の料金がはっせいするもの
?友達との親密度


第3回 代表値・散布度

到達目標
3−1代表値の算出及び特性について説明できる
3−2散布度の算出及び特性について説明できる


代表値と散布度と大きさn(個数や事象数)が提示されれば、その集団がどんなものか想像出来る(マラソン実況)

代表値

average(その集団を数値一つで表す。excelはaverage関数で算術平均を出すが、代表値の代表ということだからと解釈しています)

算術平均

mean(算術平均以外にも相乗平均(積して累乗根をとる)などもあります)
1/n・Σxi
パレートの法則(80-20の法則)
代表値なのに実在しない場合がある → 集団の指標(重心)であって、事象を代表する値そのものを示しているとは限らない

寄り道

民間給与実態統計2015(国税庁)
http://www.e-stat.go.jp/SG1/estat/GL08020103.do?_toGL08020103_&listID=000001159883&requestSender=dsearch
第9表 業種別及び給与階級別の給与所得者数・給与額 より ローレンツ曲線
nmubiostat2017-0301.png(17389 byte)
ジニ係数は医療,福祉0.358 不動産業,物品賃貸業0.439 電気・ガス・熱供給・水道業0.230
ちなみに奈良県の医師偏在の話で曲線を描くと(市町村単位)
naracommed20170322-24.png(117341 byte)
データ分析から考える地域医療の課題 より)
もっとも地域別医師数偏在の話が解消されればすべてが解決されるわけでもないですし、範囲を狭めていくほど偏在は生じるわけですから・・・
リソースの地理的な偏りをゼロにすることそのものは目的ではなく解決に近づく手段であって、提供になるべく偏りがでないような配分ができる仕組みとのパッケージと考えております

加重平均
重みづけをした平均
1/n・Σmixi
応用 度数分布表を基にした平均値の計算法
Σ(階級値×度数)/観測数

中央値

median(別名第2四分位数)
量的変量を順序尺度で処理した代表値
順番に並べたとき真ん中の順位にきた個体の値
個体数が偶数の時は真ん中2つの数値の平均値
スキージャンプの飛型点は中央値的なノリで算術平均している
スキージャンプを知ろう!!ルール解説(ジャンプ雪印メグミルク)
https://www.meg-snow.com/jump/rule/rule.html

最頻値

mode(流行,はやり)
違う意味で数の理論(多数決)の世界
量的変量を名義尺度で処理した代表値
名義尺度でわかることは一緒か違うか
階級毎に度数をカウント
一番多いところの階級値
一位が同点の時は併記(平均をとると えっオレ優勝!?状態になる)



散布度

dispersion

最大値と最小値を使う

最大値と最小値がわかればその集団のバラツキがわかる
最大値maximum excel max関数
最小値minimum excel min関数

範囲

Range
R=最大値−最小値

特徴
 外れ値もひらう
 算出が用意

四分位数を使う

Quartile
小さい順(昇順)に並べて集団を4分割

四分位数の求め方

注意:順序の話とその順位のラベル(数値)をこんがらがってしまわないように
例:テストの点 16,5,12,16,13,15,15,18,20,10,20
昇順に並べて順位(カッコ書き)をつける 5(1),10(2),12(3),13(4),15(5),15(6),16(7),16(8),18(9),20(10),20(11)
n数(11)を4で割る
第1四分位数・・・1/4の順位・・・11/4×1=2.75個に分割する場所に相当する数値
第2四分位数・・・2/4の順位・・・11/4×2=5.5個に分割する場所に相当する数値
第3四分位数・・・3/4の順位・・・11/4×3=8.25個に分割する場所に相当する数値

2.75個に分割した場所の出し方
+1/4番目の数値=3番目=12

5.5個に分割した場所の出し方
+2/4番目の数値=6番目=15

8.25個に分割した場所の出し方
+3/4番目の数値=9番目=18

四分位範囲

IQR(interquartile range)
IQR=Q3-Q1

四分位偏差

QD(Quartile Deviation)
QD=IQR/2
範囲は集団を外から見たバラツキをイメージ
偏差は集団の内部のある値からのバラツキをイメージ

平均値を使う

mean

偏差

Deviation
もともとは標準となる数値からのズレ(偏り)を意味するものだが統計の世界では集団の平均値からのズレを示す
偏差の平均をとれば集団内の各々のズレっぷりがわかる → 合計は常に0 故に平均も常に0

分散

variance
V excel関数はVAR
偏差を二乗したものの平均

標準偏差

Standard Deviation
記号は標本標準偏差s 母標準偏差σ
s=√V
(故にVはs^2やσ^2で表現する)
nmubiostat2016-0302.png(3064 byte)

到達度確認

1)教科書P11の「複雑な調査データ」TGの平均値を求めよ
2)先週作成した度数分布表からTGの平均値を求めよ
3)1)(算術平均)と2)(階級値由来)の差は理論上最小で0だが、最大でどの程度異なるか
4)平均値>中央値>最頻値となるよう以下の度数分布表を完成させ,それぞれの値を記せ
階級 階級値 度数 相対度数 累積度数 累積相対度数
0.0〜1.0 0.5 2
1.0〜2.0 1.5 (A)
2.0〜3.0 2.5 3
3.0〜4.0 3.5 4
4.0〜5.0 4.5 2
5.0〜6.0 5.5 (C)
6.0〜7.0 6.5 6
----- 25 1.00 ----- -----

授業後補足

本日紹介した話

0.5票差で落選、福井の議員選挙(福井新聞)
https://www.fukuishimbun.co.jp/articles/-/840150
1分20秒の遅れを取り戻す悲劇 ザ!世界仰天ニュース(日本テレビ)
http://www.ntv.co.jp/gyoten/backnumber/article/20181211_10.html
鉄道会社に頼り切り「都市の交通インフラは脆い」批判で満足していいのか??大阪北部地震の現場で考えたこと(BUSINESS INSIDER JAPAN)
https://www.businessinsider.jp/post-169735
九州新幹線

到達度確認 解説

1) 1/n・Σxi
2) 1/n・Σmjxcj
3)階級幅の半分 12.5
4)A8 C0(A7 C1)
4)については検証した上でA8C0を書いている人は加点

第4回 平均値の推定

到達目標
4−1標準偏差と標準誤差の違いを説明できる
4−2母分散が未知の場合でも母平均を区間推定できる

推定

母集団から抽出した標本を基に母集団の分布を示す値(母数)を推測する
点推定と区間推定がある

点推定

一つの値で推定
母平均の推定値は標本平均
母分散の推定値は不偏分散
教科書P22-23参照

不偏分散は何故nではなく(n-1)で除するのか


求める対象(標本)が母集団全体だったとすると母分散は
(1/n)Σ(x-xbar
  しかしながら対象が母集団の一部であれば,母平均(μ)=標本平均(xbar)とは限らないので,μとxbarの差を考慮して母分散を求める(推定する)必要がある
(1/n)Σ((x-μ)-(xbar-μ))
=(1/n)Σ(x-μ)-(2/n)Σ(xbar-xμ-μxbar)+(1/n)Σ(xbar-μ)
=(1/n)Σ(x-μ)-2(xbar-2μxbar)+(xbar-μ)
=(1/n)Σ(x-μ)-2(xbar-μ)+(xbar-μ)
=(1/n)Σ(x-μ)-(xbar-μ)
 -----
 ここで それぞれ
 (1/n)Σ(x-μ)=σ
 (xbar-μ)=σ/n
 (注:詳しくは,ページ下の
「標準誤差SEはなぜ標準偏差σを√nで除するのか」参照)
 とおくと
 -----
=σ/n
=((n-1)/n)σ

故に母分散の程よい推定値である不偏分散は
U=n/(n-1)・(1/n)Σ(x-xbar
 =(1/n-1)Σ(x-xbar
となる.

区間推定

母数がある確率で入る幅を持った推定値
本日の目標はP70の話を理解すること。母平均は一定なのに標本平均は標本毎に異なるので幅を持たせる
nmubiostat2016-0401.png(9702 byte)
標本平均に幅を持たせることで、その枠内に母平均が入る。→平均値のバラつき具合が標準誤差 SE=σ/√n

正規分布

左右対称の釣鐘状分布(教科書P32-40)
平均値に近いほど出現率が高く遠ざかるに従って低くなる(ことが多い)
同じ事柄を同じ条件で繰り返すと正規分布になるという話→中心極限定理
「異質な集団の計測値が組み合わさった分布は正規分布とならない」(教科書P33)
正規分布っぽい形状の判断→P28 歪度 尖度を参照
教科書には検定表もついておりますが(まだ授業で検定の話は一切しておりませんので)・・・いずれの機会で
検定するときには「分布の正規性」に関してデータ数が大きければ制約なしなので(P6)、あまり気にしなくても・・・

中心極限定理

標本の大きさが十分であれば標本平均の分布は正規分布
 →正しく測定されているのであれば偶然誤差の発生は正規分布に従う
 →測定回数を増やせば増やすほど


真度と精度の話(誤差)に置換えると
ohsustat2016-01a.png(206456 byte)
正規分布の話は精度の話。右に行くほど(精度が悪くなるほど)広がる
ただし均等にバラつくはずであっても試行回数が少ないとばらついて見えることもある
0から49999までの乱数でXY座標を発生させプロット1万回分
nmubiostat2019-0401.png(86884 byte)
0から49999までの乱数でXY座標を発生させプロット千回分
nmubiostat2019-0402.png(18835 byte)
0から49999までの乱数でXY座標を発生させプロット百回分
nmubiostat2019-0403.png(6360 byte)
標準正規分布
平均値が0標準偏差=1(分散も1)になるように値を変換したもの
偏差値は平均値を50、標準偏差=10になるように値を変換したもの
信頼区間限界指数・・・標準正規分布でzスコアのこと

標準偏差と標準誤差

(教科書P52)
・標準偏差は標本の分布のバラツキ具合を示したもの
・標準誤差は母集団から抽出した標本の平均値のバラツキ具合
SE=σ/√n

標準誤差SEはなぜ標準偏差σを√nで除するのか


標準誤差は母平均に対する標本平均のバラつき指標(標準偏差)の話
対象が母集団全体ならば0だが,母平均(μ)と標本平均(xbar)には差が生じる
ある標本における平均値と母平均の偏差平方は
(xbar-μ)
=((1/n)Σx-μ)
=((1/n)Σx-(1/n)Σμ)
=((1/n)Σ(x-μ))
=(1/n)(1/n)Σ(x-μ)
 -----
 ここで
 (1/n)Σ(x-μ)
 をσとおくと
 -----
=σ/n
故に標準誤差は
SE=σ/√n

母標準偏差が既知の場合の区間推定

(教科書P70)
正規分布表でなぜ1.96になるのか確認

母標準偏差が未知の場合の区間推定

(教科書P70)
正規分布は母平均値と母標準偏差が分からないと使えない→nが多い場合標本平均と標本標準偏差(不偏標準偏差))で近似できるが
nが少ない場合は近似できない→t分布(標本の自由度νさえわかっていれば、後は検定統計量を求めれば確率がわかる)
t分布
P64-66
自由度のみできまる確率分布
自由度・・・標本の中で自由に振る舞うことが許されている個体の数
      統計量が母数の推定となると、自由に振る舞えない個体が出てくる(つじつま合わせ)
標本分散は偏差二乗和を個体の数で除することで求めるが母分散のほどよい推定である不偏分散はn-1(自由度)で除する
正規分布との関係を確認
nmubiostat2018-0401.png(3867 byte)
でP70を再度確認

-----ここから次週以降(第13回の予定)-----

検査値の基準範囲について

教科書P35
健常者を対象に測定したデータの95%(つまり健常者であっても5%は外れる)
平均値の区間推定はSEを用いるが、こちらの場合はσ。分布に関して考慮する必要がある。
<参考> 臨床検査のガイドライン(日本臨床検査医学会)
https://www.jslm.org/books/guideline/
臨床検査のガイドライン JSLM2012
http://jslm.info/GL2012/00-1.pdf
第1章検査値アプローチ−3.基準範囲・臨床判断値
http://jslm.info/GL2012/03.pdf

到達度確認

1Aクラス)P11複雑な調査データのHbA1cの平均値の95%信頼区間を求めよ
1Bクラス)P11複雑な調査データのTGの平均値の95%信頼区間を求めよ
-----ここから次週以降(第13回の予定)-----
2)P35のRBCの健常男性のデータは(推測するに)平均値は475,σ=40とします。
  このデータから基準範囲を求めよ
3)基準範囲と診断閾値の違いをまとめよ

授業後補足

本日の余談

1)令和を迎えて
伊弉諾神社に参拝するも <参考>令和初日、「御朱印」求め各地で長蛇の列 明治神宮では8時間待ちも(BuzzFeed News)
https://www.buzzfeed.com/jp/kensukeseya/reiwa2
2)GW中に眺めていた事 医療保険についての統計データ
(一例) 国民健康保険の加入者は25.99%
クイズ
https://forms.gle/DF3CGJJNc55TELRf9

第5回 検定の原理

到達目標
5−1確率がどのような意味合いのものか理解する
5−2仮説検定の論理構成を説明できる

教科書第三章P46〜

確率

ある事象が起こることが期待される度合い(割合)
試行 サイコロを振って3の目が出る(y or n)
確率 サイコロを振って3の目が出る(1/6)
繰り返し試行を行うと頻度割合はその事象の確率へ収束していく
生物を対象とした場合試行を繰り返せる?→無理な場合が多い→条件を近づけて繰り返したと見做す
条件が近くないと単純に比較できない→(再掲:教科書220)

試行の結果は事実で正しい。かといってそれが常に正しい(真)とは限らない
次の試行以降で異なる結果がでる可能性を排除できない→永遠に試行を繰り返さないとならず法則が出せない
(故に異なる現象の起こる確率にたいして閾値を定めて、なかったことにして一般性を主張するスタイル)
事象の起こる確率が著しく低くても、実際に起こらないわけではない。

参考
デジタル絵本 かっぱの雨乞い (札幌平岸高校デザインアートコース)

降るまで雨乞いをするので「雨乞いをすれば雨が降る」となってしまう
参考
単語記事: テレ東伝説(ニコニコ大百科(仮))
http://dic.nicovideo.jp/a/%E3%83%86%E3%83%AC%E6%9D%B1%E4%BC%9D%E8%AA%AC

背理法

命題の否定を仮定して話をすすめて、その矛盾を示すことで命題が成り立つとする論法
差のあることを証明するにあたって「差が無いことを」を証明できないことを根拠にする
(差(違い)を定義するにも区間推定で明らかなように,確率一定でも状況で変化する)
<注>好きの反対は嫌い ではなく無関心という考え方.

仮説検定

教科書P46-
<大前提>やみくもに検定するのではなく、検定する理由・確信があるから確かめる という感じで
手順1:仮説をたてる(帰無仮説H0および対立仮説H1)
背理法に基づく証明をしている。
(差がない仮説が証明できないので、その対立である差がある仮説を採択する)
手順2:検定統計量を計算する
その事象の起こる確率を計算していることになるが、用いる確率分布によって計算式が異なる。
(実データを確率の世界のスケールに変換) 教科書P50では(3)の前半の部分Z= の部分がそれ

手順3:有意水準を決める
確率的に必然と偶然を切り分けている。一般に5%で分けているが1%の時もある
手順4:有意水準と比較し、仮説を棄却採択する
例)帰無仮説H0を棄却し対立仮説H1採択

注意
区間推定の話の延長線上が検定(P70とP51を比較)


エラー

教科書P215
αエラー βエラーが存在する

第一種の過誤
αエラーの起こる確率(誤って有意差があると判定)=有意水準
エラーを気にしなければいつの日か、都合の良い結論が得られるかもしれない → 雨乞い
故にやみくもに検定するのではなく、至るまでのストーリーが大切
第二種の過誤(βエラー)・・・誤って一緒と判定する確率
βエラーの起こる確率(誤って有意差が無いと判定)=検出できない=1−検出力(Power)=β
検出力=1−β
サンプル数↑・・・検出力↑・・・β↓
一般に検出力0.8〜0.9で違いを見積もった上でサンプル数を決定する
検出力をが上がるとβエラーの確率は下がるが,統計的有意差と臨床的有意差の話が出てくる.

仮説検定は用法を守り正しく使いましょう

到達度確認

この回の分は次週冒頭にミニテストも行います.(一切持ち込み禁止 20分)
データによると15歳〜19歳の男性のBMIは平均値21.1,標準偏差3.6である.
某大学の男子入学生10名のBMIを測定したところ以下のような結果となった
これらの入学生の集団は全国水準と違うと言えるか.
ID BMI
1 22
2 23
3 26
4 21
5 23
6 24
7 26
8 24
9 22
10 19
<データ元>国民栄養基礎調査(平成29年度の結果を利用)
https://www.mhlw.go.jp/bunya/kenkou/kenkou_eiyou_chousa.html
<参考>大久保昭行,正常値と異常値のよみ方, 日本内科学会雑誌 1993 年 82 巻 4 号 p. 485-489
https://www.jstage.jst.go.jp/article/naika1913/82/4/82_4_485/_article/-char/ja/

授業後補足

本日の余談

1)同調圧力に関するところ 二つほど

第6回 パラメトリック検定

到達目標
6−1パラメトリック検定の頑強性robustnessを説明できる
6−2t検定を行うことができる

パラメトリックとノンパラメトリック

教科書P44
分布の形状(母数)に依存する統計量(平均値 標準偏差・・・量的変量)
分布の形状(母数)に依存しない統計量(順位 中央値 パーセント値・・・質的変量)
教科書P4-7,204
パラメトリック検定・・・計測値の分布が正規分布であることを仮定
正規確率紙法・・・Q-Qプロット
データをノンパラメトリックとみなして順序に直してそこからパーセンタイルを求めて、値を確率分布(正規分布)に代入して期待値を算出して比較する。
P11複雑な調査データTGを用いて
nmubiostat2017-0901.png(44808 byte)
<参考>正規確率プロットの作り方(統計WEB 社会情報サービス統計調査研究室)
https://software.ssri.co.jp/statweb2/tips/tips_8.html
<参考>連続補正
順位は順序尺度で離散量
このまま扱うと正規分布と合わないのでそれぞれ0側に向かって0.5だけシフト
nmubiostat2016-1002.png(12729 byte)

適切な統計処理に必要な考え方

P203-216
・分布の正規性
 →そんなに気にしていない
 分布の正規性について「データ数が大きくなると制約無し」・・・どの程度  パラメトリックの場合→結局妥当な話になってしまう ・検定法によって判定が異なる場合
 →データが出てから検定法を選択するのは適切ではない
・片側検定,両側検定
 →両側検定が妥当
nmubiostat2016-0902.png(11979 byte)
・有意差検定の有意水準は0.05でよいの
・有意差検定が無意味な場合
 →統計的有意差と臨床的有意差の話  教科書の効果量に対する必要データ数を可変させたものが以下

 各群10データで検定すると10kg程度となるが、そこまで体重が変化しているとなにか違う出来事が起こっている気がする
 各群1000データぐらいで検定すると1kg程度で有意な結果となるが、本当に意味あるのか気になる
 nmubiostat2016-0901.png(37095 byte)
   <参考>その治療は臨床的に有益か(PEDro)
 https://www.pedro.org.au/japanese/tutorial/is-the-therapy-clinically-useful/
 <参考>統計的有意性とP値に関するASA声明
 http://biometrics.gr.jp/news/all/ASA.pdf
 以下抜粋しました
 1. P値はデータと特定の統計モデルが矛盾する程度をしめす指標のひとつ
 2. P値は、調べている仮説が正しい確率を測るものではない
 3. 科学的な結論は、P値がある値を超えたかどうかにのみ基づくべきではない
 4. 適正な推測のためには、すべてを報告する透明性が必要
 5. P値は、効果の大きさや結果の重要性を意味しない
 6. P値は、それだけでは仮説に関するエビデンスのよい指標とはならない
・データ数大きい場合は区間推定のほうが意味ある。

教科書P6テーブル(適用要件による使い分け)

1標本t検定・・・空白
2標本t検定・・・2群の等分散性
空白の意味は、データ元が同じところなので問題にならない
2群の等分散性に関しては、ぞれを前提として検定が成り立っているので(以下に紹介する(スチューデントの)t検定は
無論、等分散ではない場合に用いる検定(ウェルチのt検定)もあるのですが、そちらを最初から使った方が良いという話があります。
ノンパラかパラメトリックの話と同様ですが、どちらでやろうとも有意差が出てるぐらい明確なものが理想ではありますが

2群の差の検定

1標本t検定(関連2群)

教科書P58
P60例題8を見ながら
関連する2群(ペア)・・・一つの群を2回測定している
前後の差を見る
t値(標準化された検定統計量)・・・2群のペアの差の平均を標準誤差で正規化したもの
帰無仮説は前後の差がゼロ
検定統計量と有意水準αのt値を比較する。

2標本t検定(独立2群)

教科書P82〜 P84例題12 P87例題13
こちらの場合は、F検定(P86)で等分散を確認してからの手順になる。
一標本との違いは分散が2種あること(一標本はペアの差をとるので一つ)
そのため合成する
t値・・・それぞれの群の平均の差を標準誤差で正規化したもの
F分布・・・χ分布の時にお話しします

 

到達度確認

この回の分も次週冒頭にミニテストも行います.(一切持ち込み禁止 20分)
某大学の男子入学生10名のBMIを測定したところ以下のような結果となった
違うB大学の男子入学生10名のBMIを測定した
これらの入学生の集団について検定を行う.
某大学
ID BMI
1 22
2 23
3 26
4 21
5 23
6 24
7 26
8 24
9 22
10 19
B大学
ID BMI
1 20
2 17
3 18
4 17
5 21
6 22
7 23
8 21
9 22
10 19

補足



第7回 ノンパラメトリック検定

到達目標
7−1パラメトリック検定とノンパラメトリック検定の違いを説明できる
7−2ノンパラメトリック検定を行い判定することが出来る

一標本Wilcoxon検定

ウィルコクソンの符号付順位和検定
教科書(P6)・・・分布型,計測尺度,分散の制約なし
教科書(P74)
1:ペアのデータの差dを求める
2:dの絶対値よりそれぞれの差(d)の順位(昇順)を求める
  同順位の話・・・教科書P76参照
3:検定統計量Tは+,−別に順位を足したもので小さい方
T0=min(T1,T2)
有意確率については直接計算出来るが(P75)延々と計算していくのは大変
n≦25まではWilcoxon検定表を使ってください(P274)
N数が少ないと(空白の部分)判定保留にしかならない
教科書P78参照のこと

n>25は正規分布に近似と見なしてz値を求める方法で検定

平均値

検定統計量Tの平均値
T1=n(n+1)/2-T2
T2=n(n+1)/2-T1
(Σk=n(n+1)/2)
T1+T2=n(n+1)-T1-T2
2*(T1+T2)=n(n+1)
μT=(T1+T2)/2=n(n+1)/4

標準誤差

σT=√(n(n+1)(2n+1)/24)

検定統計量

Z=(T-μT)/σT

連続補正

先週の講義参照

P76(例題10)参照

Mann-Whitney検定

二標本になるとややこしくなるのはパラメトリック検定と同じ
P102参照
検定統計量
自群の個々について、それよりも他群で大きい個体数の総和を求めて検定統計量としている
1:ある群(A)の値それぞれがもう一方の群(B)に入ったとしたときに(Aの)その値よりも(Bの群のなかで)値が大きい個数をカウントする。(A群の)全てについて行い和をとる。(順位-1の話)
2:AとBを入れ替えて1:と同様の計算をするか、公式でB群の和を求め小さい方を検定統計量Uとする
  同順位の話・・・教科書P103参照

こちらも標本数が多くなると正規分布の話が出てくる

平均値

μU=n1n2/2

標準誤差

σU=√n1n2(n1+n2+1)/12)

検定統計量

Z=(U-μU)/σU

到達度確認

7−1)P63演習4についてノンパラメトリック検定を行い、パラメトリック検定の結果と比較せよ。
7−2)P86例題13についてノンパラメトリック検定を行い、パラメトリック検定の結果と比較せよ。
7−3)Wilcoxon検定表の空欄の部分は何を意味するのか述べよ

授業後補足

本日の余談

白い巨塔

第8回 計数値データの検定

到達目標
8−1二項分布と正規分布の関係を説明できる
8−2カイ二乗分布と正規分布の関係を説明できる

計量値と計数値

計量値・・・量を測定
計数値・・・頻度を測定(名義尺度)
量的変量は頻度の測定も出来る
どのようなデータにも使えるので,色々なところで出てくる

二項分布

標本の大きさ=n
事象の起こる確率=p
r=np=n回試行を繰り返したときに事象の起こる回数(期待度数)
二項分布→npが5よりも大きい(nが十分に大きい場合 教科書ではnp≧10 and n(1-p)≧10)正規分布に近似(P135)

χ2乗分布

教科書P142
χ2乗分布・・・母分散を推定できる確率分布
自由度とともに分散も増加する
正規分布から上側確率を計算
バラツキの話なので下側の確率はバラつきすぎていない確率
 → 正規分布の両側5%(両側2.5%ずつ)はカイ二乗で上側に集約される
nmubiostat2016-1101.png(14151 byte)

χ乗検定

出現度数Oiと期待度数Eiのズレを検定
期待度数は与えられた情報から推測した理論的に求めた度数
独立性はそれぞれの要因を用いて推測

期待度数が低い場合、そのまま使えないが、計算は楽
Fisherの直接確率法はいつでも使えるが計算大変
(コンピュータを使える時代)
故に教科書では2×2表以外出てこない(考え方は一緒)
よくある?間違え
度数なのに比率(100%)に直してから検定とか

到達度確認

糖尿病の飲み薬をA薬からB薬に変更した.副作用の発生に違いがあるか検討を行う.
調査した結果は以下のとおり
Bクラスはコチラ
薬剤A 薬剤B
副作用+ 10 10
副作用− 60 80
8−1)上記の表より有意水準1%で違いがあるか検定を行え
8−2)被験者を2倍にしたところそれぞれ上記の表の数値を倍にした結果が得られた.有意水準1%で違いがあるか検定を行え
8−3) 1)2)の検定を通して,注意しなくてはならないことを述べよ

Aクラスはコチラ
薬剤A 薬剤B
副作用+ 15 10
副作用− 40 60
8−1)上記の表より有意水準5%で違いがあるか検定を行え
8−2)被験者を2倍にしたところそれぞれ上記の表の数値を倍にした結果が得られた.有意水準5%で違いがあるか検定を行え
8−3) 1)2)の検定を通して,注意しなくてはならないことを述べよ

授業後補足

ノンパラメトリック検定を嫌いにならないように

本日の余談


本日の問題
Bクラスの皆様数値間違えており失礼しました.
復習の際は修正後の数値で行ってみてください.

あと,授業中は簡略式の話をしませんでしたが,行っている事柄を理解してもらうことが目的のためです.
本日の話題
県立河北病院、外来の6科廃止 救急縮小を検討(山形新聞)
http://yamagata-np.jp/news/201906/03/kj_2019060300057.php

第9回 独立多群間の比較

到達目標
9−1F分布とカイ二乗分布の関係を説明できる
9−2分散分析と多重検定の違いを説明できる

F分布

カイ二乗分布と同じく分散に関する確率分布
それぞれの群のカイ二乗値の比=分散の比・・・F値(FはフィッシャーのF)
F分布とカイ二乗分布の関係
χ^2(ν)=ν×F(ν,∞)
nmubiostat2017-1201.png(13289 byte)

F検定の話(P94)

等分散性の検定・・・分散比を求めてF値より判定
「2群の分散は異なるとは言えない」・・・帰無仮説を棄却できない(保留)
 

多群間の比較

教科書P154
全群を一括して比較・・・同時比較
多群が互いに独立・それぞれ比較・・・多重比較

同時比較して差があったから多重比較するというのは、何を述べたいかによるが・・・お作法的にそのように分析するケースは多々

同時比較

これまでと同じように正規分布に従うか否かの話になる→P172(P111と対比させながら)

一元配置分散分析

群間分散と群内分散の比をとる

Kruskal-Wallis検定

教科書P164
P166例題33のデータで極端値の話

多重検定

教科書P217
ポイントとしては、それぞれの検定が独立した仮説にもとづいたものと考えて良いか否か。良いのであれば多重検定にならない
一連のものであれば対立仮説を考えたときに有意水準が5%と言いながら5%になっていないのでは?
多重に検定することでどれかあたれば帰無仮説は棄却できるので例えば3群総当たりだと有意水準0.05で多重検定(6通り)すると有意水準が0.265になってしまう。(からよくない)

有意確率補正法

Bonferriniの場合は6通り検定するのであれば、一検定あたりの有意水準だと0.05/6=0.0083となる。全体では1-(1-0.00833)^6=1-0.95103=0.0490
Sidak補正の場合は同様に1-(1-0.05)^(1/6)=0.008512 1-(1-0.008512)^6=1-0.95=0.0500
多群になるほど検定あたりの有意水準が下がる→差が出にくい

多重比較法

パラメトリック法
Tukey法・・・各ペアに対する平均値の差の検定
Dunnett検定・・・一つの対象群との対比

ノンパラメトリック法
Dunn法

到達度確認

9−1)158例題31についてKruskall-Wallis検定を用いて判定せよ
9−2)ある細胞を温度条件により4群にわけて培養を行いデータを測定した.標本数は,A=4,B=3,C=5,D=8であった.群間の偏差平方和SAが60 群内の偏差平方和SEが40だった場合一元配置分散分析 有意水準5%で検定せよ
9−3)曜日別に検査の管理用資料を測定した。それぞれ総当たりで二標本t検定を行った。有意確率をBonferroni補正法を用いて有意水準5%で判定し有意な組み合わせをすべて記せ
nmubiostat2017-1202.png(8054 byte)

補足

今日の余談

医療情報学会の件

第10回 相関係数・回帰直線

到達目標
10−1相関係数を説明・計算することが出来る
10−2回帰直線がどのようなものか説明・計算することが出来る


相関

(教科書P174) correlative
相関関係がある・・・関連がある
相関関係が無い・・・関連がない
他方の影響を受けるか受けないか

因果

cause and effect
原因と結果
因果関係がある・・・影響がある
因果関係が無い・・・影響がない

普通は関連がある(相関がある)=影響を及ぼす関係(因果関係がある)と考える(考えたくなる)

たばこを吸う−肺がん・・・・相関関係○

タバコを吸う人にコーヒーを飲む人が多いのは・・・(yahoo知恵袋)
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1293675642
この関係を使うと
コーヒーを飲む−肺がん・・・相関関係○
でもコーヒーが肺がんの原因とはかぎらない

コーヒー愛飲者に肺がんが多い理由は?生活習慣との関連を検証
アメリカで約50万人を対象にした調査から
from International journal of epidemiology
http://medley.life/news/item/5589521b660815fe00d5ec8e

コーヒーと肺がんの相関関係に割り込んでいる(どちらとも相関関係がある)状態=交絡)
割り込んでいるそれ=交絡因子・・・たばこ
コーヒーと肺がんに因果関係が無いとしたならその関係は疑似相関

例:電車に乗るとき皆がそれぞれ駅に向かって仲良く歩いてるように見えるが、互いに関係は無い。

本授業(統計学)は医療系対象で「提供する医療が及ぼす影響やその要因に関する法則性を見いだす方法を探求する学問分野」
大阪リハビリテーション専門学校 統計学2015(理学療法学科)より)
知りたいのは「影響」であるから目的を見失わないように

相関図

X軸とY軸に一つの対象に与えられるそれぞれの値をプロット(例:身長と体重)
とりあえず図にすると関係が直感的にわかる(場合がある→交絡現象交互作用に注意)

相関係数

-1から1までの値をとる(教科書P174)
+の場合正の相関 −の場合負の相関
Xが増加すればYも増加する・・・1
Xが増加すればYは減少する・・・-1
Xが増加しようが減少しようがYは関係ない・・・0
相関係数が0出なければ相関は「ある」ワケだが程度は数字が0から離れるほど強くなる
一般に〜0.2であれば相関はなく、0.7〜であれば強い相関の目安とされてる。
(この教科書はr表がついています.相関の強さによって検定の結果が決まるけど,nの数による P278表8)

X軸で見たときのバラツキ具合とY軸で見たときのバラツキ具合を元に計算してる
バラツキ=散布度・・・分散・・・偏差の二乗の平均
共分散=ある対象のX軸の偏差とY軸の偏差を乗じたものがベース
注意
基本事項のところは偏差平方和の話になっているが標本分散の場合両辺をnで割らないといけない
割ると・・・二乗の平均−平均の二乗 というリズム感のある公式が出来る
  
Xの偏差 Yの偏差 乗じた結果
乗じた結果の平均が共分散
共分散はX軸Y軸のバラツキ具合が混ざっているのでそのままの数字だと解釈しにくい→XとYの標準偏差で除する(正規化)→相関係数

直線で無い場合は変換(例えば対数変換)してから計算してもよい(対数グラフ)
対数グラフの例(方眼紙ネット)
http://houganshi.net/taisuu.php

回帰直線

X軸の値とY軸の値を数式(y=ax+b)で示す
直線を引いたときにそれぞれの点からの差(残差)の2乗して足したもの(平方和)が最も小さい時の数式が回帰直線

決定係数

相関係数を二乗すると求められる
数式によって説明できる割合を示す。(寄与率とも)
つまり高ければ高いほど数式で説明出来ることになる

到達度確認

計測値X,Yの関係を調べると下表のようになった
10−1)回帰直線y=a+bxを求めよ
10−2)相関係数rを求めよ
10−3)有意水準5%および1%で相関があるか検定せよ
ID 計測値x 計測値y xy
1 2 50
2 2 40
3 2 30
4 4 60
5 2 20
6 4 50
7 8 50
8 8 60
9 8 70
10 10 70
合計 50 500

授業後補足

本日の余談

ちなみに大阪市は午前7時の時点で判断
公立小・中学校の臨時休業等の措置について(吹田市)
http://www.city.suita.osaka.jp/home/soshiki/div-gakkyo/shido/_96633.html
設置されている地域ではなく設置者によるものというところで
医療機関も開設者の種別はいろいろあります
用語の解説(厚生労働省)
https://www.mhlw.go.jp/toukei/saikin/hw/iryosd/08/dl/02.pdf

第11回 多変量解析

到達目標
11−1多変量解析の必要性について説明できる
11−2重回帰分析においてどのように変数が選ばれているか説明できる

多変量解析について

教科書P5
多くの変量を用いて・・・探索的 予測・・・(重回帰分析)
要約・・・外的基準がない(主成分分析)
「関係ありそうなデータを集めたけどどうしたらまとまるのやら」という悩みを解決してくれるという夢を見やすい

重回帰分析

教科書P223
(回帰直線の話を思い出す→単回帰分析)
回帰・・・元に戻る・・・何らか(定理や関係)に基づき戻っていく

単回帰分析

教科書P195
回帰係数・・・Y=a+bXのb
決定係数(以前の授業参照)

重回帰分析

Y=a+b1X1+b2x2+・・・ 目的変数・・・Y
説明変数・・・Xi
偏回帰係数・・・bi
標準偏回帰係数 β* 目的変数と説明変数を標準偏差で表わしたときの偏回帰係数・・・
目的変数は量的
説明変数は量的でも質的(0,1)でも

単回帰と同じく最小二乗法で求める
決定係数・・・説明変数を増やすと値は上昇 自由度調整済み決定係数・・・1-(1-R2)(n-1)/(n-k-1) n=標本数 k=独立変数

VIF 分散拡大要因
多重共線性を見つける指標
多重共線性・・・独立変数が他の独立変数と相関がある・・・偏回帰係数の標準誤差増大
VIF=(1-Ri2)-1
Ri2:他の独立変数で重回帰させたときの決定係数
目安としては10以下であればそのまま
以下はSPSSの出力(データは教科書P11の「複雑な調査データ」)でBMIを従属変数 それ以外(ID 性別除く)を独立変数とした場合
変数減少法で
nmubiostat2018-1301.png(119783 byte)
nmubiostat2018-1302.png(92469 byte)
ちなみに変数増加法ですると
nmubiostat2018-1303.png(80872 byte)
エクセルの場合
nmubiostat2018-1304.png(64047 byte)

到達度確認

1)教科書P11の「複雑な調査データ」3行目(性別1 年齢51)のデータより重回帰分析により得られた数式からBMI値を推定せよ

第12回 相対危険度

到達目標
12−1相対危険度を示す指標にどのようなものがあるか説明できる 
12−2症例対照研究では相対危険をオッズ比で算出する理由を説明できる


この授業では相対危険度=Relative Risk は一般的な用語であり、その算出指標の一つに相対危険=リスク比(Risk Ratio)があると整理します
一般的にはここらへんの言葉ゴチャゴチャです。

研究手法の話

教科書P220参照・・・観察研究では群間比較に有意差を使えない?
実態(現状)を明らかにしたところで、その事実を単純に拡張できるわけではない。

観察研究(Observational study)

横断研究(Cross-sectional study)
曝露と疾患を同時に評価
時間軸がない場合が多く(例外は性別など)因果関係までは不明になってしまいやすい

コホート研究(Cohort study)
対象に曝露している人々と非曝露群を設定、追跡調査していくスタイル
通常前向きだが、後ろ向きにみる回顧的コホート研究というのもある。(後々でも曝露群に関する情報がある場合)

症例対照研究(Case-control study)
ある状態(例えば病気に罹患している)群と、罹患していない群を設定、時間を遡って調査していくスタイル
後ろ向きにしか行えない(前向きだと曝露→疾患の順がおかしくなる)

実験的研究(介入研究)(intervention study)

コホート研究の場合、曝露群(介入群)を研究者が割り付ける → 被験者に対する倫理的配慮が肝要
無作為に割り付けることが出来る場合は交絡因子を制御できる(ことが期待される)
倫理的に考えると非介入群の方が不利益になってしまう可能性が高いので、配慮した研究デザインが求められる

説明用データ
疾病発症 疾病無
曝露有 A B A+B
曝露無 C D C+D
A+C B+D

相対危険

Risk Ratio(RR)
「リスク比」と言った方がわかりよい(と思うが)
曝露(介入)の有る時と無の時の危険を示す指標の比
危険を示す指標には罹患率やら有病率やら死亡率やら

A〜D:疾病発生頻度(頻度以外に罹患率やら有病率・・・)

曝露有群の発症リスク=A/(A+B)
曝露無群の発症リスク=C/(C+D)
リスク比=A/(A+B)/C/(C+D)
もし、発生頻度が低ければA+B≒B C+D≒D
 リスク比≒A/B/C/D=AD/BC

オッズ比

Odds Ratio(OR)
危険な事象が起きた場合と起きなかった場合度数の比(=オッズ)について曝露(介入)の有無毎に求め比をとったもの

発症有群の曝露オッズ=A/C
発症無群の曝露オッズ=B/D
オッズ比=A/C/B/D
    =AD/BC
上記のように発症頻度が低ければオッズ比とリスク比の近似値となる

到達度確認

12−1)相対危険度を算出せよ

コホート研究
不整脈あり 不整脈なし
曝露群 100 1900 2000
非曝露群 50 1950 2000
150 3850 4000
症例対照研究
不整脈あり 不整脈無し
曝露歴あり 50 30 80
曝露歴無し 50 70 120
100 100
12−2)なぜ症例対象研究では相対危険度(Relative Risk)としてオッズ比(Odds Ratio)を求めるのか.説明せよ

授業後補足

比と率と割合の違いについて
比・・・異なるものを比較(無単位になる場合もあるが)
率・・・比だが時間と比較(単位は/sec /min /hr となる)
割合・・全体と一部(同じもの)を比較(無単位)
以下参考にしてください

第13回 医療統計(U)−比と率と割合(大阪保健医療大学 医療情報学2016)
http://www.medbb.net/education/ohsumedinfo2016/#13

第13回 感度・特異度・ROC曲線

到達目標
13−1判別特性値の計算が出来る
13−2評価結果よりROC曲線を作成し評価やカットオフ値の検討が出来る


検査法の診断的有用性を評価する話
有病率の影響を受ける指標、受けない指標を整理しておくこと
「率」ではあるが実際には割合。時点有病率ともいう(期間有病率は時点有病率に期間中の罹患を加えたもの)
(先週も比・率・割合の話をしましたが)

感度と特異度

教科書(P116)
感度=P(陽性|D)  疾患群における真陽性の割合
偽陽性率=P(陽性|Dc) 非疾患群における偽陽性の割合
特異度=1−偽陽性率 非疾患群における真陰性の割合
予測値
有病率の影響を受ける
 陽性的中率=P(D|陽性)
 陰性的中率=P(Dc|陰性)
検査法の評価指標
 尤度比=感度/偽陽性率 
 オッズ比=教科書参照 検査の有用性
 AUC=ROC曲線を描いて算出 検査の分別能

何でも陽性と判断する検査は感度も偽陽性率も1になる
(なんでもかんでも、あります!! のノリ)

ROC曲線

教科書(P119)
判別度の分析
感度と偽陽性率(1−特異度)を用いて曲線を描く
例題21でEをカットオフ値としたときの陽性的中率=7/9 陰性的中率=8/11

到達度確認

13−1)
検査Aを疾患群と非疾患群について施行したところ以下の結果を得た.
ROC曲線を描きAUCを求めよ
なおカットオフ値を12.0~15.5まで0.5刻みで設定し作成のこと
Aグループ
疾患群 14.3 15.2 13.8 14.1 13.9 12.6 14.2 14.6 13.1 13.7
非疾患群 13.2 14.1 13.8 13.6 12.9 12.4 12.1 12.3 12.3 12.8
Bグループ
疾患群 14.3 15.2 13.8 14.1 13.9 12.6 14.2 14.6 13.1 13.7
非疾患群 13.2 14.3 13.8 12.9 14.4 14.4 12.1 15.3 12.3 12.8

授業後補足

本日の余談

お悔やみ欄見て遺族に虚偽請求の手紙 詐欺未遂容疑で男逮捕 北海道(毎日新聞)
https://mainichi.jp/articles/20190705/k00/00m/040/266000c

前回の課題でロジスティック回帰に言及していた方,どのような事かもう少し詳しく書いていただけたら・・・.
課題終了後 教科書121以降(カットオフ値の設定法)熟読しておいて下さい

第14回 生存時間分析

到達目標
14−1カプランマイヤー法による生存確率の推定することが出来る
14−2ログランク検定による生存率の差の検定を行うことが出来る

生存時間分析は治療法等の評価に時間軸を含めたもの
イベント発生までの時間による分析

生存率

生存率には計算方式が複数
電算機の普及によりKaplan-Meier法でも容易に計算出来る時代
そもそも率は比の特殊な形態で単位時間あたりのイベント数を表わす
(第12回の授業で比率割合取り上げました)
Kaplan-Meierで求める非イベント発生(生存)率=1-イベント発生(死亡)率は、率では無く時点イベント(死亡)割合なので注意
<参考>
患者の生存率(地域がん登録全国協議会)
http://www.jacr.info/about/survival.html
直接法は割合。中途打ち切りがあると困る
生命保険数理法も割合。中途打ち切りについては1/2を観察期間に含めているがイベント発生(死亡)者の観察期間を考慮していないので率では無い(考慮していたら人年あたり(率)になる)

カプランマイヤー法によるイベント発生率の計算

個票データ
患者ID 診断名 再発時期 患者ID 診断名 再発時期 患者ID 診断名 再発時期 患者ID 診断名 再発時期 患者ID 診断名 再発時期
1 b 3 11 a 8 21 b 9 31 b 24+ 41 a 3+
2b512b1422b1832a1242b8
3b613b923a12+33a3+43b24+
4b1414a124a334b1344a5+
5a7+15a225b17+35b1745b14
6a1416a326a736a3
7a1717a1327a837b15
8b2118b2128a1238b13
9b2119b1629b12+39a21
10b1620b24+30a140b18
+は打ち切り観察期間

実測正常率の計算

疾患a
診断からの月数 月開始時の正常数 発症数 中途打ち切り数 発症割合 正常割合 累積正常率
120200.1000.9000.900
218100.0560.9440.850
317320.1760.8240.700
512010.700
711110.0910.9090.636
89200.2220.7780.495
127210.2860.7140.354
134100.2500.7500.265
143100.3330.6670.177
172100.5000.5000.088
211101.0000.0000.000
疾患b
診断からの月数 月開始時の正常数 発症数 中途打ち切り数 発症割合 正常割合 累積正常率
325100.0400.9600.960
524100.0420.9580.920
623100.0430.9570.880
822100.0450.9550.840
921200.0950.9050.760
1219010.760
1318200.1110.8890.676
1416300.1880.8130.549
1513100.0770.9230.507
1612200.1670.8330.422
1710110.1000.9000.380
188200.2500.7500.285
216300.5000.5000.143
243030.143
nmubiostat2016-1401.png(7029 byte)
疾患a:青線
疾患b:赤線

ログランク検定

カイ二乗分布による検定を行う
(期待度数と比較してバラツキがあるか否か)

イベント発生毎のクロス表(カッコ内は期待度数)

1ヶ月
発症数 健常数 合計
症例a 2(0.889) 18(19.111) 20
症例b 0(1.111) 25(24.889) 25
合計 2 43 45
2ヶ月
発症数 健常数 合計
症例a 1(0.419) 17(16.581) 18
症例b 0(0.581) 25(24.419) 25
合計 1 42 43
以下同様な格好で観測度数と期待度数(例:期待死亡数)を求めていく

実測罹患率及び期待度数

診断からの月数 a観察度数 a打ち切り数 a総人数 a期待度数 b観察度数 b打ち切り数 b総人数 b期待度数
120200.88900251.111
210180.41900250.581
332171.61910252.381
501120.33310240.667
600110.32410230.676
711110.33300220.667
82090.87110222.129
90070.50020211.500
122170.53801191.462
131040.54520182.455
141030.63230163.368
150020.13310130.867
160020.28620121.714
171020.33311101.667
180010.2222081.778
211010.5713063.429
検定統計量χ^2=Σ(OiーEi)^2/Ei

今回は二つの群の比較・・・自由度k=n-1=1
O1=a観察度数の総和=15
E1=a期待度数の総和=8.549
O2=b観察度数の総和=20
E2=b期待度数の総和=26.451
検定統計量χ^2=6.441
χ^2(1,0.95)=3.8415
故に帰無仮説を棄却し対立仮説を採択する(a,bの再発率に差がある)

到達度確認

14−1)
次のデータからカプランマイヤー法により生存確率を推定し生存曲線を描き,疾患ABによる違いがあるか検定せよ
nmubiostat2018-1305.png(33181 byte)

授業後補足

紹介した論文

鈴木 秀典, 長谷川 泰久,PET/CT による下咽頭癌治療の個別化,耳鼻と臨床,58巻 Suppl.1,S81-S83,2012
https://www.jstage.jst.go.jp/article/jibi/58/Suppl.1/58_S81/_article/-char/ja/

第15回 まとめ

到達目標
15−1授業で出た問題を全て解ける
15−2履修後も統計を自己学修する意欲を持つ

到達度確認

15−1)学年全体の試験の平均点の予想は?
15−2)学年全体の試験の標準偏差の予想は?