関西福祉大学 疫学2024
(教育学部保健教育学科)

教科書

基礎から学ぶ楽しい疫学(医学書院)
https://www.igaku-shoin.co.jp/bookDetail.do?book=108378

私は「脚注で学ぶ楽しい疫学」とタイトルを読み替えています.

電卓使いますのでよろしくお願いします.
四則演算と平方根(√)の計算が出来るようにしておいてください.

授業メニュー



第1回 疫学に必要な統計(1)尺度,度数

第2回 疫学に必要な統計(2)記述統計量

第3回 疫学に必要な統計(3)点推定

第4回 まとめとミニテスト(1)

第5回 疫学に必要な統計(4)平均値の区間推定

第6回 疫学に必要な統計(5)平均値の検定

第7回 まとめとミニテスト(2)

第8回 疫学に必要な統計(6)t検定

第9回 疫学研究(1)横断研究,コホート研究

第10回 疫学研究(2)症例対照研究,介入研究

第11回 まとめとミニテスト(3)

第12回 標準化(1)直接法

第13回 標準化(2)間接法

第14回 ROC曲線

第15回 まとめと試験

第1回 疫学に必要な統計(1)尺度,度数


統計に用いるデータ

基本どのようなデータでも統計処理は出来る
出来ないのは,どのようなデータであっても一つしか存在しない時

データについて

レコード
症例,個体,被験者単位でまとめられたデータの塊.表の場合一行にその症例のすべてのデータを記していたらそれがレコード
変数(変量)
データの項目名のこと
データ
観測値や測定値のこと(数値)だけでなく性別など文字の場合もある.
コンピュータ処理するとき,文字だと扱いにくい時があるのでその時は数字に置き換える(→コード変換)
例えば都道府県名であれば 北海道→01 青森県→02 奈良県→29
全国地方公共団体コードの上二桁=都道府県番号
<参考>全国地方公共団体コード(総務省)
https://www.soumu.go.jp/denshijiti/code.html
都道府県番号に順列は存在しない.一方,文字で順列の存在するもの(松 竹 梅)はその法則にしたがった番号を振ることがあるので注意

変量(データ)の分類

変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。
それぞれを尺度と呼び、4つに分類するのが一般的である
1分類尺度(名義尺度)
2順序尺度
3間隔尺度
4比尺度(比例)(比率)

1,2を質的変量(定性的)
3,4を量的変量(定量的)
性質としては上位互換性があり
4>3>2>1

統計量

取りまとめたものを「量で」示したもの.質的変数であっても度数(個数,人数など数えるもの)については「量」として示すことが出来る

度数

どのようなデータでも度数を示すことは可能

度数分布表

それぞれのデータ(変量)の数(出現頻度)をまとめたもの
変量が名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数  ・・・出現頻度
相対度数・・・総出現頻度を1(100%)としたときに、それぞれの度数がしめる割合
累積度数・・・上位の変量の度数もあわせた度数
累積相対度数・・・累積度数の相対版

品名 度数 相対度数 累積度数 累積相対度数
いちご 15
みかん
ぶどう
30 1.00 ----- -----
量的変数の度数分布表
量的変数の場合はその数値だけで度数を積み上げようにもなかなか上手くいかない場合がある.
血圧 163.5mmHg 164.2mmHg 162.5mmHg・・・どれも度数を積み上げられない → 区間を設定する
「A~B」は「A以上B未満」と読む格好と思っていたが,分野などによって違うようです
「A以上B以下」のようにどちらの階級にも属してしまう可能性のある設定は絶対しないように.
この授業では「A~B」は「A以上B未満」とします.
階級 階級値 度数 相対度数 累積度数 累積相対度数
130~140 135
140~150 145
150~160 155
160~170 165
170~180 175
----- -----
度数分布図
質的変数・・・縦棒グラフ
nmuhimstat2021-01.png(3771 byte)
量的変数・・・ヒストグラム
nmuhimstat2021-02.png(3656 byte)
棒の間隔が無いのは値が連続している状態であるが故
普通の棒グラフは棒の長さが度数を示すが,ヒストグラムは棒の面積が度数を示す
「階級の幅を等しくすること」と説明している場合があるが,それは幅が変わると高さが変わる故で,実際にはそのような区間設定はよくある
以下の参考資料に区間幅の異なるヒストグラムについても説明なされているのでよろしければごらんください
ヒストグラムーなるほど統計学園(総務省統計局)
https://www.stat.go.jp/naruhodo/4_graph/shokyu/histogram.html
例題
1)以下の店名別のみかんの売り上げデータより度数分布表を作成せよ
kuswepi2023-0101.png(9483 byte)
店名 度数 相対度数 累積度数 累積相対度数
 
 
 
 
  1.00
1.00 ----- -----

第2回 疫学に必要な統計(2)記述統計量


記述統計量(代表値)

代表値と散布度からなる.←駅伝やマラソンの実況中継はこれらを利用しているから状況がわかる

平均(Mean)

Averageってexcel関数ありますが,あれ代表値って意味です.
算術平均
いわゆる割り勘.xbar=1/n(x1+x2+・・・+xn)
欠点:外れ値があると平均値は分布の中心位置を示さない(←それって代表的な値??)
 → 対処法:外れ値を取り除くか中央値を使うか
幾何平均(相乗平均)
全て掛け合わせて累乗根をとる
加重平均
重みづけ平均
例えば ミニテストと期末試験の平均をとる → そのままの平均で良いの? 応用例
度数分布表から算術平均を計算
Σ(階級値×度数)/構成数

中央値

昇順に並べたときに,真ん中の順番のデータ(変数)の値
データの数が偶数だと真ん中のデータは二つになるのでそれらの平均値

最頻値

最も個数が多いデータの値
最頻値は複数存在する場合がある→二峰性

記述統計量(散布度)

範囲

最大値と最小値の差

四分位範囲

IQR=第3四分位数(75%点)-第1四分位数(25%点)(参考:中央値=第2四分位数(50%点))
第3四分位数(75%点)の算出方法は数多くありまして・・・

標準偏差

範囲を用いた散布度と違い,平均値からのバラツキ(差=偏差)の平均を求めようというもの
ただし偏差の平均をとれば集団内の各々のズレっぷりがわかると思って計算しても → 合計は常に0 故に平均も常に0
そこで偏差を二乗したものの平均を取っている → 分散
標準偏差は分散の正の平方根をとったもの
nmubiostat2016-0302.png(3064 byte)

授業中に示した分散,標準偏差を求める例題と計算結果

kuswepi2023-0201.png(10296 byte)

統計手法の考え方

量的変数をそのまま量的に取り扱う場合・・・平均値 標準偏差 パラメトリック検定・・・t検定(正規分布を用いた検定)
量的変数を順序変数として取り扱う場合・・・中央値 四分位範囲/偏差 ノンパラメトリック検定・・・一標本Wilcoxon検定,Mann-Whitney検定
量的変数を名義(カテゴリー)変数として取り扱う場合・・・度数 カイ二乗検定

よく,パラメトリック検定を分布に依存すると表現している件

意味としてはノンパラ(順序=分布に依存しない)とは,取り扱うと,値の分布をキャンセルしている(バラバラに存在整列していたものを整列させる)ということ
nmuhimstat2021-11.png(10453 byte)
元々は量的変数.こちらの絵の通りで平均値(14.55)を求めたり標準偏差(4.23)を求めたり,母集団の推定のために不偏分散(19.67)求めたりt検定を行ったり.
nmuhlthstat202102-01.png(21147 byte)
こちらは分布なんて関係なく中央値(15)を求めたり,四分位偏差(2)求めたり,U検定を行ったり.

記述統計量の求め方で集団そのものの可視化ではなく,集団の一部である標本としたときに,母集団の推定に用いることが出来るのか

偏りが無ければ使える=均等にばらつくことが期待できるのであれば

代表値(算術平均)

計算そのもので偏よることはない(標本が偏っているのであれば偏ってしまうが)

散布度(分散 標準偏差)

計算そのもので偏ってしまう・・・(母集団の平均を標本の平均で推定しているが一致しないことが期待されるので)
ocrptstat2022-0601.png(75256 byte)
csv形式のファイルはコチラ
<参考>不偏分散は何故nではなく(n-1)で除するのか(生物統計学2018奈良医大)
https://medbb.net/education/nmubiostat2018/index.html#VAR

第3回 疫学に必要な統計(3)点推定

点推定

一つの数値(点)で推定値を示すこと
欠点:推定値と真の値がどの程度ズレているのかよくわからない
利点:区間推定よりも簡単に算出できる

区間推定

ある確率分布に従うと仮定したときに、その分布に基づき、推定に幅を持たせもの
欠点:点推定の計算に加え区間を求めるための計算が必要
利点:真の値を区間内に含む確率を示すことで,どの程度ズレているのか(なんとなく)わかる


不偏推定量

母数の推定=不偏推定量
算術平均・・・母平均の点推定値
分散・・・母分散の推定値としたいところだが・・・

標本平均値は偏っていないが標本分散は偏っている
以下の例を見てもらうと
コチラをクリック

母平均の点推定

標本から求めた平均値は母集団の平均値の不偏推定量か?
以下は20000のデータから標本数10の平均値を求めたもの(標本数2000)をヒストグラムにしたもの
medbbstat2022-0202.png(96791 byte)
標本平均の平均 125.0 =(本来知らないハズの)母平均
125.0未満の標本平均になった標本の数 1000(50.0%)
標本平均が125.0になった標本数 22(1.1%)
125.0を超えた標本平均になった標本の数978(48.9%)

母分散の点推定

標本から求めた分散は母集団の分散の不偏推定量となるのか?

標本の平均値から求めた分散

以下は20000のデータから標本毎に求めた平均(標本平均)を用いて分散を求めたもの(標本数2000)をヒストグラムにしたもの
medbbstat2022-0203.png(135831 byte)
母分散の値よりも低く出る標本が多い→偏っている
標本より求めた分散の期待値(平均)72.96 ≠ 80.97(本来知らないハズの)母分散

母平均から求めた分散

それでは母平均を用いて標本ごとの分散を求めると以下のようになる
medbbstat2022-0204.png(137439 byte)
母平均より求めた分散の期待値(平均)80.97 = 80.97(本来知らないハズの)母分散
偏っていない推定が出来るが,そもそも母平均を用いることが出来るのであれば・・・

不偏分散(標本の平均を用いて母分散の推定を行う)

標本の平均を用いて計算すると,どうしても分散は小さくなる(母平均を用いたものと比較して))
<参考>不偏分散は何故nではなく(n-1)で除するのか(生物統計学2018奈良医大)
https://medbb.net/education/nmubiostat2018/index.html#VAR
不偏分散の期待値(平均)81.06 ≒ 80.97(本来知らないハズの)母分散
ということで,標本平均を用いて母分散の推定を行うには,少し値を大きくしないといけない
上記の<参考は>母平均を用いた式を標本平均に置き換えて式を変化させた話 → 結論は偏差平方和を標本数nではなくn-1で除すると良い
medbbstat2022-0205.png(146106 byte)

標本より求めた統計量(一部)

medbbstat2022-0201.png(148003 byte)

第5回 疫学に必要な統計(4)平均値の区間推定

区間推定に向けて

ある確率分布に従うと仮定したときに、その分布に基づき、推定に幅を持たせる
平均値の推定には標本の平均と標準偏差と確率分布が必要

確率分布

正規分布
二項分布(試行回数nと成功の確率p)→(試行回数を無限大 確率を一定)→正規分布
起こる確率(チャンスを掴む確率)が一定であるとしても積み重ねていくことでバラツキ(差)が出てしまう
人など生物の成長に関わるものなどは、正規分布に近いとされている
平均値μと分散(標準偏差)により分布が決まる
常に曲線下の面積=1(100%)。といって裾野は広がるばかりで閉じない
中心極限定理によりかなり強力

中心極限定理
母集団の分布によらず、抽出した標本の平均値は表本数が大きくなるほど近似的に正規分布に従う

標準正規分布表
kuswepi2021-01.png(339177 byte)
標準正規分布表のPDF版はコチラから
標準偏差と標準誤差
・標準偏差は標本の分布のバラツキ具合を示したもの
・標準誤差は母集団から抽出した標本の平均値のバラツキ具合
SE=σ/√n
標準誤差SEはなぜ標準偏差σを√nで除するのか
標準誤差は母平均に対する標本平均のバラつき指標(標準偏差)の話
対象が母集団全体ならば0だが,母平均(μ)と標本平均(xbar)には差が生じる
ある標本における平均値と母平均の偏差平方は
(xbar-μ)
=((1/n)Σx-μ)
=((1/n)Σx-(1/n)Σμ)
=((1/n)Σ(x-μ))
=(1/n)(1/n)Σ(x-μ)
 -----
 ここで
 (1/n)Σ(x-μ)
 をσとおくと
 -----
=σ/n
故に標準誤差は
SE=σ/√n
区間推定の確率
母数が含まれる確率・・・入る幅を持った推定値
(中心極限定理により正規分布に近似)
orcstat2020-0602.png(11589 byte)
標本平均に幅を持たせることで、その枠内に母平均が入る。→平均値のバラつき具合が標準誤差 SE=σ/√n
式で示すと
95%の信頼区間の場合
下限:標本平均-1.96×標準誤差
上限:標本平均+1.96×標準誤差
(1.96は標準正規分布表で確認)
例題
ある大学の学生(19歳)16人の50m走の結果である
このデータより,全国の大学生の50m走の平均値の95%信頼区間を推定せよ
kuswepi2021-02.png(16138 byte)

例題2

例題と同じく,あるサークルの学生の50m走のデータより,全国の大学生の50m走の平均値の95%信頼区間を推定せよ
kuswepi2021-03.png(4299 byte)

第6回 疫学に必要な統計(5)平均値の検定

仮説検定

<大前提>やみくもに検定するのではなく、検定する理由・確信があるから確かめる という感じで
手順1:仮説をたてる(帰無仮説H0および対立仮説H1)
H0 μ=μ0
H1 μ≠μ0
μが対象とする母集団の平均 μ0は母集団から抽出した標本の平均(=母集団の平均の推定値)
背理法に基づく証明をしている。
(差がない仮説が証明できないので、その対立である差がある仮説を採択する)
手順2:有意水準を決める
確率的に必然と偶然を切り分けている。一般に5%で分けているが1%の時もある
手順3:検定統計量を計算する
その事象の起こる確率を計算していることになるが、用いる確率分布によって計算式が異なる。
Z検定の場合はZ値が検定統計量.
Z値は値を0,標準偏差(分散)=(平均値の話の場合は標準誤差)を1として変換したもの
全国模試の平均点が60標準偏差が8点だった.自身の会場では16人で試験を行ったとき平均点が66点だった場合
全国模試の平均点を0にすると16人の試験の平均点は6点(66-6)
全国模試の標準偏差が8点だった時,16人で試験を行った時の平均値の標準誤差は8/√16=2
Z値は6/2=3.0
手順4:有意水準と比較し、仮説を棄却採択する
有意水準両側5%の時のZの境界値は標準正規分布表より1.96
帰無仮説H0を棄却し対立仮説H1採択


検定と推定の違い

推定
orcstat2020-0602.png(11589 byte)
検定
orcstat2020-0603.png(12754 byte)

Z検定

標準正規分布を用いた検定
先週の推定と同じもの.Z検定は基本ではあるが適用できないケースが多くt検定がよく使われるが,それは次回

αエラー βエラー

教科書P171表2

第一種の過誤
αエラーの起こる確率(誤って有意差があると判定)=有意水準
エラーを気にしなければいつの日か、都合の良い結論が得られるかもしれない → 雨乞い
故にやみくもに検定するのではなく、至るまでのストーリーが大切
第二種の過誤(βエラー)・・・誤って一緒と判定する確率
βエラーの起こる確率(誤って有意差が無いと判定)=検出できない=1-検出力(Power)=β
検出力=1-β
サンプル数↑・・・検出力↑・・・β↓
一般に検出力0.8~0.9で違いを見積もった上でサンプル数を決定する
検出力をが上がるとβエラーの確率は下がるが,統計的有意差と臨床的有意差の話が出てくる.

仮説検定は用法を守り正しく使いましょう

例題

我が国における男子中学生の50m走の平均タイムは8秒02,標準偏差は0.75秒だった
皆さんが特別に指導している男子中学生のチーム64人のタイムを計り平均を求めたところ7秒92だった.
果たして皆さんの指導によるタイムは平均的な指導によるものと異なるのか有意水準5%で検定せよ

例題2

我が国における男子中学生の身長は平均160.05cm,標準偏差は7.66であった.
皆さんが特別に指導している男子中学生のチーム64人の身長を測定したところ,165.80cmであった
全国平均と異なる集団なのか有意水準5%で検定せよ

参考資料

令和元年度全国体力・運動能力、運動習慣等調査結果(スポーツ庁)
https://www.mext.go.jp/sports/b_menu/toukei/kodomo/zencyo/1411922_00001.html

第8回 疫学に必要な統計(6)t検定/h2>

t分布

母集団の平均値を推定するにおいて,標準正規分布を使うと上手くいかないケースがある・・・特に標本数が少ないと
困っていたゴセットさんが標本数によって平均値の出現する確率が変化する分布を示しました.
諸々の理由でt分布と呼ばれています.
酒井 弘憲,ギネスビールと統計家ペンネーム スチューデント,ファルマシア51巻12号,2015
https://www.jstage.jst.go.jp/article/faruawpsj/51/12/51_1168/_article/-char/ja
標本より求めた母標準偏差の推定値(不偏分散に基づく標準偏差)は標本数が少ないと外れ方にも程が無い(過去の標本平均のバラツキ具合を確認の事)
母集団の分散(標準偏差)が既知の場合(実際にはなかなかお見掛けすることは無いが),もしくはサンプルサイズが非常に大きく標本から求めたものの母集団の分散として取り扱って差し支えないものであれば正規分布で推定しても良い
t分布は標本より求めた母標準偏差の推定値(不偏分散に基づく標準偏差)を用いるが,標本の自由度(標本数より求める)によって変化する.
故に標本数が多くなるとt分布は正規分布に近似されていく.
nmuhims2022-01.png(169858 byte)
t分布のPDF版はコチラから

「自由度」νが出てきますが,以下考え方

標本の中で自由に振る舞うことが許されている値の数
例えば標本から平均を求めたとき,その平均が母数の推定値としたら、自由に振る舞えない値が出てくる(つじつま合わせ)
t分布は抽出した標本数を基にしたものなので,正規分布のように一義的なものでは無く,標本数(自由度)によって確率分布が変わる
例題1
自由度が∞の時のt分布の95%信頼区間は正規分布と同じであるが自由度νが25の時,正規分布では何パーセント信頼区間に相当するのか?
自由度が9の時も同様に求めよ
例題2
あるテストを受けた.受験者全員の平均点を推定したい.36名の受験者に協力してもらい点数を教えてもらった.
36名の受験者の平均点は80点,偏差平方和を求めたところ15435になった.95%信頼区間で受験者全員の平均を標準正規分布とt分布でそれぞれ推定しどちらの区間幅が大きくなるか確認せよ.
 

1標本(関連2群)t検定

paired-t検定とよばれます.
前後(ビフォーアフター)に違いが見られたかどうかを検証するものになります.
同一の対象者それぞれの介入前後に差が見られる(つまり介入による影響がある)仮説を検証するものです
1標本t検定(1群)において基準値が0(=違いが無い)が帰無仮説となります

paired-t検定は1標本,2標本?

paired-tは結果として実施していることは一つの標本(差分)についてなのか否かの検定を行う格好なので,行っていることは一標本(関連した2群の)t検定になるのですが,標本数に触れずに独立した形で説明しているケースもあります
「標本」が何を示しているかの話ですがあくまでも対象の話(複数のデータを取得することは可能)なので用いた標本は一つという所だと思います.
無論介入前後の状態であったとしても,ペアになっていない標本を抽出したならば当然ですが二標本(独立した2群の)t検定となります
例題3
リハビリ前後の患者さんの動作にかかる時間(秒)を測定したところ以下の結果になった.
この介入において動作にかかる時間の変化より効果があったのか検定せよ
被験者ID 介入前動作(秒) 介入後動作(秒)
1 16 9
2 19 16
3 13 11
4 20 16
5 23 18
6 15 10
7 19 13
8 12 17
9 15 14
10 18 16

第9回 疫学研究(1)横断研究,コホート研究

記述疫学

特段曝露について触れたものではない
ただし,人,場所,時間という曝露はあるが
記述統計と言われるものと同じ格好で,状況を可視化するもの

生態学的研究

集団レベルで曝露と疾病頻度の関係をみる.
仮説を形成するところまで
個人レベルで曝露と疾病頻度に関係が無くても集団レベル(代表値)で行うと,関係が見えてくる場合がある → 後ほど

横断研究

曝露と疾病発生を同時に評価・・・どちらも妥当性が高い
・利点(調査コスト)
・欠点(どちらが原因?)

因果関係

原因が先行して存在する.結果は後
両者に因果関係があるときは相関関係にある
両者に相関関係があるからといって因果関係があるとは限らない

相関

correlative
相関関係がある・・・関連がある
相関関係が無い・・・関連がない
他方の影響を受けるか受けないか

因果

cause and effect
原因と結果
因果関係がある・・・影響がある
因果関係が無い・・・影響がない

散布図

X軸とY軸に一つの対象に与えられるそれぞれの値をプロット(例:身長と体重)
とりあえず図にすると関係が直感的にわかる(場合がある)
nmuhlthstat1202107-02.png(9572 byte)
図は散布図に回帰直線を描いたもの.関係性が高いほどそれぞれの点は回帰直線に近くなる
(回帰直線は高校で習っている方もいるが,求め方についてはこの授業では範囲外とします)

決定係数

相関係数を二乗したもの
数式によって説明できる割合を示す。(寄与率とも)
高ければ高いほど数式で説明出来る

相関係数

-1から1までの値をとる
Xが増加すればYも増加する・・・1
Xが増加すればYは減少する・・・-1
Xが増加しようが減少しようがYは関係ない・・・0

X軸で見たときのバラツキ具合とY軸で見たときのバラツキ具合を元に計算してる
バラツキ=散布度・・・分散・・・偏差の二乗の平均
共分散=ある対象のX軸の偏差とY軸の偏差を乗じたものがベース
  
Xの偏差 Yの偏差 乗じた結果
乗じた結果の平均が共分散
共分散はX軸Y軸のバラツキ具合が混ざっているのでそのままの数字だと解釈しにくい→XとYの標準偏差で除する(正規化)→相関係数

相関を求める際の注意点

代表値で相関をみた場合と,個体ごとに相関をみた場合では異なる結果になることがある

nmucsmed2022-01.png(24701 byte)

交絡

普通は関連がある(相関がある)=影響を及ぼす関係(因果関係がある)と考える(考えたくなる)

たばこを吸う-肺がん・・・・相関関係○

タバコを吸う人にコーヒーを飲む人が多いのは・・・(yahoo知恵袋)
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1293675642
この関係を使うと
コーヒーを飲む-肺がん・・・相関関係○

コーヒー愛飲者に肺がんが多い理由は?生活習慣との関連を検証
アメリカで約50万人を対象にした調査から
from International journal of epidemiology
http://medley.life/news/item/5589521b660815fe00d5ec8e

コーヒーと肺がんの相関関係に割り込んでいる(どちらとも相関関係がある)状態=交絡
割り込んでいるそれ=交絡因子・・・たばこ
コーヒーと肺がんに因果関係が無いとしたならその関係は疑似相関

コホート研究

コホート・・・追跡する集団
結果より原因が先行する・・・原因(曝露)に基づく集団・・・曝露情報の妥当性が高い
・利点(時間の流れに沿った解釈が出来る 稀な曝露に対応できる)
・欠点(追跡にコストがかかる 稀な疾患には対応困難)

回顧的コホート研究

過去に曝露情報が明らかになっている集団を現在から遡る
現存する資料のみ・・・コホート研究と対極的.観察の方向性はコホート研究と同じ
・近年は保険請求のデータなどを用いた分析なども行われている
(情報の二次利用)
nmucommed2017-01.png(276444 byte)
奈良県立医科大学大学院看護学研究科 地域医療学(分担:データ分析編) より)
データは目的に応じて丸めたり切ったりしてしまう。故に二次利用の場合は注意が必要。
とりあえず収集してデータベース構築をすることが目的ならば、分析は既に二次利用。耐えうるデータを目指さなければ意味が無い
・一次データは情報源からダイレクトに取得するので粒度を目的にあわせてコントロールしている
・二次データは本来の目的と異なるデータ活用となるので、その目的に対してデータの粒度があわない事がある(細かい場合は粗くできるが粗いものは推定するしかない)

相対危険

relative risk

説明用データ

疾病発症 疾病無
曝露有 A B A+B
曝露無 C D C+D
A+C B+D

リスク比

Risk Ratio(RR)
曝露(介入)の有る時と無の時の危険を示す指標の比
危険を示す指標には罹患率やら有病率やら死亡率やら

A~D:疾病発生頻度(頻度以外に罹患率やら有病率・・・)

曝露有群の発症リスク=A/(A+B)
曝露無群の発症リスク=C/(C+D)
リスク比=A/(A+B)/C/(C+D)

頻度について
集団の中でのイベント数(発生回数)
説明用データや下記の参考では累積罹患(率)(つまり割合)で求めた話
無論罹患率や死亡率などでも求められる.(教科書P29参照)

本日の課題

1)無相関の散布図を描け
2)以下のデータからリスク比を求めよ
不整脈あり 不整脈なし
曝露群 100 1900 2000
非曝露群 50 1950 2000
150 3850 4000
参考
相対危険(日本疫学会)
https://jeaweb.jp/glossary/glossary017.html
フレミンガムでの試み(医学会新聞 医学書院)
https://www.igaku-shoin.co.jp/paper/archive/old/old_article/n2002dir/n2516dir/n2516_05.htm

第10回 疫学研究(2)症例対照研究,介入研究

症例対照研究

症例群,対照群・・・過去に遡って追跡する集団
観察の方向性では原因より結果が先行する・・・結果に基づく集団・・・疾病発生情報の妥当性が高い
・利点(短時間で行える 稀な疾患に対応できる)
・欠点(曝露に関する妥当性が低い)

相対危険(度)

Relative Risk・・・一般用語
罹患率比,オッズ比などなど
説明用データ
疾病発症 疾病無
曝露有 A B A+B
曝露無 C D C+D
A+C B+D

リスク比(振り返り+α)

Risk Ratio(RR)
曝露(介入)の有る時と無の時の危険を示す指標の比
危険を示す指標には罹患率やら有病率やら死亡率やら

A~D:疾病発生頻度(頻度以外に罹患率やら有病率・・・)

曝露有群の発症リスク=A/(A+B)
曝露無群の発症リスク=C/(C+D)
リスク比=A/(A+B)/C/(C+D)
もし、発生頻度が低ければA+B≒B C+D≒D
 リスク比≒A/B/C/D=AD/BC

オッズ比

Odds Ratio(OR)
危険な事象が起きた場合と起きなかった場合の指標の比(=オッズ)について曝露(介入)の有無毎に求め比をとったもの

発症有群の曝露オッズ=A/C
発症無群の曝露オッズ=B/D
オッズ比=A/C/B/D
    =AD/BC
上記のように発症頻度が低ければオッズ比とリスク比の近似値となる

本日の課題1

コホート研究(先週の課題のデータ)
不整脈あり 不整脈なし
曝露群 100 1900 2000
非曝露群 50 1950 2000
150 3850 4000
症例対照研究
不整脈あり 不整脈無し
曝露歴あり 50 30 80
曝露歴無し 50 70 120
100 100
1)「コホート研究」「症例対照研究」からそれぞれリスク比とオッズ比を求めて比較せよ.
2)なぜ症例対象研究では,コホート研究と異なり相対危険をリスク比で示すことが出来ないのか,説明せよ

対照

選択には性と年齢をマッチ

病院対照

同一医療機関の受診者

近隣対照

同居の家族,隣近所

一般集団対照

介入

割り込む・・・被験者に強制的に曝露(起こる/起こらない)を割り付ける.
普段,割り込みは意識して行っている(と思います).→私の前には割り込むが高級外車の車の前には割り込まない

研究者の意向が入ってしまうがチョイスしていない → 無作為割付
RCT(Randomized Controll Trial)無作為割付介入研究

介入研究の利点と欠点

交絡因子の制御が期待できる.→交絡は説明済み・・・対策は次回以降で
介入は疾病予防に関するものに限定される
介入できないもの・・・家族,収入,学歴,職業などなど
介入結果の結果はreal worldを反映していないのでは ⇔ real world dataは実態を反映しているものの,そこから正しく知見を見出せるのか

非介入群への配慮

クロスオーバーデザイン
他にもいろいろな方法が

倫理

教科書第11章参照

疫学研究方法まとめ

表4-4,表4-6

本日の課題2

介入研究とコホート研究の相違点について簡潔にまとめよ

第12回 標準化(1)直接法

集団間の比較において年齢構成による影響をを除く話

年齢調整死亡率

年齢によって死亡率が変わるのは自明
年齢で区切って死亡率を評価する

直接法

モデル人口を用意して観察集団の年齢階級別(粗)死亡率をモデル人口における対象とする年齢階級の割合を乗ずる方法
例題 A市
年齢階級 死亡率(人口10万対)
年少人口(~15) 60
生産年齢人口(15~65) 250
老年人口(65~) 3000
B市
年齢階級 死亡率(人口10万対)
年少人口(~15) 50
生産年齢人口(15~65) 200
老年人口(65~) 4500
基準集団(昭和60年モデル)
年齢階級 人口
年少人口(~15) 25,015,000
生産年齢人口(15~65) 82,654,000
老年人口(65~) 12,618,000
総人口 120,287,000
昭和60年モデル資料
平成29年度人口動態統計特殊報告 平成27年都道府県別年齢調整死亡率の概況(厚生労働省)
https://www.mhlw.go.jp/toukei/saikin/hw/jinkou/other/15sibou/index.html
「1.年齢調整死亡率について」を参照

第13回 標準化(2)間接法

間接法

モデル人口を用意してモデル人口における年齢階級別死亡率を観察集団の年齢階級別人口を乗ずる
全年齢の死亡数を求め積算したもので,観察集団の死亡数を除する.
例題 C市
年齢階級 人口構成 死亡期待数 実際の死亡数 SMR
年少人口(~15) 130,000 ----- -----
生産年齢人口(15~65) 700,000 ----- -----
老年人口(65~) 200,000 ----- -----
1,030,000 9,000
D市
年齢階級 人口構成 死亡期待数 実際の死亡数 SMR
年少人口(~15) 200,000 ----- -----
生産年齢人口(15~65) 500,000 ----- -----
老年人口(65~) 330,000 ----- -----
1,030,000 9,000
基準死亡率
年齢階級 人口10万対
年少人口(~15) 40
生産年齢人口(15~65) 200
老年人口(65~) 3,000

第14回 ROC曲線

スクリーニング

二次予防を目的

参考

3.奈良県の医療計画(「コンソーシアム実習」地域医療学概論(分担:奈良県の地域医療(行政から)(奈良県立医科大学医学部医学科 ・早稲田大学))の「保健と医療」参照のこと
https://medbb.net/education/wasedanmucom2023/#3
無症状だがある疾患に罹患している可能性のある集団に検査
①重篤 ②経過の変化が期待できる ③有病率が高い

望ましい検査と現実

ocrotstat2022-0301.png(344953 byte)

感度と特異度

感度=P(陽性|D)  疾患群における真陽性の割合
偽陽性率=P(陽性|Dc) 非疾患群における偽陽性の割合
特異度=1-偽陽性率 非疾患群における真陰性の割合
ocrotstat2022-0302.png(394121 byte)
ocrotstat2022-0303.png(266829 byte)
予測値
有病率の影響を受ける
 陽性的中率=P(D|陽性)
 陰性的中率=P(Dc|陰性)

参考

File 3. 検査結果と有病率の関係(JMP-SAS Institute Inc.)
https://www.jmp.com/ja_jp/medical-statistics/column/non-series/test-results-prevalence.html

ROC曲線

判別度の分析
感度と偽陽性率(1-特異度)を用いて曲線を描く
ocrotstat2022-0304.png(355176 byte)
量的なデータも質的な評価も用いることが出来る.

例題

疾患群 14.3 15.2 13.8 14.1 13.9 12.6 14.2 14.6 13.1 13.7
非疾患群 13.2 14.1 13.8 13.6 12.9 12.4 12.1 12.3 12.3 12.8
カットオフ値を12,13,14,15,16としたときの,それぞれの感度と特異度(偽陽性率)を求めよ
それらのデータよりROC曲線を描け
回答例
kuswepi2023-1301.png(386200 byte)
kuswepi2023-1302.png(376088 byte)