関西福祉大学 疫学2025
(教育学部保健教育学科)
2025年度開講にあたって
https://medbb.net/education/2025init/
教科書
基礎から学ぶ楽しい疫学(医学書院)https://www.igaku-shoin.co.jp/bookDetail.do?book=108378
私は「脚注で学ぶ楽しい疫学」とタイトルを読み替えています.
電卓使いますのでよろしくお願いします.
四則演算と平方根(√)の計算が出来るようにしておいてください.
(初日のみスマートフォンを使って計算しても良い)(ミニテストは)
授業メニュー
シラバスから一部変更があります(日程の調整が必要になったため)
第1回 疫学に必要な統計(1)尺度,度数
第2回 疫学に必要な統計(2)記述統計量
第3回 まとめとミニテスト(1)
第4回 疫学に必要な統計(3)点推定
第5回 疫学に必要な統計(4)平均値の区間推定
第6回 疫学に必要な統計(5)平均値の検定
第7回 まとめとミニテスト(2)
第8回 疫学に必要な統計(6)t検定
第9回 まとめとミニテスト(3)
第10回 疫学研究(1)横断研究,コホート研究
第11回 疫学研究(2)症例対照研究,介入研究
第12回 まとめとミニテスト(4)
第13回 標準化
第14回 ROC曲線
第15回 まとめと試験
第0回 疫学
疫学とは
ある人間集団単位における健康状態の頻度分布の観察ある集団とは地域であったり年齢であったり・・・・
科学的に原因が解明されていなかったとしても,集団の特性と頻度分布の関係を見出せば,原因が未知でも問題を解決できることもある.
集団単位の設定が原因解明の限界になるので,それだけで真の原因に辿り着くとは限らない.
日本疫学会で示している定義は以下をご覧ください
<参考>
疫学(疫学用語の基礎知識 日本疫学会)
https://jeaweb.jp/glossary/glossary001.html
疫学の目的
公衆衛生の発展に寄与 → 疫学は集団を対象としている公衆衛生→集団に寄与する→保健
個人衛生→個人に寄与する→保健~医療
公衆衛生の定義
「公衆衛生とは、生活環境衛生の整備、感染症の予防、個人衛生に関する衛生教育、疾病の早期診断と治療のための医療・看護サービスの組織化、および地域のすべての人々に健康保持に必要な生活水準を保証する社会機構の整備を目的とした地域社会の組織的努力を通じて、疾病を予防し、寿命を延ばし、身体的・精神的健康と能率の増進を図る科学であり技術である。」(Winslow,1920年)
<引用>
公衆衛生医師について(全国保健所長会)
http://www.phcd.jp/02/j_ishi/
疫学の歴史
1850年代・・・イギリスにおけるコレラの流行<参考>
ジョン・スノー(IgnazzoVol.7 BD)
https://www.bdj.co.jp/safety/articles/ignazzo/hkdqj200000awidd.html
イギリスの近代都市づくりを進めたのは実はこれらだったのです。(こだわりアカデミー athome)
https://www.athome-academy.jp/archive/history/0000000254_all.html
日本・・・脚気の克服
<参考>
高木 兼寛(宮崎県郷土先覚者 宮崎県総合政策部文化文教課)
https://www.pref.miyazaki.lg.jp/contents/org/kenmin/kokusai/senkaku/pioneer/takaki/index.html
脚気撲滅への挑戦(明治期の農林水産業発展の歩み 農水省)
https://www.maff.go.jp/j/meiji150/eiyo/02.html
第1回 疫学に必要な統計(1)尺度,度数
統計に用いるデータ
基本どのようなデータでも統計処理は出来る出来ないのは,どのようなデータであっても一つしか存在しない時
データについて
レコード
症例,個体,被験者単位でまとめられたデータの塊.表の場合一行にその症例のすべてのデータを記していたらそれがレコード変数(変量)
データの項目名のことデータ
観測値や測定値のこと(数値)だけでなく性別など文字の場合もある.コンピュータ処理するとき,文字だと扱いにくい時があるのでその時は数字に置き換える(→コード変換)
例えば都道府県名であれば 北海道→01 青森県→02 奈良県→29
全国地方公共団体コードの上二桁=都道府県番号
<参考>全国地方公共団体コード(総務省) https://www.soumu.go.jp/denshijiti/code.html |
変量(データ)の分類
変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。それぞれを尺度と呼び、4つに分類するのが一般的である
1分類尺度(名義尺度)
2順序尺度
3間隔尺度
4比尺度(比例)(比率)
1,2を質的変量(定性的)
3,4を量的変量(定量的)
性質としては上位互換性があり
4>3>2>1
間隔尺度と比尺度との見分け方
データ自身が負の値をとることが想定されるものは間隔尺度(引き算などで便宜上マイナスになるものはデータ自身によるものではない)天気予報での摂氏温度(℃)の話をどのようにされているのか(過去に一回だけビックリしたことがあるけど)

例題1-1)
以下の文章中の下線部の尺度を示せ
折角の(1)日曜日【月曜日,火曜日】,天気も(2)晴【曇,雨】なので車に乗って(3)奈良駅【郡山駅,畝傍駅】までドライブ.
昼食はハンバーガーチェーン店でチーズバーガーとポテトを購入,ドリンクは(4)Lサイズ【Mサイズ,Sサイズ】を選ぶ
昼食後車を走らせるがガソリンが少ないので(5)35リットル【20リットル,5リットル】ほど給油.
無事目的地に到着し駐車場から外に出るとなにやら(6)少し寒い【温かい,熱い】,確かに気温を見ると(7)12℃【10℃,8℃】と先程よりも低い
なので上着を買って帰ることにした.丁度バーゲンセールをやっている.値段は(8)3980円【2980円1980円】,(9)凄く良い【まぁまぁ良い,少し残念な】ものを買うことが出来ました.
統計量
取りまとめたものを「量で」示したもの.質的変数であっても度数(個数,人数など数えるもの)については「量」として示すことが出来る度数
どのようなデータでも度数を示すことは可能度数分布表
それぞれのデータ(変量)の数(出現頻度)をまとめたもの変量が名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数 ・・・出現頻度
相対度数・・・総出現頻度を1(100%)としたときに、それぞれの度数がしめる割合
累積度数・・・上位の変量の度数もあわせた度数
累積相対度数・・・累積度数の相対版
品名 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|
いちご | 15 | |||
みかん | 8 | |||
ぶどう | 7 | |||
計 | 30 | 1.00 | ----- | ----- |
量的変数の度数分布表
量的変数の場合はその数値だけで度数を積み上げようにもなかなか上手くいかない場合がある.血圧 163.5mmHg 164.2mmHg 162.5mmHg・・・どれも度数を積み上げられない → 区間を設定する
「A~B」は「A以上B未満」と読む格好と思っていたが,分野などによって違うようです 「A以上B以下」のようにどちらの階級にも属してしまう可能性のある設定は絶対しないように. この授業では「A~B」は「A以上B未満」とします. |
階級 | 階級値 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|---|
130~140 | 135 | ||||
140~150 | 145 | ||||
150~160 | 155 | ||||
160~170 | 165 | ||||
170~180 | 175 | ||||
計 | ----- | ----- |
例題1-2
以下の40名の血液型データについて度数分布表を作成せよ

例題1-3
あるクラスの生徒の身長を計測したところ以下のような結果が得られた.度数分布表を作成せよ

度数分布図
質的変数・・・縦棒グラフ
量的変数・・・ヒストグラム

棒の間隔が無いのは値が連続している状態であるが故
普通の棒グラフは棒の長さが度数を示すが,ヒストグラムは棒の面積が度数を示す
「階級の幅を等しくすること」と説明している場合があるが,それは幅が変わると高さが変わる故で,実際にはそのような区間設定はよくある |
ヒストグラムーなるほど統計学園(総務省統計局) https://www.stat.go.jp/naruhodo/4_graph/shokyu/histogram.html |
第2回 疫学に必要な統計(2)記述統計量
記述統計量(代表値)
代表値と散布度からなる.←駅伝やマラソンの実況中継はこれらを利用しているから状況がわかる平均(Mean)
Averageってexcel関数ありますが,あれ代表値って意味です.算術平均
いわゆる割り勘.xbar=1/n(x1+x2+・・・+xn)欠点:外れ値があると平均値は分布の中心位置を示さない(←それって代表的な値??)
→ 対処法:外れ値を取り除くか中央値を使うか
幾何平均(相乗平均)
全て掛け合わせて累乗根をとる加重平均
重みづけ平均例えば ミニテストと期末試験の平均をとる → そのままの平均で良いの? 応用例
度数分布表から算術平均を計算
Σ(階級値×度数)/構成数
中央値
昇順に並べたときに,真ん中の順番のデータ(変数)の値データの数が偶数だと真ん中のデータは二つになるのでそれらの平均値
最頻値
最も個数が多いデータの値最頻値は複数存在する場合がある→二峰性
例題2-1
あるクラスの生徒の身長を計測したところ以下のような結果が得られた
a)この集団の算術平均を求めよ
b)例題1-3で作成した同データの度数分布表から平均値を求めよ
c)この集団の中央値を求めよ
d)この集団の最頻値を求めよ
記述統計量(散布度)
範囲
最大値と最小値の差四分位範囲
IQR=第3四分位数(75%点)-第1四分位数(25%点)(参考:中央値=第2四分位数(50%点))第3四分位数(75%点)の算出方法は数多くありまして・・・
標準偏差
範囲を用いた散布度と違い,平均値からのバラツキ(差=偏差)の平均を求めようというものただし偏差の平均をとれば集団内の各々のズレっぷりがわかると思って計算しても → 合計は常に0 故に平均も常に0
そこで偏差を二乗したものの平均を取っている → 分散
標準偏差は分散の正の平方根をとったもの

授業中に示した分散,標準偏差を求める例題と計算結果

統計手法の考え方
量的変数をそのまま量的に取り扱う場合・・・平均値 標準偏差 パラメトリック検定・・・t検定(正規分布を用いた検定)量的変数を順序変数として取り扱う場合・・・中央値 四分位範囲/偏差 ノンパラメトリック検定・・・一標本Wilcoxon検定,Mann-Whitney検定
量的変数を名義(カテゴリー)変数として取り扱う場合・・・度数 カイ二乗検定
よく,パラメトリック検定を分布に依存すると表現している件
意味としてはノンパラ(順序=分布に依存しない)とは,取り扱うと,値の分布をキャンセルしている(バラバラに存在整列していたものを整列させる)ということ
元々は量的変数.こちらの絵の通りで平均値(14.55)を求めたり標準偏差(4.23)を求めたり,母集団の推定のために不偏分散(19.67)求めたりt検定を行ったり.

こちらは分布なんて関係なく中央値(15)を求めたり,四分位偏差(2)求めたり,U検定を行ったり.
例題2-2
あるクラスの生徒の身長を計測したところ以下のような結果が得られた

a)この集団の範囲,分散,標準偏差を求めよ
第4回 疫学に必要な統計(3)点推定
点推定
一つの数値(点)で推定値を示すこと欠点:推定値と真の値がどの程度ズレているのかよくわからない
利点:区間推定よりも簡単に算出できる
区間推定
ある確率分布に従うと仮定したときに、その分布に基づき、推定に幅を持たせもの欠点:点推定の計算に加え区間を求めるための計算が必要
利点:真の値を区間内に含む確率を示すことで,どの程度ズレているのか(なんとなく)わかる
不偏推定量
母数の推定=不偏推定量算術平均・・・母平均の点推定値
分散・・・母分散の推定値としたいところだが・・・
標本平均値は偏っていないが標本分散は偏っている
以下の例を見てもらうと
コチラをクリック
母平均の点推定
標本から求めた平均値は母集団の平均値の不偏推定量か?以下は20000のデータから標本数10の平均値を求めたもの(標本数2000)をヒストグラムにしたもの

標本平均の平均 125.0 =(本来知らないハズの)母平均
125.0未満の標本平均になった標本の数 1000(50.0%)
標本平均が125.0になった標本数 22(1.1%)
125.0を超えた標本平均になった標本の数978(48.9%)
母分散の点推定
標本から求めた分散は母集団の分散の不偏推定量となるのか?標本の平均値から求めた分散
以下は20000のデータから標本毎に求めた平均(標本平均)を用いて分散を求めたもの(標本数2000)をヒストグラムにしたもの
母分散の値よりも低く出る標本が多い→偏っている
標本より求めた分散の期待値(平均)72.96 ≠ 80.97(本来知らないハズの)母分散
母平均から求めた分散
それでは母平均を用いて標本ごとの分散を求めると以下のようになる
母平均より求めた分散の期待値(平均)80.97 = 80.97(本来知らないハズの)母分散
偏っていない推定が出来るが,そもそも母平均を用いることが出来るのであれば・・・
不偏分散(標本の平均を用いて母分散の推定を行う)
標本の平均を用いて計算すると,どうしても分散は小さくなる(母平均を用いたものと比較して))
<参考>不偏分散は何故nではなく(n-1)で除するのか(生物統計学2018奈良医大) https://medbb.net/education/nmubiostat2018/index.html#VAR |
ということで,標本平均を用いて母分散の推定を行うには,少し値を大きくしないといけない
上記の<参考は>母平均を用いた式を標本平均に置き換えて式を変化させた話 → 結論は偏差平方和を標本数nではなくn-1で除すると良い

標本より求めた統計量(一部)

例題4-1
次の標本より母平均および母分散を推定せよ

第5(と6)回 疫学に必要な統計(4)平均値の区間推定
区間推定に向けて
点推定の欠点・・・母平均や母分散など母数をピッタリ当てることはほぼほぼ無理.区間で推定すれば,その気になれば100%の確率で当てることは可能
例題5-1
ある高等学校の3年生生のうちあるクラスの生徒40人にアンケートを取り,お小遣いを親からいくらもらっているのか調査した
その結果の算術平均をとると6500円だった.
はたしてその高校の3年生全体のお小遣いの平均はいくらになるだろうか?100%当たるよう下限の金額と上限の金額を示せ
母集団の平均値の区間推定の考え方
区間を推定するにあたっての基準を点推定値を基準とし,区間を推定するにあたってどのような確率で標本方求めた平均値が出現するのか仮定したうえで行う
この授業回では出現する確率の分布に正規分布を用いる
一般的に95%の確率で当たる区間(95%の信頼区間)で幅を決めている
ところで95%の確率で当たるとは

そもそも母集団全体の平均を求めることが可能ならば,推定する必要は無いのですが
ちなみに気象庁の降水確率も同じような考え方です.
降水確率予報との比較(気象庁)
https://www.jma.go.jp/jma/kishou/know/kisetsu_riyou/explain/prob_precip.html
確率分布
正規分布
二項分布(試行回数nと成功の確率p)→(試行回数を無限大 確率を一定)→正規分布
起こる確率(チャンスを掴む確率)が一定であるとしても積み重ねていくことでバラツキ(差)が出てしまう
人など生物の成長に関わるものなどは、正規分布に近いとされている
平均値μと分散(標準偏差)により分布が決まる
常に曲線下の面積=1(100%)。といって裾野は広がるばかりで閉じない
中心極限定理によりかなり強力
中心極限定理
母集団の分布によらず、抽出した標本の平均値は表本数が大きくなるほど近似的に正規分布に従う
標準正規分布表

標準正規分布表のPDF版はコチラから
例題5-2
標準正規分布表より95%信頼区間のZ値を示してください
5回目ここまで202508191430
標準偏差と標準誤差
・標準偏差は標本の分布のバラツキ具合を示したもの
・標準誤差は母集団から抽出した標本の平均値のバラツキ具合
SE=σ/√n
標準誤差SEはなぜ標準偏差σを√nで除するのか
標準誤差は母平均に対する標本平均のバラつき指標(標準偏差)の話
対象が母集団全体ならば0だが,母平均(μ)と標本平均(xbar)には差が生じる
ある標本における平均値と母平均の偏差平方は
(xbar-μ)2
=((1/n)Σxi-μ)2
=((1/n)Σxi-(1/n)Σμ)2
=((1/n)Σ(xi-μ))2
=(1/n)(1/n)Σ(xi-μ)2
-----
ここで
(1/n)Σ(xi-μ)2
をσ2とおくと
-----
=σ2/n
故に標準誤差は
SE=σ/√n
区間推定の確率
母数が含まれる確率・・・入る幅を持った推定値
(中心極限定理により正規分布に近似)

標本平均に幅を持たせることで、その枠内に母平均が入る。→平均値のバラつき具合が標準誤差 SE=σ/√n
式で示すと
95%の信頼区間の場合
下限:標本平均-1.96×標準誤差
上限:標本平均+1.96×標準誤差
(1.96は標準正規分布表で確認)
例題
ある大学の学生(19歳)16人の50m走の結果である
このデータより,全国の大学生の50m走の平均値の95%信頼区間を推定せよ

例題5-3
例題と同じく,あるサークルの学生の50m走のデータより,全国の大学生の50m走の平均値の95%信頼区間を推定せよ

第6(と7回のミニテスト後) 疫学に必要な統計(5)平均値の検定
仮説検定とは,ある論拠に基づく仮説が実証できるのかデータを取得し判定を行う作業
推定は標本を基に母集団を推定すること
検定は標本を基にある論拠に基づく仮説を示す状況であるか判定すること
特に検定の場合は「新たな知見」であることを証明する際に使われることが多いので,これまでの常識を覆す(つまりこれまでの結果にならない)ことを期待して行う
推定

検定

差がある仮説の判定(有意差検定)
事象としては「同一の結果が得られる」「同一の結果が得られない」の二つにいずれかになります.
同一の結果が得られる仮説を帰無仮説(これまでと違いが無い仮説)H0,同一の結果が得られない仮説を対立仮説(これまでと違いがある仮説)H1と示します.有意水準は対立仮説H1の確率を示します
有意水準は通例5%とされることが多く,両側検定(効果量に違いがあるのか無いか)と片側検定(違いがが正の方向のものなのか,負の方向のものなのか)の二種類がある
背理法の考え方に基づく論理で証明.もともと証明したい仮説(差がある)を偽であるとして,矛盾を導く出すことで判定する方法
現在はコンピュータにより確率を直接求めることは可能ですし,まどろっこしい流れに映りますが,違い(差)を直接判断しているのではなく「同一の結果が得られる」確率に基づき判定基準を定めているところが科学として重要であるから故と捉えています.
ですので確率そのものは,判定のためのものであって求めた値(統計量や確率)そのものに重きを置く必要はありません.効果量そのものに重きをおく方が知見の社会実装の観点から重要になります
区間推定と仮説検定の相反する部分
区間推定は区間内に求めているものがある(含まれている ことを祈っている)
仮説検定は区間外に求めているものがある(含まれていないことを祈っている)
仮説検定(有意差検定 両側検定)のフォーマット例
手順1 帰無仮説,対立仮説をたてる
帰無仮説H0:μ=150 対立仮説H1:μ≠150
手順2 母集団が従うと見做す確率分布を定め,有意水準を決める
(例えば)正規分布に従うと見做し,有意水準両側5%とする
手順3 今回取得したデータをもとに,母集団が従うと見做す確率分布における統計量を求める
例
帰無仮説H0がある集団の収縮期血圧μ=150mmhgとしたときに,これまでにない高血圧防止体操を行った集団から得られたデータ(サンプルサイズn=36 標本平均xbar=147.3 不偏分散s^2=81)で検定を行う
1)手順1 帰無仮説,対立仮説をたてる
帰無仮説H0:μ=150 対立仮説H1:μ≠150
手順2 母集団が従うと見做す確率分布を定め,有意水準を決める
正規分布に従うと見做し,有意水準両側5%とする
手順3 今回取得したデータをもとに,母集団が従うと見做す確率分布における統計量を求める
-2.7異なる,これを(標準正規分布の)検定統計量に変換すると-1.8
手順4
検定統計量を用いて有意水準との比較,今回の標本が棄却域にあるのか否か(受容域なのか)判定する.
|z|=1.8 p=0.0359×2(両側検定なので2倍)>0.05
帰無仮説を棄却できないので判定を保留する
手順4のバリエーション
(ケース1)有意水準よりも小さい場合
|z|=2.96 p=0.015×2(両側検定なので2倍)<0.05
帰無仮説を棄却し対立仮説を採択する 有意差がある
(ケース2)有意水準よりも大きい場合
|z|=1.45 p=0.0735×2(両側検定なので2倍)>0.05
帰無仮説を棄却できないので判定を保留する
注)標準正規分布表の場合確率まで求めることが可能だが,t分布表は統計量から確率を求めることはできないので統計量で比較する
例題6-1
物騒な話ですが,ある自動販売機に偽造通貨が使われているのではないかという話が私のところに舞い込んできた.
話を聞くともっともらしい仮説が既にあるので検証することにした.
そこで,自販機に入っていた硬貨10円玉10枚を用いてこの仮説について仮説検定を行う
10円玉の硬貨μ=4.50gと比較して異なることが期待される検定になります
ここでは,とりあえず標準正規分布で検定してみましょう(よくないけど)
計算した結果ですが
標本の平均は4.42g
不偏分散より求めた標準偏差は0.119
をお使いください.
ある高等学校の3年生生のうちあるクラスの生徒40人にアンケートを取り,お小遣いを親からいくらもらっているのか調査した
その結果の算術平均をとると6500円だった.
はたしてその高校の3年生全体のお小遣いの平均はいくらになるだろうか?100%当たるよう下限の金額と上限の金額を示せ
https://www.jma.go.jp/jma/kishou/know/kisetsu_riyou/explain/prob_precip.html
標準正規分布表より95%信頼区間のZ値を示してください
例題と同じく,あるサークルの学生の50m走のデータより,全国の大学生の50m走の平均値の95%信頼区間を推定せよ



物騒な話ですが,ある自動販売機に偽造通貨が使われているのではないかという話が私のところに舞い込んできた.
話を聞くともっともらしい仮説が既にあるので検証することにした.
そこで,自販機に入っていた硬貨10円玉10枚を用いてこの仮説について仮説検定を行う
10円玉の硬貨μ=4.50gと比較して異なることが期待される検定になります
ここでは,とりあえず標準正規分布で検定してみましょう(よくないけど)
計算した結果ですが
標本の平均は4.42g
不偏分散より求めた標準偏差は0.119
をお使いください.
10円玉ID | 重量(g) |
---|---|
1 | 4.55 |
2 | 4.53 |
3 | 4.23 |
4 | 4.50 |
5 | 4.51 |
6 | 4.31 |
7 | 4.38 |
8 | 4.54 |
9 | 4.35 |
10 | 4.30 |
例題6-2
我が国における男子中学生の50m走の平均タイムは8秒02,標準偏差は0.75秒だった
皆さんが特別に指導している男子中学生のチーム900人のタイムを計り平均を求めたところ7秒92だった.
果たして皆さんの指導によるタイムは平均的な指導によるものと異なるのか有意水準5%で検定せよ
例題6-3
我が国における男子中学生の身長は平均160.05cm,標準偏差は7.66であった.
皆さんが特別に指導している男子中学生のチーム900人の身長を測定したところ,165.80cmであった
全国平均と異なる集団なのか有意水準5%で検定せよ
参考資料
令和元年度全国体力・運動能力、運動習慣等調査結果(スポーツ庁)https://www.mext.go.jp/sports/b_menu/toukei/kodomo/zencyo/1411922_00001.html
第8回 疫学に必要な統計(6)t検定
t分布
母集団の平均値を推定するにおいて,標準正規分布を使うと上手くいかないケースがある・・・特に標本数が少ないと困っていたゴセットさんが標本数によって平均値の出現する確率が変化する分布を示しました.
諸々の理由でt分布と呼ばれています.
酒井 弘憲,ギネスビールと統計家ペンネーム スチューデント,ファルマシア51巻12号,2015 https://www.jstage.jst.go.jp/article/faruawpsj/51/12/51_1168/_article/-char/ja |
母集団の分散(標準偏差)が既知の場合(実際にはなかなかお見掛けすることは無いが),もしくはサンプルサイズが非常に大きく標本から求めたものの母集団の分散として取り扱って差し支えないものであれば正規分布で推定しても良い
t分布は標本より求めた母標準偏差の推定値(不偏分散に基づく標準偏差)を用いるが,標本の自由度(標本数より求める)によって変化する.
故に標本数が多くなるとt分布は正規分布に近似されていく.

t分布のPDF版はコチラから
「自由度」νが出てきますが,以下考え方
標本の中で自由に振る舞うことが許されている値の数例えば標本から平均を求めたとき,その平均が母数の推定値としたら、自由に振る舞えない値が出てくる(つじつま合わせ)
t分布は抽出した標本数を基にしたものなので,正規分布のように一義的なものでは無く,標本数(自由度)によって確率分布が変わる
例題8-1
自由度が∞の時のt分布の95%信頼区間は正規分布と同じであるが自由度νが25の時,正規分布では何パーセント信頼区間に相当するのか?
自由度が9の時も同様に求めよ
例題8-2
あるテストを受けた.受験者全員の平均点を推定したい.36名の受験者に協力してもらい点数を教えてもらった.
36名の受験者の平均点は80点,偏差平方和を求めたところ15435になった.95%信頼区間で受験者全員の平均を標準正規分布とt分布でそれぞれ推定しどちらの区間幅が大きくなるか確認せよ.
1標本(関連2群)t検定
paired-t検定とよばれます.前後(ビフォーアフター)に違いが見られたかどうかを検証するものになります.
同一の対象者それぞれの介入前後に差が見られる(つまり介入による影響がある)仮説を検証するものです
1標本t検定(1群)において基準値が0(=違いが無い)が帰無仮説となります
paired-t検定は1標本,2標本?
paired-tは結果として実施していることは一つの標本(差分)についてなのか否かの検定を行う格好なので,行っていることは一標本(関連した2群の)t検定になるのですが,標本数に触れずに独立した形で説明しているケースもあります「標本」が何を示しているかの話ですがあくまでも対象の話(複数のデータを取得することは可能)なので用いた標本は一つという所だと思います.
無論介入前後の状態であったとしても,ペアになっていない標本を抽出したならば当然ですが二標本(独立した2群の)t検定となります
例題8-3
リハビリ前後の患者さんの動作にかかる時間(秒)を測定したところ以下の結果になった.
この介入において動作にかかる時間の変化より効果があったのか検定せよ
被験者ID | 介入前動作(秒) | 介入後動作(秒) |
---|---|---|
1 | 16 | 9 |
2 | 19 | 16 |
3 | 13 | 11 |
4 | 20 | 16 |
5 | 23 | 18 |
6 | 15 | 10 |
7 | 19 | 13 |
8 | 12 | 17 |
9 | 15 | 14 |
10 | 18 | 16 |
第10回 疫学研究(1)横断研究,コホート研究
記述疫学
特段曝露について触れたものではないただし,人,場所,時間という曝露はあるが
記述統計と言われるものと同じ格好で,状況を可視化するもの
生態学的研究
集団レベルで曝露と疾病頻度の関係をみる.仮説を形成するところまで
個人レベルで曝露と疾病頻度に関係が無くても集団レベル(代表値)で行うと,関係が見えてくる場合がある → 後ほど
横断研究
曝露と疾病発生を同時に評価・・・どちらも妥当性が高い・利点(調査コスト)
・欠点(どちらが原因?)
因果関係
原因が先行して存在する.結果は後両者に因果関係があるときは相関関係にある
両者に相関関係があるからといって因果関係があるとは限らない
相関
correlative相関関係がある・・・関連がある
相関関係が無い・・・関連がない
他方の影響を受けるか受けないか
因果
cause and effect原因と結果
因果関係がある・・・影響がある
因果関係が無い・・・影響がない
散布図
X軸とY軸に一つの対象に与えられるそれぞれの値をプロット(例:身長と体重)とりあえず図にすると関係が直感的にわかる(場合がある)

図は散布図に回帰直線を描いたもの.関係性が高いほどそれぞれの点は回帰直線に近くなる
(回帰直線は高校で習っている方もいるが,求め方についてはこの授業では範囲外とします)
決定係数
相関係数を二乗したもの数式によって説明できる割合を示す。(寄与率とも)
高ければ高いほど数式で説明出来る
相関係数
-1から1までの値をとるXが増加すればYも増加する・・・1
Xが増加すればYは減少する・・・-1
Xが増加しようが減少しようがYは関係ない・・・0
X軸で見たときのバラツキ具合とY軸で見たときのバラツキ具合を元に計算してる
バラツキ=散布度・・・分散・・・偏差の二乗の平均
共分散=ある対象のX軸の偏差とY軸の偏差を乗じたものがベース
Xの偏差 | Yの偏差 | 乗じた結果 |
---|---|---|
+ | + | + |
+ | - | - |
- | + | - |
- | - | + |
共分散はX軸Y軸のバラツキ具合が混ざっているのでそのままの数字だと解釈しにくい→XとYの標準偏差で除する(正規化)→相関係数
相関を求める際の注意点
代表値で相関をみた場合と,個体ごとに相関をみた場合では異なる結果になることがある

交絡
普通は関連がある(相関がある)=影響を及ぼす関係(因果関係がある)と考える(考えたくなる)
例
たばこを吸う-肺がん・・・・相関関係○
タバコを吸う人にコーヒーを飲む人が多いのは・・・(yahoo知恵袋)
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1293675642
この関係を使うと
コーヒーを飲む-肺がん・・・相関関係○
コーヒー愛飲者に肺がんが多い理由は?生活習慣との関連を検証
アメリカで約50万人を対象にした調査から
from International journal of epidemiology
http://medley.life/news/item/5589521b660815fe00d5ec8e
コーヒーと肺がんの相関関係に割り込んでいる(どちらとも相関関係がある)状態=交絡
割り込んでいるそれ=交絡因子・・・たばこ
コーヒーと肺がんに因果関係が無いとしたならその関係は疑似相関
コホート研究
コホート・・・追跡する集団
結果より原因が先行する・・・原因(曝露)に基づく集団・・・曝露情報の妥当性が高い
・利点(時間の流れに沿った解釈が出来る 稀な曝露に対応できる)
・欠点(追跡にコストがかかる 稀な疾患には対応困難)
回顧的コホート研究
過去に曝露情報が明らかになっている集団を現在から遡る
現存する資料のみ・・・コホート研究と対極的.観察の方向性はコホート研究と同じ
・近年は保険請求のデータなどを用いた分析なども行われている
(情報の二次利用)

(奈良県立医科大学大学院看護学研究科 地域医療学(分担:データ分析編) より)
データは目的に応じて丸めたり切ったりしてしまう。故に二次利用の場合は注意が必要。
とりあえず収集してデータベース構築をすることが目的ならば、分析は既に二次利用。耐えうるデータを目指さなければ意味が無い
・一次データは情報源からダイレクトに取得するので粒度を目的にあわせてコントロールしている
・二次データは本来の目的と異なるデータ活用となるので、その目的に対してデータの粒度があわない事がある(細かい場合は粗くできるが粗いものは推定するしかない)
相対危険
relative risk
説明用データ
疾病発症 | 疾病無 | 計 | |
---|---|---|---|
曝露有 | A | B | A+B |
曝露無 | C | D | C+D |
計 | A+C | B+D |
リスク比
Risk Ratio(RR)曝露(介入)の有る時と無の時の危険を示す指標の比
危険を示す指標には罹患率やら有病率やら死亡率やら
A~D:疾病発生頻度(頻度以外に罹患率やら有病率・・・)
曝露有群の発症リスク=A/(A+B)
曝露無群の発症リスク=C/(C+D)
リスク比=A/(A+B)/C/(C+D)
頻度について
集団の中でのイベント数(発生回数)説明用データや下記の参考では累積罹患(率)(つまり割合)で求めた話
無論罹患率や死亡率などでも求められる.(教科書P29参照)
例題10-1
無相関の散布図を描け
例題10-2
以下のデータからリスク比を求めよ
不整脈あり | 不整脈なし | 計 | |
---|---|---|---|
曝露群 | 100 | 1900 | 2000 |
非曝露群 | 50 | 1950 | 2000 |
計 | 150 | 3850 | 4000 |
参考
相対危険(日本疫学会)https://jeaweb.jp/glossary/glossary017.html
フレミンガムでの試み(医学会新聞 医学書院)
https://www.igaku-shoin.co.jp/paper/archive/old/old_article/n2002dir/n2516dir/n2516_05.htm
第11回 疫学研究(2)症例対照研究,介入研究
症例対照研究
症例群,対照群・・・過去に遡って追跡する集団観察の方向性では原因より結果が先行する・・・結果に基づく集団・・・疾病発生情報の妥当性が高い
・利点(短時間で行える 稀な疾患に対応できる)
・欠点(曝露に関する妥当性が低い)
相対危険(度)
Relative Risk・・・一般用語罹患率比,オッズ比などなど
説明用データ
疾病発症 | 疾病無 | 計 | |
---|---|---|---|
曝露有 | A | B | A+B |
曝露無 | C | D | C+D |
計 | A+C | B+D |
リスク比(振り返り+α)
Risk Ratio(RR)曝露(介入)の有る時と無の時の危険を示す指標の比
危険を示す指標には罹患率やら有病率やら死亡率やら
A~D:疾病発生頻度(頻度以外に罹患率やら有病率・・・)
曝露有群の発症リスク=A/(A+B)
曝露無群の発症リスク=C/(C+D)
リスク比=A/(A+B)/C/(C+D)
もし、発生頻度が低ければA+B≒B C+D≒D
リスク比≒A/B/C/D=AD/BC
オッズ比
Odds Ratio(OR)危険な事象が起きた場合と起きなかった場合の指標の比(=オッズ)について曝露(介入)の有無毎に求め比をとったもの
発症有群の曝露オッズ=A/C
発症無群の曝露オッズ=B/D
オッズ比=A/C/B/D
=AD/BC
上記のように発症頻度が低ければオッズ比とリスク比の近似値となる
例題11-1
コホート研究
不整脈あり | 不整脈なし | 計 | |
---|---|---|---|
曝露群 | 100 | 1900 | 2000 |
非曝露群 | 50 | 1950 | 2000 |
計 | 150 | 3850 | 4000 |
不整脈あり | 不整脈無し | 計 | |
---|---|---|---|
曝露歴あり | 50 | 30 | 80 |
曝露歴無し | 50 | 70 | 120 |
計 | 100 | 100 |
例題11-2
なぜ症例対象研究では,コホート研究と異なり相対危険をリスク比で示すことが出来ないのか,説明せよ
対照
選択には性と年齢をマッチ病院対照
同一医療機関の受診者近隣対照
同居の家族,隣近所一般集団対照
介入
割り込む・・・被験者に強制的に曝露(起こる/起こらない)を割り付ける.普段,割り込みは意識して行っている(と思います).→私の前には割り込むが高級外車の車の前には割り込まない
研究者の意向が入ってしまうがチョイスしていない → 無作為割付
RCT(Randomized Controll Trial)無作為割付介入研究
介入研究の利点と欠点
交絡因子の制御が期待できる.→交絡は説明済み・・・対策は次回以降で介入は疾病予防に関するものに限定される
介入できないもの・・・家族,収入,学歴,職業などなど
介入結果の結果はreal worldを反映していないのでは ⇔ real world dataは実態を反映しているものの,そこから正しく知見を見出せるのか
非介入群への配慮
クロスオーバーデザイン他にもいろいろな方法が
倫理
教科書第11章参照疫学研究方法まとめ
表4-4,表4-6本日の課題2
介入研究とコホート研究の相違点について簡潔にまとめよ第13回 標準化
集団間の比較において年齢構成による影響をを除く話年齢調整死亡率
年齢によって死亡率が変わるのは自明年齢で区切って死亡率を評価する
直接法
モデル人口を用意して観察集団の年齢階級別(粗)死亡率をモデル人口における対象とする年齢階級の割合を乗ずる方法例題 A市
年齢階級 | 死亡率(人口10万対) |
---|---|
年少人口(~15) | 60 |
生産年齢人口(15~65) | 250 |
老年人口(65~) | 3000 |
年齢階級 | 死亡率(人口10万対) |
---|---|
年少人口(~15) | 50 |
生産年齢人口(15~65) | 200 |
老年人口(65~) | 4500 |
年齢階級 | 人口 |
---|---|
年少人口(~15) | 25,015,000 |
生産年齢人口(15~65) | 82,654,000 |
老年人口(65~) | 12,618,000 |
総人口 | 120,287,000 |
昭和60年モデル資料
平成29年度人口動態統計特殊報告 平成27年都道府県別年齢調整死亡率の概況(厚生労働省)https://www.mhlw.go.jp/toukei/saikin/hw/jinkou/other/15sibou/index.html
「1.年齢調整死亡率について」を参照
間接法
モデル人口を用意してモデル人口における年齢階級別死亡率を観察集団の年齢階級別人口を乗ずる全年齢の死亡数を求め積算したもので,観察集団の死亡数を除する.
例題 C市
年齢階級 | 人口構成 | 死亡期待数 | 実際の死亡数 | SMR |
---|---|---|---|---|
年少人口(~15) | 130,000 | ----- | ----- | |
生産年齢人口(15~65) | 700,000 | ----- | ----- | |
老年人口(65~) | 200,000 | ----- | ----- | |
計 | 1,030,000 | 9,000 |
年齢階級 | 人口構成 | 死亡期待数 | 実際の死亡数 | SMR |
---|---|---|---|---|
年少人口(~15) | 200,000 | ----- | ----- | |
生産年齢人口(15~65) | 500,000 | ----- | ----- | |
老年人口(65~) | 330,000 | ----- | ----- | |
計 | 1,030,000 | 9,000 |
年齢階級 | 人口10万対 |
---|---|
年少人口(~15) | 40 |
生産年齢人口(15~65) | 200 |
老年人口(65~) | 3,000 |
例題13-1
直接法と間接法について,それぞれの利点欠点をまとめよ
第14回 ROC曲線
スクリーニング
二次予防を目的参考
3.奈良県の医療計画(「コンソーシアム実習」地域医療学概論(分担:奈良県の地域医療(行政から)(奈良県立医科大学医学部医学科 ・早稲田大学))の「保健と医療」参照のことhttps://medbb.net/education/wasedanmucom2023/#3
無症状だがある疾患に罹患している可能性のある集団に検査
①重篤 ②経過の変化が期待できる ③有病率が高い
望ましい検査と現実

感度と特異度
感度=P(陽性|D) 疾患群における真陽性の割合偽陽性率=P(陽性|Dc) 非疾患群における偽陽性の割合
特異度=1-偽陽性率 非疾患群における真陰性の割合


予測値
有病率の影響を受ける
陽性的中率=P(D|陽性)
陰性的中率=P(Dc|陰性)
参考
File 3. 検査結果と有病率の関係(JMP-SAS Institute Inc.)
https://www.jmp.com/ja_jp/medical-statistics/column/non-series/test-results-prevalence.htmlROC曲線
判別度の分析感度と偽陽性率(1-特異度)を用いて曲線を描く

量的なデータも質的な評価も用いることが出来る.
例題
疾患群 | 14.3 | 15.2 | 13.8 | 14.1 | 13.9 | 12.6 | 14.2 | 14.6 | 13.1 | 13.7 |
非疾患群 | 13.2 | 14.1 | 13.8 | 13.6 | 12.9 | 12.4 | 12.1 | 12.3 | 12.3 | 12.8 |
それらのデータよりROC曲線を描け
回答例

