関西福祉大学 疫学2023
(教育学部保健教育学科)
統計の基礎部分のフォロー講義開講に関する情報
統計の基礎部分のフォロー講義(オンライン)ですがzoomで行います.4つの尺度から記述統計,そして推測統計の入り口まで行います
告知の通り日曜の午前中が都合がつきやすいと思い設定させていただきました.
日程 タイトルは以下の通りです
2023年12月10日(日)10時~12時 統計学(1)尺度と度数
2023年12月17日(日)10時~12時 統計学(2)代表値と散布
2024年 1月 7日(日)10時~12時 統計学(3)母平均と母分散の点推定
2024年 1月14日(日)10時~12時 統計学(4)母平均の区間推定
申し込みされる方は以下のpeatixのページからお願いします
https://medbbstat2023.peatix.com
講義資料のページは以下になります
https://medbb.net/education/medbbstat2023
教科書
基礎から学ぶ楽しい疫学(医学書院)https://www.igaku-shoin.co.jp/bookDetail.do?book=108378
私は「脚注で学ぶ楽しい疫学」とタイトルを読み替えています.
電卓使いますのでよろしくお願いします.
四則演算と平方根(√)の計算が出来るようにしておいてください.
授業メニュー
第1回 疫学に必要な統計(1)尺度,度数
第2回 疫学に必要な統計(2)記述統計量
第3回 疫学に必要な統計(3)点推定
第4回 疫学に必要な統計(4)平均値の区間推定
第5回 疫学に必要な統計(5)平均値の検定
第6回 これまでのまとめおよび確認テスト
第7回 疾病頻度
第8回 疫学研究(1)横断研究,コホート研究
第9回 疫学研究(2)症例対照研究,介入研究
第10回 偏りと交絡
第11回 標準化(1)直接法/間接法
第12回 標準化(2)excelでの計算
第13回 スクリーニング(1)特性を示す指標/ROC曲線
第14回 まとめ(1)
第15回 まとめ(2)および確認テスト
第1回 疫学に必要な統計(1)尺度,度数
到達目標統計が集団を対象としていることを理解する.
1-1 4つの尺度について理解する
1-2 度数分布表を作成することが出来る
統計に用いるデータ
基本どのようなデータでも統計処理は出来る出来ないのは,どのようなデータであっても一つしか存在しない時
データについて
レコード
症例,個体,被験者単位でまとめられたデータの塊.表の場合一行にその症例のすべてのデータを記していたらそれがレコード変数(変量)
データの項目名のことデータ
観測値や測定値のこと(数値)だけでなく性別など文字の場合もある.コンピュータ処理するとき,文字だと扱いにくい時があるのでその時は数字に置き換える(→コード変換)
例えば都道府県名であれば 北海道→01 青森県→02 奈良県→29
全国地方公共団体コードの上二桁=都道府県番号
<参考>全国地方公共団体コード(総務省) https://www.soumu.go.jp/denshijiti/code.html |
変量(データ)の分類
変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。それぞれを尺度と呼び、4つに分類するのが一般的である
1分類尺度(名義尺度)
2順序尺度
3間隔尺度
4比尺度(比例)(比率)
1,2を質的変量(定性的)
3,4を量的変量(定量的)
性質としては上位互換性があり
4>3>2>1
統計量
取りまとめたものを「量で」示したもの.質的変数であっても度数(個数,人数など数えるもの)については「量」として示すことが出来る度数
どのようなデータでも度数を示すことは可能度数分布表
それぞれのデータ(変量)の数(出現頻度)をまとめたもの変量が名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数 ・・・出現頻度
相対度数・・・総出現頻度を1(100%)としたときに、それぞれの度数がしめる割合
累積度数・・・上位の変量の度数もあわせた度数
累積相対度数・・・累積度数の相対版
品名 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|
いちご | 15 | |||
みかん | 8 | |||
ぶどう | 7 | |||
計 | 30 | 1.00 | ----- | ----- |
量的変数の度数分布表
量的変数の場合はその数値だけで度数を積み上げようにもなかなか上手くいかない場合がある.血圧 163.5mmHg 164.2mmHg 162.5mmHg・・・どれも度数を積み上げられない → 区間を設定する
「A~B」は「A以上B未満」と読む格好と思っていたが,分野などによって違うようです 「A以上B以下」のようにどちらの階級にも属してしまう可能性のある設定は絶対しないように. この授業では「A~B」は「A以上B未満」とします. |
階級 | 階級値 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|---|
130~140 | 135 | ||||
140~150 | 145 | ||||
150~160 | 155 | ||||
160~170 | 165 | ||||
170~180 | 175 | ||||
計 | ----- | ----- |
度数分布図
質的変数・・・縦棒グラフ量的変数・・・ヒストグラム
棒の間隔が無いのは値が連続している状態であるが故
普通の棒グラフは棒の長さが度数を示すが,ヒストグラムは棒の面積が度数を示す
「階級の幅を等しくすること」と説明している場合があるが,それは幅が変わると高さが変わる故で,実際にはそのような区間設定はよくある |
ヒストグラムーなるほど統計学園(総務省統計局) https://www.stat.go.jp/naruhodo/4_graph/shokyu/histogram.html |
例題
1)以下の店名別のみかんの売り上げデータより度数分布表を作成せよ店名 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|
1.00 | ||||
計 | 1.00 | ----- | ----- |
第2回 疫学に必要な統計(2)記述統計量
到達目標統計が集団を対象としていることを理解する.
2-1 代表値を求めることが出来る
2-2 散布度を求めることが出来る
記述統計量(代表値)
代表値と散布度からなる.←駅伝やマラソンの実況中継はこれらを利用しているから状況がわかる平均(Mean)
Averageってexcel関数ありますが,あれ代表値って意味です.算術平均
いわゆる割り勘.xbar=1/n(x1+x2+・・・+xn)欠点:外れ値があると平均値は分布の中心位置を示さない(←それって代表的な値??)
→ 対処法:外れ値を取り除くか中央値を使うか
幾何平均(相乗平均)
全て掛け合わせて累乗根をとる加重平均
重みづけ平均例えば ミニテストと期末試験の平均をとる → そのままの平均で良いの? 応用例
度数分布表から算術平均を計算
Σ(階級値×度数)/構成数
中央値
昇順に並べたときに,真ん中の順番のデータ(変数)の値データの数が偶数だと真ん中のデータは二つになるのでそれらの平均値
最頻値
最も個数が多いデータの値最頻値は複数存在する場合がある→二峰性
記述統計量(散布度)
範囲
最大値と最小値の差四分位範囲
IQR=第3四分位数(75%点)-第1四分位数(25%点)(参考:中央値=第2四分位数(50%点))第3四分位数(75%点)の算出方法は数多くありまして・・・
標準偏差
範囲を用いた散布度と違い,平均値からのバラツキ(差=偏差)の平均を求めようというものただし偏差の平均をとれば集団内の各々のズレっぷりがわかると思って計算しても → 合計は常に0 故に平均も常に0
そこで偏差を二乗したものの平均を取っている → 分散
標準偏差は分散の正の平方根をとったもの
授業中に示した分散,標準偏差を求める例題と計算結果
統計手法の考え方
量的変数をそのまま量的に取り扱う場合・・・平均値 標準偏差 パラメトリック検定・・・t検定(正規分布を用いた検定)量的変数を順序変数として取り扱う場合・・・中央値 四分位範囲/偏差 ノンパラメトリック検定・・・一標本Wilcoxon検定,Mann-Whitney検定
量的変数を名義(カテゴリー)変数として取り扱う場合・・・度数 カイ二乗検定
よく,パラメトリック検定を分布に依存すると表現している件
意味としてはノンパラ(順序=分布に依存しない)とは,取り扱うと,値の分布をキャンセルしている(バラバラに存在整列していたものを整列させる)ということ元々は量的変数.こちらの絵の通りで平均値(14.55)を求めたり標準偏差(4.23)を求めたり,母集団の推定のために不偏分散(19.67)求めたりt検定を行ったり.
こちらは分布なんて関係なく中央値(15)を求めたり,四分位偏差(2)求めたり,U検定を行ったり.
記述統計量の求め方で集団そのものの可視化ではなく,集団の一部である標本としたときに,母集団の推定に用いることが出来るのか
偏りが無ければ使える=均等にばらつくことが期待できるのであれば代表値(算術平均)
計算そのもので偏よることはない(標本が偏っているのであれば偏ってしまうが)散布度(分散 標準偏差)
計算そのもので偏ってしまう・・・(母集団の平均を標本の平均で推定しているが一致しないことが期待されるので)csv形式のファイルはコチラ
<参考>不偏分散は何故nではなく(n-1)で除するのか(生物統計学2018奈良医大)
https://medbb.net/education/nmubiostat2018/index.html#VAR
例題
以下の表より病院に勤務する理学療法士の平均値,中央値,範囲,標準偏差を求めよ.
CSV形式のファイルはコチラ
<資料>令和3年度病床機能報告の報告結果について(厚生労働省)
https://www.mhlw.go.jp/stf/seisakunitsuite/bunya/open_data_00008.html
第3回 疫学に必要な統計(3)点推定
到達目標統計が集団を対象としていることを理解する.
3-1 標本の算術平均は母集団の程よい推定値であることが説明出来る
3-2 標本の分散は母集団の程よい推定値ではないことが説明出来る
点推定
一つの数値(点)で推定値を示すこと欠点:推定値と真の値がどの程度ズレているのかよくわからない
利点:区間推定よりも簡単に算出できる
区間推定
ある確率分布に従うと仮定したときに、その分布に基づき、推定に幅を持たせもの欠点:点推定の計算に加え区間を求めるための計算が必要
利点:真の値を区間内に含む確率を示すことで,どの程度ズレているのか(なんとなく)わかる
不偏推定量
母数の推定=不偏推定量算術平均・・・母平均の点推定値
分散・・・母分散の推定値としたいところだが・・・
標本平均値は偏っていないが標本分散は偏っている
以下の例を見てもらうと
コチラをクリック
母平均の点推定
標本から求めた平均値は母集団の平均値の不偏推定量か?以下は20000のデータから標本数10の平均値を求めたもの(標本数2000)をヒストグラムにしたもの
標本平均の平均 125.0 =(本来知らないハズの)母平均
125.0未満の標本平均になった標本の数 1000(50.0%)
標本平均が125.0になった標本数 22(1.1%)
125.0を超えた標本平均になった標本の数978(48.9%)
母分散の点推定
標本から求めた分散は母集団の分散の不偏推定量となるのか?標本の平均値から求めた分散
以下は20000のデータから標本毎に求めた平均(標本平均)を用いて分散を求めたもの(標本数2000)をヒストグラムにしたもの母分散の値よりも低く出る標本が多い→偏っている
標本より求めた分散の期待値(平均)72.96 ≠ 80.97(本来知らないハズの)母分散
母平均から求めた分散
それでは母平均を用いて標本ごとの分散を求めると以下のようになる母平均より求めた分散の期待値(平均)80.97 = 80.97(本来知らないハズの)母分散
偏っていない推定が出来るが,そもそも母平均を用いることが出来るのであれば・・・
不偏分散(標本の平均を用いて母分散の推定を行う)
標本の平均を用いて計算すると,どうしても分散は小さくなる(母平均を用いたものと比較して))
<参考>不偏分散は何故nではなく(n-1)で除するのか(生物統計学2018奈良医大) https://medbb.net/education/nmubiostat2018/index.html#VAR |
ということで,標本平均を用いて母分散の推定を行うには,少し値を大きくしないといけない
上記の<参考は>母平均を用いた式を標本平均に置き換えて式を変化させた話 → 結論は偏差平方和を標本数nではなくn-1で除すると良い
標本より求めた統計量(一部)
第4回 疫学に必要な統計(4)平均値の区間推定
到達目標統計が集団を対象としていることを理解する.
4-1 中心極限定理を説明できる
4-2 100%の信頼区間の推定に意味が無いことを説明できる
区間推定に向けて
ある確率分布に従うと仮定したときに、その分布に基づき、推定に幅を持たせる平均値の推定には標本の平均と標準偏差と確率分布が必要
確率分布
正規分布
二項分布(試行回数nと成功の確率p)→(試行回数を無限大 確率を一定)→正規分布起こる確率(チャンスを掴む確率)が一定であるとしても積み重ねていくことでバラツキ(差)が出てしまう
人など生物の成長に関わるものなどは、正規分布に近いとされている
平均値μと分散(標準偏差)により分布が決まる
常に曲線下の面積=1(100%)。といって裾野は広がるばかりで閉じない
中心極限定理によりかなり強力
中心極限定理
母集団の分布によらず、抽出した標本の平均値は表本数が大きくなるほど近似的に正規分布に従う標準正規分布表
標準正規分布表のPDF版はコチラから
標準偏差と標準誤差
・標準偏差は標本の分布のバラツキ具合を示したもの・標準誤差は母集団から抽出した標本の平均値のバラツキ具合
SE=σ/√n
標準誤差SEはなぜ標準偏差σを√nで除するのか
標準誤差は母平均に対する標本平均のバラつき指標(標準偏差)の話対象が母集団全体ならば0だが,母平均(μ)と標本平均(xbar)には差が生じる
ある標本における平均値と母平均の偏差平方は
(xbar-μ)2
=((1/n)Σxi-μ)2
=((1/n)Σxi-(1/n)Σμ)2
=((1/n)Σ(xi-μ))2
=(1/n)(1/n)Σ(xi-μ)2
-----
ここで
(1/n)Σ(xi-μ)2
をσ2とおくと
-----
=σ2/n
故に標準誤差は
SE=σ/√n
区間推定の確率
母数が含まれる確率・・・入る幅を持った推定値(中心極限定理により正規分布に近似)
標本平均に幅を持たせることで、その枠内に母平均が入る。→平均値のバラつき具合が標準誤差 SE=σ/√n
式で示すと
95%の信頼区間の場合下限:標本平均-1.96×標準誤差
上限:標本平均+1.96×標準誤差
(1.96は標準正規分布表で確認)
例題
ある大学の学生(19歳)16人の50m走の結果であるこのデータより,全国の大学生の50m走の平均値の95%信頼区間を推定せよ
本日の課題
例題と同じく,あるサークルの学生の50m走のデータより,全国の大学生の50m走の平均値の95%信頼区間を推定せよ課題の計算結果
補足
疫学の教科書ではP266-169,175-177に相当します例題で求めていたのは以下の式になります
上限 7.40+1.96×0.46÷4
下限 7.40-1.96×0.46÷4
標準偏差(0.44)ではなく不偏分散に基づく標準偏差(このページではそれを不偏標準偏差としています)を使っているというところがポイントでしょうか(母集団の標準偏差が分かっていないので標本から推定)
この授業では正規分布で推定しましたが(それしか説明していないので),通常はt分布を用います.
これは今回の標本数(16)が少ないので正規分布で区間推定した場合(95%の場合だと1.96)実際には95%の確率よりも低くなります.そこで困った技術者ゴセットさんがt分布を発見しました.
ここから先の話(t分布以降)は,本授業で取り扱いはしません.
ただし,世の中では上記の事情からt分布を用いた推定や検定が行われます
関心を持った方は以下の授業資料をご覧ください.
無論不明点などありましたらご連絡ください.対応します.
下記の授業資料がt分布による推定の話になります
https://medbb.net/education/ocrstat2021/#5
(第5回 推測統計(Ⅱ)-推定 大阪リハビリテーション専門学校 統計学2021)
第5回 疫学に必要な統計(5)平均値の検定
到達目標2-1仮説検定の手順について説明できる
教科書P170-174
仮説検定
<大前提>やみくもに検定するのではなく、検定する理由・確信があるから確かめる という感じで手順1:仮説をたてる(帰無仮説H0および対立仮説H1)
例
H0 μ=μ0H1 μ≠μ0
μが対象とする母集団の平均 μ0は母集団から抽出した標本の平均(=母集団の平均の推定値)
背理法に基づく証明をしている。
(差がない仮説が証明できないので、その対立である差がある仮説を採択する)
手順2:有意水準を決める
確率的に必然と偶然を切り分けている。一般に5%で分けているが1%の時もある
手順3:検定統計量を計算する
その事象の起こる確率を計算していることになるが、用いる確率分布によって計算式が異なる。
例
Z検定の場合はZ値が検定統計量.Z値は値を0,標準偏差(分散)=(平均値の話の場合は標準誤差)を1として変換したもの
全国模試の平均点が60標準偏差が8点だった.自身の会場では16人で試験を行ったとき平均点が66点だった場合
全国模試の平均点を0にすると16人の試験の平均点は6点(66-6)
全国模試の標準偏差が8点だった時,16人で試験を行った時の平均値の標準誤差は8/√16=2
Z値は6/2=3.0
手順4:有意水準と比較し、仮説を棄却採択する
例
有意水準両側5%の時のZの境界値は標準正規分布表より1.96帰無仮説H0を棄却し対立仮説H1採択
検定と推定の違い
推定検定
Z検定
標準正規分布を用いた検定先週の推定と同じもの.Z検定は基本ではあるが適用できないケースが多くt検定がよく使われるが,統計の授業になってしまうので本授業では割愛
αエラー βエラー
教科書P171表2第一種の過誤
αエラーの起こる確率(誤って有意差があると判定)=有意水準
エラーを気にしなければいつの日か、都合の良い結論が得られるかもしれない → 雨乞い
故にやみくもに検定するのではなく、至るまでのストーリーが大切
第二種の過誤(βエラー)・・・誤って一緒と判定する確率
βエラーの起こる確率(誤って有意差が無いと判定)=検出できない=1-検出力(Power)=β
検出力=1-β
サンプル数↑・・・検出力↑・・・β↓
一般に検出力0.8~0.9で違いを見積もった上でサンプル数を決定する
検出力をが上がるとβエラーの確率は下がるが,統計的有意差と臨床的有意差の話が出てくる.
仮説検定は用法を守り正しく使いましょう
例題
我が国における男子中学生の50m走の平均タイムは8秒02,標準偏差は0.75秒だった皆さんが特別に指導している男子中学生のチーム64人のタイムを計り平均を求めたところ7秒92だった.
果たして皆さんの指導によるタイムは平均的な指導によるものと異なるのか有意水準5%で検定せよ
課題
我が国における男子中学生の身長は平均160.05cm,標準偏差は7.66であった.皆さんが特別に指導している男子中学生のチーム64人の身長を測定したところ,165.80cmであった
全国平均と異なる集団なのか有意水準5%で検定せよ
参考資料
令和元年度全国体力・運動能力、運動習慣等調査結果(スポーツ庁)https://www.mext.go.jp/sports/b_menu/toukei/kodomo/zencyo/1411922_00001.html
第6回 これまでのまとめおよび確認テスト
到達目標6-1これまでの講義の内容を理解している
6-2標準正規分布を用いた推定,検定が出来る
確認テストの結果はシラバスの通り全体の評価の20%とします
第7回 疾病頻度
到達目標7-1疾病の定義について説明できる
7-2疾病頻度測定の指標について説明できる
言葉の整理
疫学とは
ある人間集団単位における健康状態の頻度分布の観察ある集団とは地域であったり年齢であったり・・・・
科学的に原因が解明されていなかったとしても,集団の特性と頻度分布の関係を見出せば,原因が未知でも問題を解決できることもある.
集団単位の設定が原因解明の限界になるので,それだけで真の原因に辿り着くとは限らない.
日本疫学会で示している定義は以下を
<参考>
疫学(疫学用語の基礎知識 日本疫学会)
https://jeaweb.jp/glossary/glossary001.html
疫学の目的
公衆衛生の発展に寄与 → 疫学は集団を対象としている公衆衛生→集団に寄与する→保健
個人衛生→個人に寄与する→保健~医療
公衆衛生の定義
「公衆衛生とは、生活環境衛生の整備、感染症の予防、個人衛生に関する衛生教育、疾病の早期診断と治療のための医療・看護サービスの組織化、および地域のすべての人々に健康保持に必要な生活水準を保証する社会機構の整備を目的とした地域社会の組織的努力を通じて、疾病を予防し、寿命を延ばし、身体的・精神的健康と能率の増進を図る科学であり技術である。」(Winslow,1920年)<引用>
公衆衛生医師について(全国保健所長会)
http://www.phcd.jp/02/j_ishi/
疾病
健康状態が通常の状態から逸脱した状態の一つ・・・病気にかかる専門的な判断により疾患・・・何らかの原因により他者が健康から逸脱した状態を確認できる
無論原因が不明の疾患も存在する → 疫学的アプローチ
アウトカム
どのような事象(イベント)があるのか疾病の場合
・死亡
・罹患
・寛解・・・症状が治まっている状態
・治癒
曝露
必ずしも浴びるわけではない.状況にさらされている という イメージ.
居住地も曝露
危険因子・・・疾病の発生確率の上昇に寄与するもの
危険因子は疾病発生よりも前に存在している
曝露も定義の話が出てくる
予防
危険因子の存在を遠ざける遠ざけられる危険因子もあれば,出来ないものもある
可能な限り発生する確率を下げる→限りなく下げようとすると自由度が無くなっていく
COVID-19の感染予防のマスクの話は,社会全体でみると感染予防の効果が期待できるが,個人で見た場合マスク着用により自身の感染防止をあまり期待できない(=他者に対する感染予防が期待)ところが,社会工学の観点から上手く回らないところがつらい
割合と比と率
割合(比率)
proportion全体に対してその一部がどの程度占めるか割ったもの・・・単位は無次元になる
0~1の間の値をとるpercentで表示したりする。100%を超えるのは本来おかしい
例)日本人の血液型の割合
A型 約40%
B型 約20%
O型 約30%
AB型 約10%
比
ratio異なるもので割ったもの・・・単位は無次元の場合もある
例)BMI(Body Mass Index)
身長の二乗(m^2)に対する体重(kg)の比
身長170cmで体重70kgの人のBMI・・・70/(1.7^2)≒24.2
検査表の見方(日本人間ドック学会)
http://www.ningen-dock.jp/public/method
率
rate時間に対する何かの量の比・・・単位は無次元の場合もある
変化を表す指標
例)時速
マラソン(42.195km)を2時間6分で走った場合の時速・・・42.195/2.1≒20.1km/h
100m走を10秒で走った場合の時速・・・0.1/(10/3600)=36km/h
無次元の例としては稼働率
稼働率(JIT基本用語集)
http://www.lean-manufacturing-japan.jp/jit/cat241/post-74.html
時間を時間で割るので無次元
人年の計算法
死亡率を例として一人の人を一年観察したとき1人年
人年に対する何かの量の比・・・率になる
例)5人の患者を1年間観察していた時に二人死亡
Aさん 1年後生存
Bさん 3ヶ月後に死亡
Cさん 9ヶ月後に死亡
Dさん 1年後生存
Eさん 1年後生存
<本来の死亡率算出>
観察人年=1+0.25+0.75+1+1=4人年
その間の死亡数が2なので
2/4=0.5/年「1人年対0.5の死亡率」
<年央人口を用いる方法だと>
6ヶ月経過の時点での生存者4人
1年経過後の集団の死亡数が2なので
2/4=0.5/年
イベント以外での脱落も考慮したものはP21で
疾病頻度測定の指標
罹患率・・・率累積罹患率・・・割合
有病率(時点有病率)・・・割合
期間有病率・・・割合
死亡率・・・率
致命率・・・比もしくは割合
<参考>
厚生労働統計に用いる主な比率及び用語の解説(厚生労働省)
http://www.mhlw.go.jp/toukei/kaisetu/index-hw.html
人年法の計算と利用方法,青木伸雄,日本循環器管理研究協議会雑誌 26(1),64-66,1991
https://www.jstage.jst.go.jp/article/jjcdp1974/26/1/26_1_64/_article/-char/ja/
本日の課題
220人の患者を1年間観察しました. この一年でAという疾患に罹患した方は15名,その他で脱落(転居等)が25名でした.罹患率を求めてください(単位は千人あたりの年間の人数で)
第8回 疫学研究(1)横断研究,コホート研究
到達目標8-1 横断研究とコホート研究の違いついて説明できる
8-2 コホート研究と回顧的コホート研究の違いについて説明できる
8-3 コホート研究と症例対照研究で適切な指標で相対危険(度)を求めることができる
記述疫学
特段曝露について触れたものではないただし,人,場所,時間という曝露はあるが
記述統計と言われるものと同じ格好で,状況を可視化するもの
生態学的研究
集団レベルで曝露と疾病頻度の関係をみる.仮説を形成するところまで
個人レベルで曝露と疾病頻度に関係が無くても集団レベル(代表値)で行うと,関係が見えてくる場合がある → 後ほど
横断研究
曝露と疾病発生を同時に評価・・・どちらも妥当性が高い・利点(調査コスト)
・欠点(どちらが原因?)
因果関係
原因が先行して存在する.結果は後両者に因果関係があるときは相関関係にある
両者に相関関係があるからといって因果関係があるとは限らない
相関
correlative相関関係がある・・・関連がある
相関関係が無い・・・関連がない
他方の影響を受けるか受けないか
因果
cause and effect原因と結果
因果関係がある・・・影響がある
因果関係が無い・・・影響がない
散布図
X軸とY軸に一つの対象に与えられるそれぞれの値をプロット(例:身長と体重)とりあえず図にすると関係が直感的にわかる(場合がある)
図は散布図に回帰直線を描いたもの.関係性が高いほどそれぞれの点は回帰直線に近くなる
(回帰直線は高校で習っている方もいるが,求め方についてはこの授業では範囲外とします)
決定係数
相関係数を二乗したもの数式によって説明できる割合を示す。(寄与率とも)
高ければ高いほど数式で説明出来る
相関係数
-1から1までの値をとるXが増加すればYも増加する・・・1
Xが増加すればYは減少する・・・-1
Xが増加しようが減少しようがYは関係ない・・・0
X軸で見たときのバラツキ具合とY軸で見たときのバラツキ具合を元に計算してる
バラツキ=散布度・・・分散・・・偏差の二乗の平均
共分散=ある対象のX軸の偏差とY軸の偏差を乗じたものがベース
Xの偏差 | Yの偏差 | 乗じた結果 |
---|---|---|
+ | + | + |
+ | - | - |
- | + | - |
- | - | + |
共分散はX軸Y軸のバラツキ具合が混ざっているのでそのままの数字だと解釈しにくい→XとYの標準偏差で除する(正規化)→相関係数
相関を求める際の注意点
代表値で相関をみた場合と,個体ごとに相関をみた場合では異なる結果になることがある
交絡
普通は関連がある(相関がある)=影響を及ぼす関係(因果関係がある)と考える(考えたくなる)
例
たばこを吸う-肺がん・・・・相関関係○
タバコを吸う人にコーヒーを飲む人が多いのは・・・(yahoo知恵袋)
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1293675642
この関係を使うと
コーヒーを飲む-肺がん・・・相関関係○
コーヒー愛飲者に肺がんが多い理由は?生活習慣との関連を検証
アメリカで約50万人を対象にした調査から
from International journal of epidemiology
http://medley.life/news/item/5589521b660815fe00d5ec8e
コーヒーと肺がんの相関関係に割り込んでいる(どちらとも相関関係がある)状態=交絡
割り込んでいるそれ=交絡因子・・・たばこ
コーヒーと肺がんに因果関係が無いとしたならその関係は疑似相関
コホート研究
コホート・・・追跡する集団
結果より原因が先行する・・・原因(曝露)に基づく集団・・・曝露情報の妥当性が高い
・利点(時間の流れに沿った解釈が出来る 稀な曝露に対応できる)
・欠点(追跡にコストがかかる 稀な疾患には対応困難)
回顧的コホート研究
過去に曝露情報が明らかになっている集団を現在から遡る
現存する資料のみ・・・コホート研究と対極的.観察の方向性はコホート研究と同じ
・近年は保険請求のデータなどを用いた分析なども行われている
(情報の二次利用)
(奈良県立医科大学大学院看護学研究科 地域医療学(分担:データ分析編) より)
データは目的に応じて丸めたり切ったりしてしまう。故に二次利用の場合は注意が必要。
とりあえず収集してデータベース構築をすることが目的ならば、分析は既に二次利用。耐えうるデータを目指さなければ意味が無い
・一次データは情報源からダイレクトに取得するので粒度を目的にあわせてコントロールしている
・二次データは本来の目的と異なるデータ活用となるので、その目的に対してデータの粒度があわない事がある(細かい場合は粗くできるが粗いものは推定するしかない)
相対危険
relative risk
説明用データ
疾病発症 | 疾病無 | 計 | |
---|---|---|---|
曝露有 | A | B | A+B |
曝露無 | C | D | C+D |
計 | A+C | B+D |
リスク比
Risk Ratio(RR)曝露(介入)の有る時と無の時の危険を示す指標の比
危険を示す指標には罹患率やら有病率やら死亡率やら
A~D:疾病発生頻度(頻度以外に罹患率やら有病率・・・)
曝露有群の発症リスク=A/(A+B)
曝露無群の発症リスク=C/(C+D)
リスク比=A/(A+B)/C/(C+D)
頻度について
集団の中でのイベント数(発生回数)説明用データや下記の参考では累積罹患(率)(つまり割合)で求めた話
無論罹患率や死亡率などでも求められる.(教科書P29参照)
本日の課題
1)無相関の散布図を描け2)以下のデータからリスク比を求めよ
不整脈あり | 不整脈なし | 計 | |
---|---|---|---|
曝露群 | 100 | 1900 | 2000 |
非曝露群 | 50 | 1950 | 2000 |
計 | 150 | 3850 | 4000 |
参考
相対危険(日本疫学会)https://jeaweb.jp/glossary/glossary017.html
フレミンガムでの試み(医学会新聞 医学書院)
https://www.igaku-shoin.co.jp/paper/archive/old/old_article/n2002dir/n2516dir/n2516_05.htm 第9回 疫学研究(2)症例対照研究,介入研究
第9回 疫学研究(2)症例対照研究,介入研究
到達目標9-1 コホート研究と症例対照研究の違いを説明できる
9-2 コホート研究と介入研究の違いについて説明できる
症例対照研究
症例群,対照群・・・過去に遡って追跡する集団観察の方向性では原因より結果が先行する・・・結果に基づく集団・・・疾病発生情報の妥当性が高い
・利点(短時間で行える 稀な疾患に対応できる)
・欠点(曝露に関する妥当性が低い)
相対危険(度)
Relative Risk・・・一般用語罹患率比,オッズ比などなど
説明用データ
疾病発症 | 疾病無 | 計 | |
---|---|---|---|
曝露有 | A | B | A+B |
曝露無 | C | D | C+D |
計 | A+C | B+D |
リスク比(振り返り+α)
Risk Ratio(RR)曝露(介入)の有る時と無の時の危険を示す指標の比
危険を示す指標には罹患率やら有病率やら死亡率やら
A~D:疾病発生頻度(頻度以外に罹患率やら有病率・・・)
曝露有群の発症リスク=A/(A+B)
曝露無群の発症リスク=C/(C+D)
リスク比=A/(A+B)/C/(C+D)
もし、発生頻度が低ければA+B≒B C+D≒D
リスク比≒A/B/C/D=AD/BC
オッズ比
Odds Ratio(OR)危険な事象が起きた場合と起きなかった場合の指標の比(=オッズ)について曝露(介入)の有無毎に求め比をとったもの
発症有群の曝露オッズ=A/C
発症無群の曝露オッズ=B/D
オッズ比=A/C/B/D
=AD/BC
上記のように発症頻度が低ければオッズ比とリスク比の近似値となる
本日の課題1
コホート研究(先週の課題のデータ)不整脈あり | 不整脈なし | 計 | |
---|---|---|---|
曝露群 | 100 | 1900 | 2000 |
非曝露群 | 50 | 1950 | 2000 |
計 | 150 | 3850 | 4000 |
不整脈あり | 不整脈無し | 計 | |
---|---|---|---|
曝露歴あり | 50 | 30 | 80 |
曝露歴無し | 50 | 70 | 120 |
計 | 100 | 100 |
2)なぜ症例対象研究では,コホート研究と異なり相対危険をリスク比で示すことが出来ないのか,説明せよ
対照
選択には性と年齢をマッチ病院対照
同一医療機関の受診者近隣対照
同居の家族,隣近所一般集団対照
介入
割り込む・・・被験者に強制的に曝露(起こる/起こらない)を割り付ける.普段,割り込みは意識して行っている(と思います).→私の前には割り込むが高級外車の車の前には割り込まない
研究者の意向が入ってしまうがチョイスしていない → 無作為割付
RCT(Randomized Controll Trial)無作為割付介入研究
介入研究の利点と欠点
交絡因子の制御が期待できる.→交絡は説明済み・・・対策は次回以降で介入は疾病予防に関するものに限定される
介入できないもの・・・家族,収入,学歴,職業などなど
介入結果の結果はreal worldを反映していないのでは ⇔ real world dataは実態を反映しているものの,そこから正しく知見を見出せるのか
非介入群への配慮
クロスオーバーデザイン他にもいろいろな方法が
倫理
教科書第11章参照疫学研究方法まとめ
表4-4,表4-6本日の課題2
介入研究とコホート研究の相違点について簡潔にまとめよ第10回 偏りと交絡
到達目標10-1 誤差には二つの要因からなっていることを説明できる
10-2 交絡因子に配慮できるようになる
時計がズレる理由 ①精度(月±15秒以内)) ②時刻合わせ(電波,177,誰かの時計etc)
母集団と標本
母集団・・・標的集団標本・・・・観察対象集団
標的集団=観察対象集団・・・全数調査 悉皆調査 センサス
センサスの語源(総務省統計局)
https://www.stat.go.jp/data/e-census/guide/about/alacarte/origin.html
標本・・・無作為抽出が原則
(昆虫標本は作為的)
標本から100%データを得られるわけでもない・・・観察集団
誤差の分類
偶然誤差と系統誤差偶然誤差 発生を抑えるのは困難・・・どうしようもないわけでもない(少なくする(精度を上げる)にはコスト(時間,回数等)を掛ける)
系統誤差・・・交絡と偏り(選択,情報,観察)
交絡・・・第7回参照の講義参照
選択・・・標本の抽出に関するあれこれ
情報・・・実態と異なる情報になってしまう.集団の特性によるところも
(観察・・・情報バイアスの一つ 観察者が知っているが故に影響を与えてしまうことP103面接者バイアス)
<参考>バイアスの種類とその対策(1)(若井建志, 大野良之,第34巻 日循協誌 第1号)
https://www.jstage.jst.go.jp/article/jjcdp1974/34/1/34_1_42/_pdf
バイアスは他にも色々
<参考>質的研究で避けるべき7つのバイアス(エディテージ・インサイト)
https://www.editage.jp/insights/7-biases-to-avoid-in-qualitative-research
検定か推定か
4~5回目の講義参照有意差検定が無意味な場合
有意水準5%で差が見られた場合でも,着目すべきものといえるかどうかは別な部分もある→統計的有意差と臨床的有意差の話
効果量に対する必要データ数を可変させたものが以下
各群10データで検定すると10kg程度となるが、そこまで体重が変化しているとなにか違う出来事が起こっている気がする
各群1000データぐらいで検定すると1kg程度で有意な結果となるが、本当に意味あるのか気になる
<参考>その治療は臨床的に有益か(PEDro)
https://www.pedro.org.au/japanese/tutorial/is-the-therapy-clinically-useful/
<参考>統計的有意性とP値に関するASA声明
http://biometrics.gr.jp/news/all/ASA.pdf
以下抜粋しました
1. P値はデータと特定の統計モデルが矛盾する程度をしめす指標のひとつ
2. P値は、調べている仮説が正しい確率を測るものではない
3. 科学的な結論は、P値がある値を超えたかどうかにのみ基づくべきではない
4. 適正な推測のためには、すべてを報告する透明性が必要
5. P値は、効果の大きさや結果の重要性を意味しない
6. P値は、それだけでは仮説に関するエビデンスのよい指標とはならない
・データ数大きい場合は区間推定のほうが意味ある。
差異誤分類と非差異誤分類
図5-5説明できるように(数式出てきて変数が沢山出てくるとギョッとしますよね)
交絡因子とその制御
性と年齢と人種は交絡因子として扱われる計画段階で可能なこと,解析段階で制御する方法もある・・・後回ししたくなるから解析に頼りたくなるが・・・
計画段階
無作為割付
曝露(介入)と非曝露(非介入)を無作為に割り付け限定
交絡因子の一つの状態のみ対象マッチング
交絡因子の分布が曝露と非曝露群の間で均等に解析段階
層化
交絡因子の層ごと(分類ごと)に解析数学的モデリング
多変量解析→教科書第10章参照第8回での話をしたが,それは2変量の関係の話
本日の課題
示したデータより,どのような事に気がつき,どのような理由が想定されるか自身で考え本授業修了時に提出のことなおミニテストの取り扱いとして評価する
資料
集計表ダウンロード-がん情報サービス(国立研究開発法人国立がん研究センター)https://ganjoho.jp/reg_stat/statistics/data/dl/index.html
補足 差異誤分類と非差異誤分類の関係を分かりやすくした資料
第11回 標準化(1)直接法/間接法
到達目標11-1SMRの計算ができる
11-2直接法と間接法の違いを説明できる
集団間の比較において年齢構成による影響をを除く話
年齢調整死亡率
年齢によって死亡率が変わるのは自明年齢で区切って死亡率を評価する
直接法
モデル人口を用意して観察集団の年齢階級別(粗)死亡率をモデル人口における対象とする年齢階級の割合を乗ずる方法例題 A市
年齢階級 | 死亡率(人口10万対) |
---|---|
年少人口(~15) | 60 |
生産年齢人口(15~65) | 250 |
老年人口(65~) | 3000 |
年齢階級 | 死亡率(人口10万対) |
---|---|
年少人口(~15) | 50 |
生産年齢人口(15~65) | 200 |
老年人口(65~) | 4500 |
年齢階級 | 人口 |
---|---|
年少人口(~15) | 25,015,000 |
生産年齢人口(15~65) | 82,654,000 |
老年人口(65~) | 12,618,000 |
総人口 | 120,287,000 |
昭和60年モデル資料
平成29年度人口動態統計特殊報告 平成27年都道府県別年齢調整死亡率の概況(厚生労働省)https://www.mhlw.go.jp/toukei/saikin/hw/jinkou/other/15sibou/index.html
「1.年齢調整死亡率について」を参照
間接法
モデル人口を用意してモデル人口における年齢階級別死亡率を観察集団の年齢階級別人口を乗ずる全年齢の死亡数を求め積算したもので,観察集団の死亡数を除する.
例題 C市
年齢階級 | 人口構成 | 死亡期待数 | 実際の死亡数 | SMR |
---|---|---|---|---|
年少人口(~15) | 130,000 | ----- | ----- | |
生産年齢人口(15~65) | 700,000 | ----- | ----- | |
老年人口(65~) | 200,000 | ----- | ----- | |
計 | 1,030,000 | 9,000 |
年齢階級 | 人口構成 | 死亡期待数 | 実際の死亡数 | SMR |
---|---|---|---|---|
年少人口(~15) | 200,000 | ----- | ----- | |
生産年齢人口(15~65) | 500,000 | ----- | ----- | |
老年人口(65~) | 330,000 | ----- | ----- | |
計 | 1,030,000 | 9,000 |
年齢階級 | 人口10万対 |
---|---|
年少人口(~15) | 40 |
生産年齢人口(15~65) | 200 |
老年人口(65~) | 3,000 |
課題
1)例題のA市B市の年齢調整死亡率を算出・比較し,直接法の利点・欠点について考察せよ2)例題のC市D市のSMRを算出・比較し,間接法の利点・欠点について考察せよ
計算例
第12回 標準化(2)excelでの計算
到達目標12-1 標準化の計算がexcelで出来るようになる
以下のデータより2020年度,2023年度のA市B市は直接法で年齢調整死亡率を,C市D市は間接法でSMRを求めよ
なお,2020年度のデータは前回の講義で用いたデータと同一である. CSV形式なのでダウンロード後エクセル形式で保存のこと
A市B市の年齢階級別死亡率
基準集団の年齢階級別人口
C市D市の年齢階級別人口
C市D市の死亡数
基準集団の年齢階級別死亡率
第13回 スクリーニング(1)特性を示す指標
到達目標13-1 感度,特異度,偽陽性率がどのようなものか説明できる
教科書P134~
スクリーニング
二次予防を目的参考
3.奈良県の医療計画(「コンソーシアム実習」地域医療学概論(分担:奈良県の地域医療(行政から)(奈良県立医科大学医学部医学科 ・早稲田大学))の「保健と医療」参照のことhttps://medbb.net/education/wasedanmucom2023/#3
無症状だがある疾患に罹患している可能性のある集団に検査
①重篤 ②経過の変化が期待できる ③有病率が高い
望ましい検査と現実
感度と特異度
感度=P(陽性|D) 疾患群における真陽性の割合偽陽性率=P(陽性|Dc) 非疾患群における偽陽性の割合
特異度=1-偽陽性率 非疾患群における真陰性の割合
予測値
有病率の影響を受ける
陽性的中率=P(D|陽性)
陰性的中率=P(Dc|陰性)
参考
File 3. 検査結果と有病率の関係(JMP-SAS Institute Inc.)
https://www.jmp.com/ja_jp/medical-statistics/column/non-series/test-results-prevalence.htmlROC曲線
判別度の分析感度と偽陽性率(1-特異度)を用いて曲線を描く
量的なデータも質的な評価も用いることが出来る.
例題
疾患群 | 14.3 | 15.2 | 13.8 | 14.1 | 13.9 | 12.6 | 14.2 | 14.6 | 13.1 | 13.7 |
非疾患群 | 13.2 | 14.1 | 13.8 | 13.6 | 12.9 | 12.4 | 12.1 | 12.3 | 12.3 | 12.8 |
それらのデータよりROC曲線を描け