奈良県立医科大学 保健統計学II2023
(医学部看護学科)

教科書

1)基礎から学ぶ楽しい保健統計(医学書院)
演習用EXCELファイル
2)公衆衛生がみえる(メディックメディア)

授業メニュー

第01回 既存の統計資料の入手と活用(1)厚生労働統計(医療)

第02回 既存の統計資料の入手と活用(2)厚生労働統計(健康)

第03回 既存の統計資料の入手と活用(3)文部科学省,総務省の統計資料

第04回 パラメトリック検定とノンパラメトリック検定

第05回 割合の推定と検定

第06回 相対危険

第07回 判断分析-感度・特異度・ROC曲線

第08回 まとめ

第01回 既存の統計資料の入手と活用(1)厚生労働統計(医療)

到達目標
1-1 看護師等学校養成所入学状況及び卒業生就業状況調査のデータを利用することが出来る
1-2 保健師の進路状況の年次推移を把握しまとめることが出来る.

教科書1)P58-59
教科書2)P81

取り扱うデータ形式について

ohsustat2020-0106.png(338767 byte)
ネットワーク上で取り扱えるデータは全て0,1の何れかの数値の羅列.
皆さんがスマホやPCで見ている各種データは人にわかるように表示している
ohsustat2020-0107.png(352827 byte)
拡張子によって人はデータの形式を知ることができる
ohsustat2020-0108.png(321674 byte)
CSVはシンプルな形式なので,様々なソフトで取り扱うことができる

厚生労働統計(医療)

医療は「2.保健衛生」の中で3項目からなっている.
https://www.mhlw.go.jp/toukei/itiran/index.html#anc-02

衛生行政報告例

https://www.mhlw.go.jp/toukei/list/36-19.html
e-stat上のデータはcsv形式

看護師等学校養成所入学状況及び卒業生就業状況調査

https://www.mhlw.go.jp/toukei/list/100-1.html
e-stat上のデータはエクセル形式

注意しておくこと

どのような格好で調査をしたデータなのか
誰が回答しているのか
どのような目的による調査なのか
ある目的を持って取得したのが一次データ,使いまわしが二次データ(目的が異なる)
joho20150613-5.png(149915 byte)
joho20150613-9.png(155694 byte)

課題(提出不要)

大学を卒業後の進路調査

どのような格好で調査をしたデータなのか

看護師等学校養成所入学状況及び卒業生就業状況調査を用いて
2022年度と2017年度を比較して卒業生の比較(全国と各都道府県)
それぞれ以下の項目に関するデータを処理し,グラフで示すなど工夫して作成し考察も行ってください
卒業者数の変化
卒業生の就業状況(保健師・助産師・看護師)の変化
卒業生の性別比の変化の変化

補足

第02回 既存の統計資料の入手と活用(2)厚生労働統計(健康)

到達目標
2-1 国民生活基礎調査と患者調査の違いについて説明することが出来る
2-2 国民健康・栄養調査のデータを基に分析できる

教科書2)P62-65(国民健康基礎調査)P180(健康増進法)

2.4.健康(健康増進)-厚生労働統計一覧(厚生労働省)

https://www.mhlw.go.jp/toukei/itiran/index.html#anc2-4

国民生活基礎調査

https://www.mhlw.go.jp/toukei/list/20-21.html

国民健康・栄養調査

https://www.mhlw.go.jp/bunya/kenkou/kenkou_eiyou_chousa.html

課題(提出不要)

国民生活基礎調査より「悩みやストレスのある者数」について都道府県別に増減を調べ図表を作成せよ
年齢階級別のデータなので,自身が興味を持っている年齢階級,もしくは相談状況を限定して作成しても差し支えない
なお,2019年(令和元年) 2016年(平成28年)2013年(平成25年)のデータを用いることと,考察も行ってください

第03回 既存の統計資料の入手と活用(3)文部科学省,総務省の統計資料

到達目標
3-1 学校保健調査の調査対象と調査項目を理解しデータを利用することが出来る
3-2 社会生活基本調査の調査対象と調査項目を理解しデータを利用することが出来る

教科書2)P334-342

学校保健統計調査(文部科学省)

https://www.mext.go.jp/b_menu/toukei/chousa05/hoken/1268826.htm

演習

高校生の都道府県別肥満傾向児の出現率をまとめて,どのような傾向があるのか考察せよ

社会生活基本調査(総務省統計局)

http://www.stat.go.jp/data/shakai/2021/index.html

演習

調査票Aに基づく結果 生活時間に関する結果の「スマートフォン・パソコンなどの使用時間,年齢,行動の種類別総平均時間」より
15-19歳の男女それぞれがスマホPCの利用時間が行動時間に影響を与えているのかまとめよ

補足

第04回FTF パラメトリック検定とノンパラメトリック検定

到達目標
4-1 パラメトリック検定とノンパラメトリック検定の違いを説明できる
4-2 コンピュータを用いたt検定が出来る

パラメトリック検定とノンパラメトリック検定

パラメータに基づく検定とパラメータに基づかない検定
パラメータ=母数(母平均,母分散,母標準偏差・・・)
パラメーターに基づかない・・・母数を推定しその差異をみる方法を使わない
母数の推定をを使わずに見出す・・・量的変量の分布を関係なくす→質的変量(順序尺度)にして度数を用いる

分布に依存しないとは

nmuhimstat2021-11.png(10411 byte)
パラメトリック・・・元々は量的変数.こちらの絵の通りで平均値(14.55)を求めたり標準偏差(4.23)を求めたり,母集団の推定のために不偏分散(19.67)求めたりt検定を行ったり.
nmuhlthstat202102-01.png(21147 byte)
ノンパラメトリック・・・大小関係より中央値
こちらは分布なんて関係なく中央値(15)を求めたり,四分位偏差(2)求めたり,U検定を行ったり.

パラメトリック検定

教科書1)P73

対応のある2群間の平均の差

保健統計学Ⅰでは電卓を使い計算したが,実際にはPCを用いて処理するであろう
P76図4-4
教科書で用いている関数はTINV.
両側確率なのでご注意を
nmuhlthstat2_2022-0401.png(12077 byte)
教科書と異なり,確率を求めることが出来ます
nmuhlthstat2_2022-0402.png(7698 byte)

対応のない2群間の平均の差

対応が無い場合,2群の標本数は一緒にならないケースが多い

例題

例題1

リハビリ前後で患者さんの動作にかかる時間を測定したところ以下の結果になった.
効果があったのか検定せよ
CSVデータはコチラ

例題2

SSDSE-基本素材(SSDSE-E)
https://www.nstac.go.jp/sys/files/SSDSE-E-2023.csv
をダウンロードし都道府県別の中学と高校の生徒数に違いがあるか検定をせよ
また,都道府県単位で小学校と中学校の学校あたりの在籍人数を求め違いがあるか検定せよ
<参考>SSDSE(教育用標準データセット)(独立行政法人統計センター)
https://www.nstac.go.jp/use/literacy/ssdse/

ノンパラメトリック検定

仮説検定の手順は変わらない
検定統計量を求めて確率と比較することは変わらない(どのような?)
確率分布を作ることが出来る(組み合わせなので)
群を直接比較して順位付けをした場合,互いの順位の和が大きく異なっていたら違う という方法
統計量から判断する検定表はP86
Tの限界値は以下で求めていますがP=0.01のところN=15のP-0.01は15となるので訂正を
n=5の所が空欄になっている件
この検定表は自分で作成できます.
nmuhlthstat2_2022-0403.png(4651 byte)
以下のファイルをダウンロードしてください
nmuhlthstat2_2022-0402.csv
N=15の所を訂正する件
nmuhlthstat2_2022-0404.png(4228 byte)
標本数が大きくなると標準正規分布を用いているのもうなづけると思います.
以下のファイルをダウンロードしてください
nmuhlthstat2_2022-0403.csv
図4-9
ダウンロードしたデータは順位なども既に入っているが実際には・・・
解説しながら自身で集計する一例を解説します

第05回 割合の推定と検定

到達目標
5-1 カイ二乗検定について説明できる
5-2 個票データを用いてカイ二乗検定が出来る

カイ二乗分布

χ2乗分布・・・母分散を推定できる確率分布
χ=ΣZ
平均からのズレの平方をとったものを足し合わせていく→偏差平方和
標準正規分布に従う独立した確率変数が1つの場合
χ=Z
<参考>独立した確率変数が二つの場合
χ=Z+Z

カイ二乗分布

母分散を推定できる確率分布
χ=ΣZ

カイ二乗分布表

t分布と同じく自由度により確率分布は変化する
カイ二乗分布(ν=1)の時のそれぞれの上側確率に相当する正規分布の確率(両側5%(片側2.5%ずつ)は全て上側に集約されてしまう
χ=((X-μ)/σ)
χ0.05=((1.96-0)/1)
例)標準正規分布で有意水準両側5%の場合の境界値はz=1.96.カイ二乗分布表より有意水準上側5%の時のカイ二乗値=3.84
nmuhims2022-02.png(176367 byte)
カイ二乗分布のPDF版はコチラから

ピアソンのカイ二乗

カイ二乗分布の話(X-μ)を(実際に出現した度数-出現が期待される度数(期待値))に置き換え
分散で除することで分子の差分を標準正規分布のN(0,1)にしていたものを,期待値で除して求めたものである.
(ポアソン分布であるとすると平均値=期待値=分散)
カイ二乗値=Σ(観察度数-期待値)/期待値

検定

適合度の検定

1行n列
事象の起こる確率に基づく頻度(=n×p)期待値(度数))と実際に観測された度数(観察度数)の差異について検定.帰無仮説(測定した分布は想定されている分布と等しい)H:P=(1/6,1/6,1/6,1/6,1/6,1/6)・・・サイコロの場合

独立性の検定

m行n列
こちらはそれぞれが独立しているか(関係があるか無いか)を検定
考え方は一緒
事象の起こる確率は実際に観測された度数を基に算出して全体の度数を乗じることで期待値(度数)とする.
nmuhlthstat1202106-02.png(3628 byte)
期待値は周辺度数より求める格好
nmuhlthstat1202106-03.png(3808 byte)
喫煙あり×コーヒー好きの期待値=100×90/160=56.25 以降も同様に全ての組み合わせで期待値を求める
喫煙あり×コーヒー好きのカイ二乗値=(75-56.25)/56.25=6.25 以降も同様に求め足し合わせる
χ=6.25+10.42+8.04+13.39=38.10
この集計表の自由度は1・・・χ0.05(1)=3.84
帰無仮説を棄却し対立仮説を採択.つまり関連がある.

例題1

1.コーヒーの好き嫌いが運動習慣に関連があるのかアンケート調査を行った.有意水準5%で検定を行え
nmubiostat202107-01.png(2907 byte)
2.上記の各セルの度数を勝手に倍にしてみた.(無論現実にはやってはいけない)同様に検定を行え
nmubiostat202107-02.png(2923 byte)

例題2

SSDSE-基本素材(SSDSE-E)
https://www.nstac.go.jp/sys/files/SSDSE-E-2023.csv
より奈良と近畿の他府県の転入者数と転出者数の関係を比較せよ

第06回 相対危険

到達目標
6-1 相対危険を示す指標にどのようなものがあるか説明できる 
6-2 コンピュータを用いてオッズ比を算出することが出来る
この授業では相対危険=Relative Risk は一般的な用語であり、その算出指標の一つにリスク比(Risk Ratio)があるのですがそれを相対危険としているケースもあり,言葉の整理が出来ていないところでもあります。

指標と調査方法との関係

観察研究(Observational study)

記述疫学
特段曝露について触れたものではない
ただし,人,場所,時間という曝露はあるが
記述統計と言われるものと同じ格好で,状況を可視化するもの
生態学的研究
集団レベルで曝露と疾病頻度の関係をみる.
仮説を形成するところまで
個人レベルで曝露と疾病頻度に関係が無くても集団レベルで行うと,関係が見えてくる場合がある → 謎理論誕生
横断研究(Cross-sectional study)
曝露と疾患を同時に評価
時間軸がない場合が多く(例外は性別など)因果関係までは不明になってしまいやすい

コホート研究(Cohort study)
対象に曝露している人々と非曝露群を設定、追跡調査していくスタイル
通常前向きだが、後ろ向きにみる回顧的コホート研究というのもある。(後々でも曝露群に関する情報がある場合)

症例対照研究(Case-control study)
ある状態(例えば病気に罹患している)群と、罹患していない群を設定、時間を遡って調査していくスタイル
後ろ向きにしか行えない(前向きだと曝露→疾患の順がおかしくなる)

実験的研究(介入研究)(intervention study)

コホート研究の場合、曝露群(介入群)を研究者が割り付ける → 被験者に対する倫理的配慮が肝要
無作為に割り付けることが出来る場合は交絡因子を制御できる(ことが期待される)
倫理的に考えると非介入群の方が不利益になってしまう可能性が高いので、配慮した研究デザインが求められる

説明用データ
疾病発症 疾病無
曝露有 A B A+B
曝露無 C D C+D
A+C B+D

リスク比

Risk Ratio(RR)
曝露(介入)の有る時と無の時の危険を示す指標の比
危険を示す指標には罹患率やら有病率やら死亡率やら

A~D:疾病発生頻度(頻度以外に罹患率やら有病率・・・)

曝露有群の発症リスク=A/(A+B)
曝露無群の発症リスク=C/(C+D)
リスク比=A/(A+B)/C/(C+D)
もし、発生頻度が低ければA+B≒B C+D≒D
 リスク比≒A/B/C/D=AD/BC

nmupnr2022-1101.png(337834 byte)
nmupnr2022-1102.png(335461 byte)

オッズ比

Odds Ratio(OR)
危険な事象が起きた場合と起きなかった場合の指標の比(=オッズ)について曝露(介入)の有無毎に求め比をとったもの

発症有群の曝露オッズ=A/C
発症無群の曝露オッズ=B/D
オッズ比=A/C/B/D
    =AD/BC
上記のように発症頻度が低ければオッズ比とリスク比の近似値となる

例題1

以下の個票データはコホート研究で得られたデータである.相対危険を求めよ
nmuhlthstat2_2023-0601.csv

例題2

以下の個票データは症例対照研究で得られたデータである.相対危険を求めよ
nmuhlthstat2_2023-0602.csv

第07回 判断分析-感度・特異度・ROC曲線

到達目標
7-1判別特性値の計算が出来る
7-2評価結果よりROC曲線を作成し評価やカットオフ値の検討が出来る


検査法の診断的有用性を評価する話
ocrotstat2022-0301.png(344953 byte)
疾患あり 疾患なし 指標
検査陽性 真陽性
a
偽陽性
b
陽性的中率
a/(a+b)
検査陰性 偽陰性
c
真陰性
d
陰性的中率
d/(c+d)
指標 感度
a/(a+c)
特異度
d/(b+d)
有病率
(a+c)/(a+b+c+d)

予測値

有病率の影響を受ける
陽性的中率=P(D|陽性)
陰性的中率=P(Dc|陰性)

感度と特異度

感度=P(陽性|D)  疾患群における真陽性の割合
偽陽性率=P(陽性|Dc) 非疾患群における偽陽性の割合
特異度=1-偽陽性率 非疾患群における真陰性の割合
ocrotstat2022-0302.png(394121 byte)
ocrotstat2022-0303.png(266829 byte)

検査法の評価指標

AUC=ROC曲線を描いて算出 検査の分別能

ROC曲線

教科書(P119)
判別度の分析
感度と偽陽性率(1-特異度)を用いて曲線を描く
ocrotstat2022-0304.png(355176 byte)
カーブが左上に行くほど検査特性が優れている.(=AUCが大きくなる)
判断基準は諸々の要素が入るが1,0と0,1の対角線と曲線の交わる部分が目安.あとは検査の目的などによって変わってくる

尤度比

ocrotstat2022-0305.png(364354 byte)
ocrotstat2022-0306.png(368301 byte)
ocrotstat2022-0307.png(364823 byte)

オッズ比

オッズ・・・値が高いほど感度が高い
オッズ比は疾患無しのオッズに比べ疾患有のオッズがどの程度高くなるのかの比

例題

2種類の検査法A,Bを施行したところ以下の結果を得た.
AUCを求めどちらの検査が優れているか評価せよ
A法
疾患群 14.3 15.2 13.8 14.1 13.9 12.6 14.2 14.6 13.1 13.7
非疾患群 13.2 14.1 13.8 13.6 12.9 12.4 12.1 12.3 12.3 12.8
B法
疾患群 14.3 15.2 13.8 14.1 13.9 12.6 14.2 14.6 13.1 13.7
非疾患群 13.2 14.3 13.8 12.9 14.4 14.4 12.1 15.3 12.3 12.8

例題2

以下の個票データよりどちらの検査が優れているか検証せよ
C法 ohsustat2023-1401.csv
D法 ohsustat2023-1402.csv