奈良県立医科大学 保健統計学II2022
(医学部看護学科)
7月21日のオンライン講義はzoomで行います(teamsが本日午前中から世界的に障害が発生していたため)
大学より各自にzoomの接続情報について連絡が届いているかと思います
届いていない場合は,大学に連絡するか私に連絡するか,なにかしらご連絡ください
私へ連絡
オンライン開講の場合は,teamsで実施します.
出欠は対面講義の場合は出欠システム(学生証)で,オンラインの場合は授業内で確認します.
g_保健統計学2022の授業配信チャンネル内に【保健統計学2022オンライン講義室】にアクセスしてください.
ワンクリックで入室する場合は【保健統計学2022オンライン講義室】をクリックしてください.
教科書
1)基礎から学ぶ楽しい保健統計(医学書院)演習用EXCELファイル
2)公衆衛生がみえる(メディックメディア)
授業メニュー
ハイブリッド形式での授業になります.第01回CMC 既存の統計資料の入手と活用(1)厚生労働統計(医療)
第02回CMC 既存の統計資料の入手と活用(2)厚生労働統計(健康)
第03回CMC 既存の統計資料の入手と活用(3)文部科学省,総務省の統計資料
第04回FTF パラメトリック検定とノンパラメトリック検定
第05回FTF 割合の推定と検定
第06回CMC 相対危険
第07回CMC 一致性
第08回CMC まとめ
第01回CMC 既存の統計資料の入手と活用(1)厚生労働統計(医療)
到達目標2-1 看護師等学校養成所入学状況及び卒業生就業状況調査のデータを利用することが出来る
2-2 保健師の進路状況の年次推移を把握しまとめることが出来る.
教科書1)P58-59
教科書2)P81
取り扱うデータ形式について
ネットワーク上で取り扱えるデータは全て0,1の何れかの数値の羅列.
皆さんがスマホやPCで見ている各種データは人にわかるように表示している
拡張子によって人はデータの形式を知ることができる
CSVはシンプルな形式なので,様々なソフトで取り扱うことができる
厚生労働統計(医療)
医療は「2.保健衛生」の中で3項目からなっている.https://www.mhlw.go.jp/toukei/itiran/index.html#anc-02
衛生行政報告例
https://www.mhlw.go.jp/toukei/list/36-19.htmle-stat上のデータはcsv形式
看護師等学校養成所入学状況及び卒業生就業状況調査
https://www.mhlw.go.jp/toukei/list/100-1.htmle-stat上のデータはエクセル形式
保健師の進路を調べるにあたって
どのような格好で調査をしているのか
Web調査のため書類が存在しないことを確認回答者は?
過去のデータはどこまで存在するか?
2015年度(平成27年度)まででまとめてみましょう
2014年度版はマクロが云々と出てくるので止めておきましょう.
以下のようなテーブルを作ってください
また,年次データを作る際に時系列でデータを並べようとする方に対してどのような配慮をしていたら良いのか考えてみてください
INDIRECT関数
使おうと思いましたが,やめておきますシンプルに別シートのセル参照で
出来上がりイメージ
PDFでご覧になりたい方はコチラ
画像でフルサイズをご覧になりたい方はコチラ
課題
授業内で作成したデータセットを用いて,円グラフ又は帯グラフを用いて卒業生の就業状況を示すグラフを作成しコメントを記せ保健師の勤務状況について衛生行政報告例によるデータと看護師等学校養成所入学状況及び卒業生就業状況調査のデータの差異について考察せよ
補足
目的に応じた図表類の作成は普段から意識しておいてください.状況を把握しないことには始まらないわけで
本日のファイル(途中)
第02回CMC 既存の統計資料の入手と活用(2)厚生労働統計(健康)
到達目標2-1 国民生活基礎調査と患者調査の違いについて説明することが出来る
2-2 国民健康・栄養調査のデータを基に分析できる
教科書2)P62-65(国民健康基礎調査)P180(健康増進法)
2.4.健康(健康増進)-厚生労働統計一覧(厚生労働省)
https://www.mhlw.go.jp/toukei/itiran/index.html#anc2-4国民生活基礎調査
https://www.mhlw.go.jp/toukei/list/20-21.html国民健康・栄養調査
https://www.mhlw.go.jp/bunya/kenkou/kenkou_eiyou_chousa.html課題
令和元年国民生活基礎調査 / 世帯 都道府県編1世帯票 第235表 世帯数,世帯人員・都道府県-21大都市(再掲)・世帯主の年齢(10歳階級)別
より以下のグラフを作成し都道府県により偏りがある理由を考察せよ.
補足
第03回CMC 既存の統計資料の入手と活用(3)文部科学省,総務省の統計資料
到達目標3-1 学校保健調査の調査対象と調査項目を理解しデータを利用することが出来る
3-2 社会生活基本調査の調査対象と調査項目を理解しデータを利用することが出来る
教科書2)P334-342
学校保健統計調査(文部科学省)
https://www.mext.go.jp/b_menu/toukei/chousa05/hoken/1268826.htm演習
以下のデータより 1)エクセルで下記のグラフ(肥満傾向児の出現率(%)男,女)を作成せよ2)肥満傾向児の出現率について性別による年齢別の傾向についてまとめよ.
3)肥満傾向児の出現率について何故5歳は突出して出現率が低いのか考えよ→Teamsで送ってください(Webの補足部分に名前伏せて掲載するかもしれません.イヤな人は嫌と書いてからコメント書いてください)
4)エクセルで下記のグラフ(裸眼視力1.0未満(割合%),むし歯(う歯)(割合%))を作成せよ
5)裸眼視力1.0未満(割合%)とむし歯(う歯)(割合%)の関係について学校種別でまとめよ
学校保健統計調査 / 令和2年度 年次統計(厚生労働省)
https://www.e-stat.go.jp/stat-search/files?page=1&layout=datalist&toukei=00400002&tstat=000001011648&cycle=0&tclass1=000001020135&tclass2val=0社会生活基本調査(総務省統計局)
http://www.stat.go.jp/data/shakai/2021/index.html補足
第105回保健師国家試験、第102回助産師国家試験、第108回看護師国家試験の問題および正答について(厚生労働省)https://www.mhlw.go.jp/seisakunitsuite/bunya/kenkou_iryou/iryou/topics/tp190415-03_04_05.html
第105回保健師国家試験問題 午後問題31
3)肥満傾向児の出現率について何故5歳は突出して出現率が低いのか考えよ の皆様の見解
(11)エネルギーバランス絶妙説
●3~5歳の食事摂取量に特に変わりはないが、5歳になると、体力や筋力、バランス力が大きく発達し、歩くスピードが大人と同じ速さになる。摂取エネルギーに比べ、消費エネルギーが増えることで、肥満になりにくいと考えた。
●5歳の子どもは、食事・おやつ・ジュースなどを自分で買ったりして調達することが難しく、親に管理されていると思うので、肥満になりにくいのではないかと考えました。また、幼児期は成長発達が著しく、多くの栄養を取っても、肥満になりにくいのではないかと考えました。
●5歳児は体力や筋力のほかバランスを取る能力が発達して、より複雑な動き、高度な運動遊び、歩くスピードも大人とほとんど変わらなくなる。4歳以前のデータはないが、他の年齢と比較しても就学前の5歳児は活動量が多いことが考えられ、摂取エネルギー量に比べて運動による活動量が大きく代謝が良いために他の年齢と比較して肥満傾向児の出現率が低いと推測する。
●5歳児の子供は、発達段階において急速に成長しており、歩く速度が大人と変わらなくなったり、ボールを投げる蹴るなど運動内容が大人と同じになりつつある。しかし、体の大きさに対し、運動量や消費カロリーが大きくなるため肥満になりにくいと考える。
●5歳児の肥満率が突出して低いのは、5歳という年齢は親が公園に連れて行って運動を促したり、食事やお菓子を与える量を親が左右していたりして、親が完全に健康を管理しているからだと考えました。
●5歳児は保育園や幼稚園での遊びの機会が多く、身体を動かす機会も多いと考えられる。しかし、小学校に入学すると、授業によって1日の大半を椅子に座って過ごすことになり、小学校入学前と比較して身体を動かす時間が大幅に減少すると考えられる。そのため、小学校入学前である5歳児は肥満傾向児の出現率が突出して低くなっていると考えた。
●5歳児は小学生、中学生、高校生のように勉強する時間が少なく、その分身体を動かして遊ぶ時間が多いことが一つの要因であると考えました。また、幼稚園や保育所においては昼食が一人ずつ決まった量が配られる若しくは弁当を食べることが多いのに比べて、小中学校では給食で当番が一人ずつの食事を配膳し、余った分はおかわりできたり、高校生はコンビニや食堂などで買い食いできる機会が多いことも要因として考えられると思いました。また、小学校入学前までは親の管理が行き届いているため、おやつの量なども制限される場合がおおいのかなと思いました。
●5歳児頃までは母親などの保護者におやつの管理をされているのではないかと考えた。そのため、おやつの食べ過ぎは起きず、肥満は起こりにくいのではないかと考えた。
●肥満傾向児で5才が低くなっているのは、親の管理の下で食事をとっているからかなと思いました。小学生にあがると給食で食事が管理されているとはいえ、お小遣いなどを使って自分でおやつを買えたり食事の幅が広がるからかなと感じました。追加で、両親が共働きで一人の時間が長かったりすると肥満傾向になるということも聞きました。
●5歳ごろまでは生活習慣が母親に依存しているが、小学校入学以降は家族の介入がどんどん減っていくため、運動不足などにより肥満率が上昇していくのかなと思いました。
●5歳児は自らの考えや意思を持つ時期であり、おにごっこやボール遊びなどルールを用いた遊びができるようになる。幼稚園や保育園で友人と遊びの中で心身の発達を図る時期であるため活動量が多いからだと思いました。また幼少期にはサッカーや水泳など子供に運動系の習い事を指させる親も多いことも関係するのではないかと思いました。
(4)データ処理の過程による説
●5歳からは学童期となり、肥満の定義が変わるため、5歳の肥満傾向児の出現率が突出して低いと考えました。
●「園児」のみであり、保育園児やそれらに通っていないこどもを含まないからではないかと考える。
●小児の発育は、身長は誕生から10歳ごろまでに急激に伸び、体重は6歳ごろから増加率が高くなります。そのため、身長別標準体重を用いた計算方法では、身長の伸びが大きい5歳児のほうが肥満傾向が小さくなるのだと思いました。
●5歳とそれ以外では肥満の判定方法が違うので、それによってデータに差が出てしまっているのかな?と思いましたが、考え中です
(3)食事摂取量少ない説
●5歳の肥満児が少ないことは、他の年代の子どもと比べて、食事摂取量が少ないことと好き嫌いが激しくなることが関係しているのではないかとおもいました。また、14.17歳代と比べて親に食事内容をコントロールされているので、お菓子やジュースなどの摂取量が少ないことも関係していると思いました。実際、私の弟も3~5歳の時はとくに偏食で、食べる量が少なかったように思います。乳児期や幼児期に比べて味覚が発達することで、好き嫌いが増えて好みの味でない食べ物を食べることを拒否していたのかと思います。
●5歳児のような小さい子供は大人と比べて、消化管があまり発達しておらず消化に時間がかかるため、お腹がすいている時間が比較的少なく、間食や夜食をとらないため、肥満になりにくいのではないだろうかと思います。
●5歳児は自我が芽生え始め、食事内容についても選択できるようになり、これまでは大人が管理していた食事を食べてきたが、好き嫌いがでてきて好きなものばかり食べたりすることがあるから。
(1)3歳児健診効果説
●3歳児健診があり、3歳6ヶ月から4歳になるまでの間に受ける必要がある。健診を受けることで、親は子どもの成長発達について気をつけるとともに、医療者からのアドバイスなどが受けられるため、5歳児には肥満児が少なくなると考える。
第04回FTF パラメトリック検定とノンパラメトリック検定
到達目標
4-1 パラメトリック検定とノンパラメトリック検定の違いを説明できる
4-2 コンピュータを用いたt検定が出来る
パラメトリック検定とノンパラメトリック検定
パラメータに基づく検定とパラメータに基づかない検定
パラメータ=母数(母平均,母分散,母標準偏差・・・)
パラメーターに基づかない・・・母数を推定しその差異をみる方法を使わない
母数の推定をを使わずに見出す・・・量的変量の分布を関係なくす→質的変量(順序尺度)にして度数を用いる
分布に依存しないとは
パラメトリック・・・元々は量的変数.こちらの絵の通りで平均値(14.55)を求めたり標準偏差(4.23)を求めたり,母集団の推定のために不偏分散(19.67)求めたりt検定を行ったり.
ノンパラメトリック・・・大小関係より中央値
こちらは分布なんて関係なく中央値(15)を求めたり,四分位偏差(2)求めたり,U検定を行ったり.
パラメトリック検定
教科書1)P73
対応のある2群間の平均の差
保健統計学Ⅰでは電卓を使い計算したが,実際にはPCを用いて処理するであろう
P76図4-4
教科書で用いている関数はTINV.
両側確率なのでご注意を
教科書と異なり,確率を求めることが出来ます
対応のない2群間の平均の差
対応が無い場合,2群の標本数は一緒にならないケースが多い
以下のデータを用いて実際に二標本の検定を行う.
nmuhlthstat2_2022-0401.csv
ノンパラメトリック検定
仮説検定の手順は変わらない
検定統計量を求めて確率と比較することは変わらない(どのような?)
確率分布を作ることが出来る(組み合わせなので)
群を直接比較して順位付けをした場合,互いの順位の和が大きく異なっていたら違う という方法
統計量から判断する検定表はP86
Tの限界値は以下で求めていますがP=0.01のところN=15のP-0.01は15となるので訂正を
n=5の所が空欄になっている件
この検定表は自分で作成できます.
以下のファイルをダウンロードしてください
nmuhlthstat2_2022-0402.csv
N=15の所を訂正する件
標本数が大きくなると標準正規分布を用いているのもうなづけると思います.
以下のファイルをダウンロードしてください
nmuhlthstat2_2022-0403.csv
図4-9
ダウンロードしたデータは順位なども既に入っているが実際には・・・
解説しながら自身で集計する一例を解説します
第05回FTF 割合の推定と検定
到達目標
5-1 カイ二乗検定について説明できる
5-2 コンピュータを用いたカイ二乗検定が出来る
教科書1)P88より
母集団の割合の推定
教科書参照
カイ二乗分布
χ2乗分布・・・母分散を推定できる確率分布
χ2=ΣZi2
平均からのズレの平方をとったものを足し合わせていく→偏差平方和
標準正規分布に従う独立した確率変数が1つの場合
χ2=Z12
<参考>独立した確率変数が二つの場合
χ2=Z12+Z22
カイ二乗分布表(教科書P273)
t分布と同じく自由度により確率分布は変化する
カイ二乗分布(ν=1)の時のそれぞれの上側確率に相当する正規分布の確率(両側5%(片側2.5%ずつ)は全て上側に集約されてしまう
χ2=((X-μ)/σ)2
χ20.05=((1.96-0)/1)2
例)標準正規分布で有意水準両側5%の場合の境界値はz=1.96.カイ二乗分布表より優位水準上側5%の時のカイ二乗値=3.84
ピアソンのカイ二乗
カイ二乗分布の話(X-μ)を(実際に出現した度数-出現が期待される度数(期待値))に置き換え
分散で除することで分子の差分を標準正規分布のN(0,1)にしていたものを,期待値で除して求めたものである.
(ポアソン分布であるとすると平均値=期待値=分散)
カイ二乗値=Σ(観察度数-期待値)2/期待値
検定
教科書2)P37
適合度の検定
1行n列
事象の起こる確率に基づく頻度(=n×p)期待値(度数))と実際に観測された度数(観察度数)の差異について検定.帰無仮説(測定した分布は想定されている分布と等しい)H0:P=(1/6,1/6,1/6,1/6,1/6,1/6)・・・サイコロの場合
独立性の検定
m行n列
こちらはそれぞれが独立しているか(関係があるか無いか)を検定
考え方は一緒
事象の起こる確率は実際に観測された度数を基に算出して全体の度数を乗じることで期待値(度数)とする.
期待値は周辺度数より求める格好
喫煙あり×コーヒー好きの期待値=100×90/160=56.25 以降も同様に全ての組み合わせで期待値を求める
喫煙あり×コーヒー好きのカイ二乗値=(75-56.25)2/56.25=6.25 以降も同様に求め足し合わせる
χ2=6.25+10.42+8.04+13.39=38.10
この集計表の自由度は1・・・χ20.05(1)=3.84
帰無仮説を棄却し対立仮説を採択.つまり関連がある.
Fisherの直接確率法
期待値が低い場合、p値が低く出てくるのでイェーツ補正(5以下のセルがあるとき)を行ったり以下のように直接確率を求める.
wilcoxonの統計量T理論分布と同様だが計算大変
図4-16データで確認
例題
対象とする集団のABO式血液型の割合はA型40%、O型30%、B型20%、AB型10%なのか?
A型28人 O型22人 B型22人 AB型18人
有意水準5%で検定せよ
課題
過去の調査結果(奈良県 県民アンケート)
https://www.pref.nara.jp/item/33706.htm#itemid33706
令和3年データより問25ジェネリック医薬品の使用状況について,地域差があるか有意水準5%,1%で検定を行え
第06回CMC 相対危険
到達目標
6-1 相対危険を示す指標にどのようなものがあるか説明できる
6-2 コンピュータを用いてオッズ比を算出することが出来る
この授業では相対危険=Relative Risk は一般的な用語であり、その算出指標の一つにリスク比(Risk Ratio)があるのですがそれを相対危険としているケースもあり,言葉の整理が出来ていないところでもあります。
本日のデータ
ある施設で食中毒が発生した.
感染源を特定するために,感染した方だけではなく感染していない方で協力していただける方にも調査を行った
nmuhlthstat2_2022-0601.csv
とりあえず,自分なりにデータを見てどれが怪しいか,10分以内にチャットで見立てた感染源を私に連絡.
指標と調査方法との関係
観察研究(Observational study)
記述疫学
特段曝露について触れたものではない
ただし,人,場所,時間という曝露はあるが
記述統計と言われるものと同じ格好で,状況を可視化するもの
生態学的研究
集団レベルで曝露と疾病頻度の関係をみる.
仮説を形成するところまで
個人レベルで曝露と疾病頻度に関係が無くても集団レベルで行うと,関係が見えてくる場合がある → 謎理論誕生
横断研究(Cross-sectional study)
曝露と疾患を同時に評価
時間軸がない場合が多く(例外は性別など)因果関係までは不明になってしまいやすい
コホート研究(Cohort study)
対象に曝露している人々と非曝露群を設定、追跡調査していくスタイル
通常前向きだが、後ろ向きにみる回顧的コホート研究というのもある。(後々でも曝露群に関する情報がある場合)
症例対照研究(Case-control study)
ある状態(例えば病気に罹患している)群と、罹患していない群を設定、時間を遡って調査していくスタイル
後ろ向きにしか行えない(前向きだと曝露→疾患の順がおかしくなる)
実験的研究(介入研究)(intervention study)
コホート研究の場合、曝露群(介入群)を研究者が割り付ける → 被験者に対する倫理的配慮が肝要
無作為に割り付けることが出来る場合は交絡因子を制御できる(ことが期待される)
倫理的に考えると非介入群の方が不利益になってしまう可能性が高いので、配慮した研究デザインが求められる
説明用データ
疾病発症 | 疾病無 | 計 | |
---|---|---|---|
曝露有 | A | B | A+B |
曝露無 | C | D | C+D |
計 | A+C | B+D |
リスク比
Risk Ratio(RR)曝露(介入)の有る時と無の時の危険を示す指標の比
危険を示す指標には罹患率やら有病率やら死亡率やら
A~D:疾病発生頻度(頻度以外に罹患率やら有病率・・・)
曝露有群の発症リスク=A/(A+B)
曝露無群の発症リスク=C/(C+D)
リスク比=A/(A+B)/C/(C+D)
もし、発生頻度が低ければA+B≒B C+D≒D
リスク比≒A/B/C/D=AD/BC
オッズ比
Odds Ratio(OR)危険な事象が起きた場合と起きなかった場合の指標の比(=オッズ)について曝露(介入)の有無毎に求め比をとったもの
発症有群の曝露オッズ=A/C
発症無群の曝露オッズ=B/D
オッズ比=A/C/B/D
=AD/BC
上記のように発症頻度が低ければオッズ比とリスク比の近似値となる
今回のデータの分析の場合
相対危険はオッズ比で評価教科書1_P115
図4-32
カイ二乗の検定統計量はこれまで習った方法で算出できます それぞれのオッズ比を算出してください
以下のようなクロス表が出来ればあとは計算できると思います
補足
参考資料
感染源の特定(なるほど統計学園)https://www.stat.go.jp/naruhodo/15_episode/toukeigaku/kansen.html
第07回CMC 一致性
到達目標7-1 カッパ統計量を求めることが出来る
7-2 クローンバックのα係数を求めることが出来る
教科書1 P168
一致性
スタンダードと比較出来れば評価できるものの
一致しているならば精度は高いわけで妥当であることが期待できる
一致しているか確認してみましょう
"nmuhlthstat2_2022-0701.csv
カッパ統計量
一致度で果たして良いのか・・・P177まずは,図6-3のファイル
一致度を求め→期待値を求め→κ
問題点
図6-5→何故なのか理由を考えてクローンバックのα
質問紙の回答の一貫性・・・同じ方向でスコア化しているのか図6-7
教科書に掲載されている式と,参考資料に掲載の式(そちらの方が意図が伝わりやすいかと)
課題
図6-7シートを用いて (1)α=1になるときの組み合わせ(2)α=0になるときの組み合わせ
を導き出してみましょう
参考
心理学と心理測定における信頼性について Cronbachのα係数とは何なのか,何でないのか?(岡田謙介,教育心理学年報/54 巻 (2015))https://www.jstage.jst.go.jp/article/arepj/54/0/54_71/_article/-char/ja/
α係数とは何か(ビジネスリサーチラボ)
https://www.business-research-lab.com/220411-2/