奈良学園大学 在宅看護学特論Ⅳ(地域包括支援)2025(分担:保健・医療統計))
(大学院看護学研究科)

授業メニュー

第6回~7回 保健・医療統計①②



前提として下記のような講義は受講済みという形で進める予定です
奈良県立医科大学 保健統計学II2025(医学部看護学科)
https://medbb.net/education/nmuhlthstat2_2023

授業開始のご挨拶(私と看護)

nmumedinfo2021-01.png(402574 byte)

第6回~7回 保健・医療統計①②

到達目標
1データ収集から統計処理を行っていく上で注意する点を述べることができる
2データを処理し可視化することができる

研究におけるデータ収集と統計処理について

科学

科学が,それ以外の文化と区別される基本的な条件としては,実証性,再現性,客観性などが考えられる。
実証性とは,考えられた仮説が観察,実験などによって検討することができるという条件である。
再現性とは,仮説を観察,実験などを通して実証するとき,人や時間や場所を変えて複数回行っても同一の実験条件下では,同一の結果が得られるという条件である。
客観性とは,実証性や再現性という条件を満足することにより,多くの人々によって承認され,公認されるという条件である。
<引用>
小学校学習指導要領解説(文部科学省)
https://www.mext.go.jp/a_menu/shotou/new-cs/1387014.htm
【理科編】小学校学習指導要領(平成29年告示)解説(文部科学省)
https://www.mext.go.jp/content/20211020-mxt_kyoiku02-100002607_05.pdf

世の中には未だ(これからも)科学的に証明されていないものは存在する

生活者の視点だと流通している食材は安心安全な食材で科学的に検証されている(=故に科学は正しい)と捉えてしまうように思います.
「フグの卵巣」は科学的に証明されていない手法で,安心安全な食材として流通しています
一般的に技術=科学技術と置き換えてしまっているように思いますが,科学で説明できない技術に基づくものは社会に存在します.
当然ながらその技術も正しく使わなければ安全な食材にはなりません
世の中全てを科学で語ることができたならば,それはより良い未来に繋がるだろうと思いますが,世の中そんなに甘くないというところですかね
<参考>
世界の珍食一位猛毒「フグの卵巣の糠漬け」(東京新潟県人会)
https://kouhou.niigatakenjinkai.com/?p=2835
COREZOコレゾ「自分に抱え込もうとすると、水は溢れ出し、外に押し出せば、水は自分のところに流れ込んでくると、郷土の伝統食品、ふぐ卵巣ぬか漬を守り続ける七代目」賞(一般財団法人コレゾ財団)
https://corezoprize.com/araki-toshiaki
No.19001 フグ(卵巣)による食中毒(H-CRISIS 国立保健医療科学院)
https://h-crisis.niph.go.jp/archives/136651/

実証性

「考えられた仮説」が無いことには始まらない→仮説検証型
それでは「考えられていない仮説」とは?
→まだ十分に確固たる仮説として成立していない仮説

仮説検証型と仮説探索型

仮説探索型とは「考えられた仮説」が存在せず(関心ある事象など),得られた結果は「考えられた仮説」になる可能性を有するので「まだ考えられたと言い切れない仮説」

再現性

仮説を実証するために得られたデータから複数回,同一の検証結果になること
「常に」同一の検証結果になることを求めていないが,それは求められないから

再現性の限界

再現性の条件は「仮説の実証を複数回行っても同一の結果が得られる」ことですが,その回数が無限であるならばその条件は永遠に満たされません.
故に有限となりますが,それはある回数(x回)まで同一の結果としても,x+1回目以降同一の結果にならない可能性を含んだものになります.
これは未来において,その仮説が覆される可能性があることを示すもので,反証可能性といわれるものです.
再現性の限界を超える方法
「仮説の実証を∞回行っても同一の結果が得られる」
実証で得られたデータについてどのようなものであっても同一な結果が出るように判定基準を定める
問1 再現性の限界を超える(同一の結果が100%出るような判定基準を定める)ことがよろしくない理由
判定基準
同一の結果が100%出るような判定基準を定めた場合,その結果は「科学を超越した何か」に基づくものになります
問2 「科学を超越した何か」に基づく話にどのようなものがあるのでしょうか
<お時間あるときにどうぞ>科学と疑似科学を分ける2つの基準(森田 邦久 科学哲学/42 巻 (2009) 1 号)
https://www.jstage.jst.go.jp/article/jpssj/42/1/42_1_1_1/_article/-char/ja

故に判定基準は「同一の結果」が100%の確率で出現しないことを示しておく必要が出てきます 例えば仮説の実証を行うにあたって判定基準を具体的な効果量とした場合,その判定基準が「『同一の結果』が100%の確率で出現しない基準であることを説明できません.
例えその判定基準が医学的に妥当なものであるかどうかは「再現性」と関係ない話になります
故に仮説検定では効果量で判定せずに確率に基づいて行わない限り科学の枠組みに収まっていることを主張できません

統計的有意差と臨床的有意差

確率に基づき計算した量を統計的有意差と呼びます.
知見は社会実装することで社会に貢献できますが,医療現場においては臨床的に効果があるとされる量を指す臨床的有意差が結果として求められます
当然ですが臨床で必要とされるのは,統計的有意差よりも臨床的有意差が重要です.しかしながら「科学的」な観点では前者が重要になります.(科学的な話なので)

確率の違いを量で示すと,サンプルサイズにより変化します.
各群サンプルサイズ10の場合で検定すると10kg程度となるが、そこまで体重が変化しているとなにか違う出来事が起こっている気がする
各群サンプルサイズ1000の場合検定すると1kg程度で有意な結果となるが、本当に意味あるのか気になる
 nmubiostat2016-0901.png(37095 byte)
例えば臨床的有意差が統計的有意差(に基づく効果量)よりも大きい場合は再現性については確認できたものの臨床的な観点で確認していません.統計的には良いが,医科学的には?という結果になります
故に臨床的有意差に基づきサンプルサイズを決定することで二つの違いを解消できます
一般にはサンプルサイズが大きいほど推定の場合は精度の高い結果が得られるので好ましいという感覚に思いますが,あくまでも区間推定の話で仮説検定においては状況が異なります

統計的有意性とp値に関するASA(アメリカ統計協会)声明

<参考>統計的有意性とP値に関するASA声明(日本計量生物学会)
http://biometrics.gr.jp/news/all/ASA.pdf
以下の内容が指摘されています
1. p値はデータと特定の統計モデルが矛盾する程度をしめす指標のひとつ
2. p値は、調べている仮説が正しい確率を測るものではない
3. 科学的な結論は、p値がある値を超えたかどうかにのみ基づくべきではない
4. 適正な推測のためには、すべてを報告する透明性が必要
5. p値は、効果の大きさや結果の重要性を意味しない
6. p値は、それだけでは仮説に関するエビデンスのよい指標とはならない

データで示される事実と真実の不一致

研究は,現象を確認できる事実に基づいて取りまとめた上で客観的な真実を追求する取組 ということと理解しています
事実はあくまでも出来事そのものになるので,データに変換する時点でモノやコトから分離されます.
これらのデータを用いた研究では,たとえ研究のために取得したデータを基にしても事実とは異なる可能性を否定できません.
nmuhlthstat1_2024-0101.png(354590 byte)
事実 →【測定・観察】→【記録】→ データ →【統計処理】 → データ(【二次利用】)
の流れに沿って以下何が起こりうるのか

【測定・観察】測定機器の不適切な使い方

この手の話はちょっと文字に起こしにくいので,ファンタジーな世界での出来事を紹介します.
あと他言は無用です.ポイントのみ記憶に留めあとは綺麗に忘れてください
重要な話ですが,データとなってしまったものは,そのデータの振る舞いで判断するしか術がありません
測定時点で出力がおかしいことに気が付くと良いので,そのような仕掛けを測定系に含めるのが良いかなと思います

【測定・観察】測定機器の特性による話

測定装置からダイレクトにデータをサーバーに送ってもらう等,人の手を介さない形で取得できるケースも多くなってきました.
しかしながら,測定装置の特性について技術者側と研究者側で理解に相違があると困った事態になります
無論,転んでもただでは起きないよう取り組むのが研究に向き合う正しい態度に思います(のでエラーの話もどこかで昇華しています)
RF-IDタグを用いた研究に参画していたのですが,いろいろ経験しました
想定していなかったエラーデータが山のように出現し・・・
huhmacollab2018-10.png(357084 byte)
huhmacollab2018-11.png(213654 byte)
huhmacollab2018-12.png(185389 byte)
産学官連携マネジメント論2018(分担:地域医療と産学官連携) より
この時はエリア間の移動を把握しようとするのですが,建物には鉄筋が入っているので電波が乱反射
出てきたデータを見て呆然としつつデータクリーニング
このエラーは「仕様の範疇」であるからエラーではないとしているが,利用者側としてはエラーとして処理しないと実態を示すところまで辿り着かない
よくわかる研究論文のクリティーク第2版 クリティーク・チェックシート
に本件に関する論文の情報が出ています

【記録】間違えないと進めない世界

人が直接データを入力すると間違いがあっても当然と思います
なるべく人を介さないようにするのが良いのでしょうが,研究においてはそのような環境は出来ないことも多いかと
そこで,入力するカラムに入力に制限をかける方法もありますが,思うように入力できないなどの弊害も出てきます
その中で,データが欠損している場合ルールを決めなくてはいけません.
知恵絞って【999999】などなどありえないような数値を入力してしのぐことがありますが,そのルールが共有されていないと謎数値が誕生します
あとは一列ズレたまま入力とか,被験者IDがズレて入力など・・・
データクリーニングすること前提ですが,例えばID以外の本人の属性情報も入力するなど他のデータと突合できるような設計にすることが必要かと思います.
地道なクリーニングになりますが,出来ないものもあるので(オリジナルの資料が存在しないなど)悩ましいところです

【統計処理】分散と不偏分散の話

事実を示すデータを取得できたとしても,とりまとめる過程において不適切な取り扱いにより真実を見誤る例
事実とは実際の出来事・・・記述統計
真実とは実際の出来事をベースに見いだす・・・推測統計
事実と真実が異なる例として「分散」の話が挙げられます.
記述統計(事実)の世界では偏差平方和をサンプルサイズnで除するという,非常にわかりやすい定義
推測統計(真実)の世界では偏差平方和をサンプルサイズn-1で除するという,事実側から眺めると理解し難い定義(?)
ちなみにですが,母集団からサンプルサイズ10の標本を2000ほど抽出した平均値のヒストグラム
母集団の平均は125.0なのですが,ピッタシは1%程度 事実から外れているものの外れっぷりは程があります.推定は当たらないけど程がある(不偏)のがよいというところです
medbbstat2022-0202.png(96791 byte)
さて分散ですが,母集団の平均(本来知る由もない事実125.0)を用いて2000の標本それぞれの分散を求めたヒストグラムです(ちなみに母分散も本来知る由もない事実81.0)
medbbstat2022-0204.png(137439 byte)
もし母平均を事実として知っていたならば,上記のように標本から求めた分散は標本平均の時と同じように母分散ピッタシは期待できないものの外れっぷりに程があります
残念ながら母平均は知らないので,標本平均を用いるしかない(事実から算出しているものですが母平均そのものではない)のですが,以下のようになります
medbbstat2022-0203.png(135831 byte)
ピッタシは期待できないどころか,外れっぷりも値の低い方に偏っているのが確認できると思います
そこで同じ標本の平均を用いて事実とは異なる分母(サンプルサイズ-1)で偏差平方和を除すると以下のように(本人は知る由もないが)外れっぷりに程がある結果となります
medbbstat2022-0205.png(146106 byte)
事実は正しいが客観的な真実に辿り着くには,事実に重きを置きすぎるとその先を見誤ることもあるということを示している例に思います

【統計処理】平均よお前もか

平均値を使うと新たな関係(事実)が爆誕することもある

例えば2変量の相関を求める時以下のような処理をしたことありませんか?
nmucsmed2025-01.png(272205 byte)
X軸が気温,Y軸が炭酸飲料の売り上げ本数になります.左がオリジナル 右がY軸(本数)をX軸(気温)ごとに求めた値で作成したものです.
以下のデータを用いました
<出典>
ともなって変わる二つの数量の関係(中学生のための統計学習 東京都総務局統計部)
https://www.toukei.metro.tokyo.lg.jp/manabou/tyuu/sirou2/tokutyou2/ma1206t24b.htm
以下は身長と体重を乱数で適当に割り当てたデータを作成したものです.
nmucsmed2025-02.png(335868 byte)
X軸が身長,Y軸が体重になります.左がオリジナル 右がY軸(体重)をX軸(身長)ごとに求めた値で作成したものです.
これまでの常識を覆すことの出来る望んでいた結果が出てきました.(この講義で本件のような事象が起こりうることを説明したかったので)
何回も繰り返しデータ抽出して都合のいいデータを載せてますが,それが一回目のチャレンジで得られた可能性も当然あります
問3 なぜ平均値を用いると相関関係があるようなものが見られるのでしょうか

平均値は万能ではない

2群の比較をするとき,平均値で行うこと(すなわちt検定)が多いかと思います.それは中心極限定理があるから・・・という話でしたが
中心極限定理
サンプル数が多ければ標本平均の分布は正規分布になる

あまりにも分布が違う場合は平均値で解釈するとおかしなことになることがあります
例えばA群は100人中全く当たらなかった人は10人,1回当たった人は10人・・・という格好になります
nmucsmed2024-03.png(332403 byte)

【二次利用】実態は事実かもしれないし,私たちの想定を超える事実が含まれたものかもしれない

人口動態に関する指標 出生であったり死亡などは年間の集計値を教えてもらった時,12や365で除することで月平均,一日平均を計算するのではないかと思います
例えば,年間を通してデータを取っているものに出生数があります
人間は周年繁殖動物とされているので一年の中で本来季節の影響は少ないように思います
しかしながらデータを見ると生活空間においてはなにかしら季節の影響を受けている事,それに加えて社会の仕組みが影響を与えていることも見て取れると思います
nmucsmed2025-03.png(499488 byte)
<参考>
ヒトの“繁殖期”は10~11月?(日経メディカル)
https://medical.nikkeibp.co.jp/leaf/mem/pub/hotnews/int/200711/504694.html
カンニング竹山 誕生日4月2日も「本当に生まれた」日を告白 戸籍上ずらす行為「今やると罪になる」(Yahooニュース)
https://news.yahoo.co.jp/articles/1f8bff31191b583a93909f74cc271b04698cbfd1

問4 このデータは想定(出生数は一様ではない)と違う場合,いくつかの要因が含まれたものになりますがどのようなことが考えられるでしょうか

【二次利用】質問紙調査が事実を示すことの限界

研究においてアンケート調査を行うときも同様ですが,自身で取得した場合は分析過程で状況を把握できるように思いますが,二次利用の場合は特にご注意ください
下記のものからAge Heapingを確認できるかと思います.
nmucsmed2025-04.png(215625 byte)
インドネシアの人口ピラミッドと Age Heaping(インドネシア中央統計庁(BPS)に対する技術協力 総務省統計局)
https://www.stat.go.jp/info/meetings/develop/pdf/ind_pyra.pdf
https://www.stat.go.jp/info/meetings/develop/indones.html

データの可視化

グラフ

それぞれの特徴やお作法を記しておきます.

お作法

項目が名義変数(尺度)の場合は度数の多い順に
ただしその他は,どれだけ度数が多くても一番最後
順序変数(尺度)他は度数に関係なく順序に従って記すこと

棒グラフ

度数分布表を図にすると,このグラフになる.
ヒストグラムの場合は,度数を棒の高さではなく面積で示していることに注意(前章該当箇所を確認の事)
項目は左(縦棒グラフ),もしくは上(横棒グラフ)から示す.
度数以外に割合で示す場合もある. 両側棒グラフは,2種類のデータを同時比較するときに有効

円グラフ

・個別の度数の全体に対する割合を円の角度で示したもの
・項目間の比較において特定の項目同士の比較には効果的だが,多項目の比較になるとわかりにくい
nmuhimstat2021-03.png(9590 byte)
nmuhimstat2021-04.png(15866 byte)
・度数の表現には適さない
円の角度と面積と
面積でも割合を示しているのでは?という疑問について
円の面積はπr^2で項目の割合を角度で示しているから,結果的に面積にも比例している
ただし,どのように認識しているかというと,パイの部分の面積を比較していないかと・・・という意味
角度で示しているが,意図せず面積比でも同様な結果となるけど,見る側はそのような見方をしていない・・・ということでどうでしょう

帯グラフ

棒グラフ(積み上げ)の高さを揃えて割合を比較
nmuhimstat2021-05.png(6471 byte)
円グラフと比べて項目が多くても把握しやすい
異なる集団との比較が出来る.特に端の項目

折れ線グラフ

変化の傾向をとらえるのに有効
平滑化
折れ線グラフで傾向を見るには傾向以外の要因を取り除かないとわかりにくい
以下は一日の歩数をグラフで示したもの(ダミーデータ) 7点平均をとることで,上昇している傾向が把握できる
nmuhimstat2021-06.png(17862 byte)
元データはコチラ(画像ですが)

レーダー図

複数の項目データを二次元にマッピングすることでパターンを作成し,類型化することが出来る
nmuhimstat2021-08.png(27839 byte)
診療情報管理学会の発表の際も以下のようなもの作成していました. 管理士取得されたら学会発表したくなると思うので喜んでサポートします.ご遠慮されずにご相談ください
jhim41-14.png(162309 byte)
検索エンジンのサジェスト機能を用いた病院情報探索行動の分析(第41回日本診療情報管理学会学術大会)より

散布図

二つのデータの関連性を示す. プロットする点の大きさをデータで示せば三つのデータの関連性を示せる(→バブルチャート)
(前章該当箇所を確認の事)

箱ひげ図

nmuhimstat2021-09.png(8898 byte)
箱ひげ図は四分位数(中央値)の世界(正確に言うとパーセンタイルかな)での表現を基本

三次元グラフ

二次元空間に三次元のものを書こうとすると歪んで当然
手書きでは困難だが,コンピュータ(excel)で簡単に作れるので目新しかったけど,学術的なものには使えないかな
nmuhimstat2021-10.png(16426 byte)

実空間の情報を取り扱う

jSTAT MAP
https://www.e-stat.go.jp/gis/gislp/
問5 奈良学園大学から学園前までの直線距離を測定せよ

問6 奈良学園大学から自動車で20分圏内のエリアを表示する
統計地図作成→エリア作成→グループは新規で「関西医大圏内」エリアは赤い色でハッチパターンは縦で作成のこと
エリア名は「車20分」

kmuipt2025-0701.png(569332 byte)
問7 奈良学園大学から自動車で20分圏内のエリアを表示する
エリアは緑色でハッチパターンは塗りつぶしのこと エリア名は「車20分」


問8
奈良市内の駅(近鉄,JR)を調べた上でプロットデータを作成し(グループ名は奈良市内駅 それぞれのプロット名は駅名で)したうえで,各駅から徒歩で20分圏内のエリア(エリアのグループ名は駅徒歩10分)を表示する
エリアのグループは新規で「奈良市内駅圏内」としエリアは赤い色でハッチパターンは横で作成のこと

kmuipt2025-0702.png(524153 byte)
問9 奈良県立医科大学附属病院から指定範囲内プロット検索を用いて半径2km以内に含まれる橿原市内の駅を検索せよ

問10 奈良市内近辺の3次メッシュ(1km)75歳以上の人口(2020国勢調査より)を地図上に表示せよ