奈良県立医科大学大学院医学研究科 医の共通科目(分担:研究におけるデータ収集と統計処理について)
(博士課程,修士課程)

本講義について

https://medbb.net/education/nmucsmed2023
nmucsmed2023-00.png(2796 byte)

概要

 人々は日常生活において経験や伝聞に基づいた知見に基づき,状況を判断し意思決定を行っている.
一方研究における「新たな知見」の獲得は日常のプロセスと異なり,科学的な検証が求められる.
 本講義では研究を進めるにあたって,日常生活と科学における知の違いを示したうえで,データの取得から統計処理まで,手法を中心に整理していく.

ねらい

 博士課程の方,修士課程の方と対象が幅広いことや,限られた時間でありますので,データを取り扱っていく上で私が気になった,もしくは周囲の人が気になって相談してきたことをまとめることにしました
 故に私自身話す内容はこれまでのアレコレを整理した格好で良い機会になって満足しております
 皆さんには,この時間を通して日常生活と学術研究の違いについて考える機会になればと思っております

生活者として目指している事,研究者として目指している事

生活者の視点

限られた中で工夫を凝らしながら自分を中心に周囲を含めた幸せな人生を
日常生活では都合の良い奇跡が起こることを心待ちにしている
事実が全ての世界

研究者の視点

限られた中で工夫を凝らしながら新たな知見を
社会実装するための課題解決
研究生活では(仮説)想定がもっともらしいという(事実)研究結果が出てくることを心待ちにしている
事実は大切だが偶然の産物かも知れない と 捉えている
事柄を明らかにすることが大切な世界
研究では結果が全てではなく,どのような影響があったのかを明らかにする
事実 ⇔ 何故 の世界
故に結果に惑わされてはならない
(想定通りの結果が出たからといっても喜ぶのはまだ早い)

学生を見ていて思うところ

中等教育まで・・・日常生活の延長線上での取り組み方が多いように思う・・・結果が支配的・・・丸暗記でなんとか
高等教育以降・・・徐々に学術視点に・・・理由を解明することでまだ誰も想定していない未来を描くことができる

積み重ね

知の積み重ねとは → 丸暗記型の学生がしんどくなっていく
 → 知識の積み上げになっていない→情報を貯めているだけ(試験のために必要な事柄という情報として取り扱っているから)
joho20150613-5.png(149915 byte)
joho20150613-6.png(111907 byte)
よりよい医療に貢献する医療情報技師の役割より)
大学院では
大学院では自分なりな知の積み上げを → 世の中に還元
修了(学位取得)はアウトプットで以て判断 → 公聴会

統計

モノやコトについて対象とした集団の状況を明らかにする

記述統計

集団そのものに関するデータの可視化

推測統計

集団のデータは全体像を鑑みると一部なので,そこから推し量る
記述統計の統計量でもって推定してもよろしくない場合がある
平均値は母集団の平均の推定値として適している
→ただし一致することは(ほとんど)ない
分散は母集団の分散の推定値として適していない(偏っている)
→それでも一致することは(まれに)ある
つまり,推定とは外れるもの

母平均の推定

以下はexcelのRANDBETWEEN(110,140)をベースに一部調整したデータになります. 母集団は20000人からなり収縮期血圧を整数だけで記録される血圧計を用いた という想定.
母集団の平均は125.0
以下は20000のデータから標本数10の平均値を求めたもの(2000サンプル)をヒストグラムにしたもの
125.0ピッタシは1%程度
medbbstat2022-0202.png(96791 byte)

母分散の推定

同様のサンプル,標本で母分散を推定
標本から求めた分散は母集団の分散の不偏推定量か?
標本から求めた分散
medbbstat2022-0203.png(135831 byte)
母分散の値よりも低く出る標本が多い→偏っている
母平均を用いた標本の分散
それでは母平均を用いて標本ごとの分散を求めると以下のようになる
medbbstat2022-0204.png(137439 byte)
偏っていない推定が出来るが,そもそも母平均を用いることが出来るわけもなく・・・
不偏分散(標本の平均を用いて母分散の推定を行う)
<参考>不偏分散は何故nではなく(n-1)で除するのか(生物統計学2018奈良医大)
https://medbb.net/education/nmubiostat2018/index.html#VAR
考え方としては標本の平均を用いた分散と母平均を用いた分散を比較すると,標本の平均を用いた分散≦母平均を用いた分散になる.
今回のデータで検証すると
標本の平均を用いた分散<母平均を用いた分散 1978
標本の平均を用いた分散=母平均を用いた分散 22
標本の平均を用いた分散>母平均を用いた分散 0
ということで,標本平均を用いて母分散の推定を行うには,少し値を大きくしないといけない
上記の<参考は>母平均を用いた式を標本平均に置き換えて式を変化させた話 → 結論は偏差平方和を標本数nではなくn-1で除すると良い
medbbstat2022-0205.png(146106 byte)
学部時代など統計の授業では懇切丁寧に説明していますが(私の講義を受けていない方も同様に担当された先生は仰っている)
重要なことは,知っているだけではなく他者に説明できるように(アウトプット)なること
(だから大学院では研究室内でメンバーに説明する機会が多くあると思います)

データ取得

統計処理をするにはデータが必要だが取得の方法による影響を受ける
人が入力するのであれば必ず間違える(と思ったほうが良い)
装置が自動的に入力するとしても妙なことが起こる(と思ったほうが良い)

人によるもの

単なる打ち間違い(小数点付け間違い,一桁多い)
未実施データに9999などをふる
操作ミスで同じデータをコピー
(ある程度統計データで確認できる)
記入者によるもの(主観)

装置によるもの

RF-IDタグを用いた入院病棟の動態分析にて
huhmacollab2018-11.png(213654 byte)
huhmacollab2018-12.png(185389 byte)
地域医療と産学官連携より)
この時はエリア間の移動を把握しようとするのですが,建物には鉄筋が入っているので電波が乱反射
出てきたデータを見て呆然としつつデータクリーニング
このエラーは「仕様の範疇」であるからエラーではないとしているが,利用者側としてはエラーとして処理しないと実態を示すところまで辿り着かない
よくわかる研究論文のクリティーク第2版 クリティーク・チェックシート
に本件に関する論文の情報が出ています
大規模なデータを触る機会に恵まれていますが,思いもつかないデータエラーが検出されます.
データ取得時点の状況がわかるとデータの振る舞いを解釈できますが・・・・

データに基づく意思決定

生活者であり研究者である皆さんは往来しているわけでして

日常生活における私の意思決定

地域での評判

基本的に情報をあまり吟味せず基づいた判断

マスメディアからの情報

基本的に情報をあまり銀むせず複数のメディアからの情報に基づいて判断

インターネットサイトの情報

サイトによっては批判的な見方をするように心掛けており,
ただし個人のブログなどでも有用なものも多い,その事柄について検証するキッカケとなっている

SNSの情報(Twitter)

・趣味に関するところの書き込みは有用だと思っている.
・それまでの書き込みに基づいて信頼できるか判断している.
・ニュース性の高い(情報価値が高い)ものについては疑わしい目でみている

利用者や経験者

・リアル定員さんは基本信用しているが,誘導してきた場合は打ち切っている
・ネットショップの購入者などの書き込みは,信用しているものもある

参考

令和2年度国内喫緊課題情報発信多様化支援事業 広報レポート(経済産業省)
https://www.meti.go.jp/policy/newbusiness/houkokusyo/R2_Johouhasshintayouka_report.pdf

補足

コロナの時にマスクが品切れになったことを覚えておられる方は多いと思います.同様なものにトイレットペーパーも昔から時々供給不足になる事態が起こります
コロナ禍におけるマスク不足の件はSNS→マスメディア→地域という格好で品切れになった地域は大変ビックリされたことかと.
マスメディアの注意喚起を逆に捉えられた方が多かったように思いますし,情報に基づく「正しい」行動よりも「家族」を守る行動が優先されるからだと思います.
ちなみに我が家では普段から備蓄していたので,特に慌てるような話も無かったのですが,それは私の地域で具体的にそのような危機が起こらなかったというところも大きかったように思います.
過去には口コミによる事案では金融機関が大変な事態になったこともありました.
kosaka20140828-12.png(266659 byte)
SNS時代における個人情報保護と情報セキュリティより)

原油が高騰!トイレの紙は大丈夫?(NHK)

https://www3.nhk.or.jp/news/special/sakusakukeizai/20190917/231/

研究関連の私の意思決定

原理原則に立ち返って,データの振る舞いとデータ取得の状況を鑑みています
「新たな知見」ありきになると,歪んだ判断に繋がるので実態を思い描き解釈をしています.
例えば平均値についてはよく使うと思いますが注意すべき点もあります

一様に発生する事象とは限らない

例えば世の中から出ている統計データで平均値が出ていると一様分布を思い描くケースがあると思います.
例えば患者調査などで受療率など算出されていますと,年間を通して平均して・・・と勝手に思うこともあるかと思いますが抽出方法を確認すると
10月に調査してあるデータで解釈に注意が必要に思います
例えば,年間を通してデータを取っているものに出生数があります
nmucsmed2022-02.png(158279 byte)
一様ではないことが確認できるかと思います
参考資料
日別出生数からみた社会的要因による出生日選好傾向の現状(高橋美保子他,日本公衆衛生雑誌/61 巻 (2014) 1 号)
https://www.jstage.jst.go.jp/article/jph/61/1/61_12-081/_article/-char/ja/
人口動態調査 / 人口動態統計 確定数 保管統計表(報告書非掲載表) 出生(厚生労働省)
保管統計表 出生  第7表 出生数,出生の場所・出生月・出生日・出生時別
2019年(令和元年)カレンダー(便利.com)
http://www.benri.com/calendar/2019.html
患者調査(厚生労働省)
https://www.mhlw.go.jp/toukei/list/10-20.html

平均値にすることで差が出てくる

nmucsmed2022-01.png(24701 byte)
こちらはX軸は1~10の乱数(整数)をY軸は1~100の乱数(整数)を発生させそれぞれプロットしたものです.
オリジナルデータ(下のグラフ)はバラついている感がありますが,上のグラフはXの値ごとにYの平均を求めプロットしたものです
相関係数がオリジナルのものは0.09,平均をしたものは0.79という恰好で謎な法則が出来てしまうことがあります.

平均値と中央値は一致しない

こちらは的当てを行った時のダミーデータです.
平均値だけでどの程度の人が多く的に当てたのか判断するのは難しいことがお分かりいただけるかと思います.
nmucsmed2023-01.png(14599 byte)

検定

推測統計は推定と検定に分類されます.
検定は推定した上での判断ということで,帰無仮説を棄却するか判定保留するかの判定がなされます.

科学の話

経験に基づく物事について論理的に解明するときの手法に,帰納法と演繹法が挙げられる
帰納法
事例から,共通する一般的結論を出す
物事を多面的に深く見て引き出すという恰好でしょうか
演繹法
一般論を個々の場合や要素に適用して正しいことを論証
事例を集めてある説を繰り返したこととして,データのふるまいから証明する
参考文献:研究方法の研究(芦葉浪久,教育情報研究/12 巻 (1996) 1 号)
https://www.jstage.jst.go.jp/article/jjsei/12/1/12_KJ00002151944/_article/-char/ja/

なぜ帰納的な結論は仮説なのだろう

「科学」とは一体何ものなのか?

反証可能性

実態を基にした科学的な知とは反証が出来る可能性を有する(ポパー) という考え方.
反証不可能なものってなんでしょう??
質的研究の話は実態を基にしながら論理的に突き詰めていく手法
純粋に論理的なものは反証不可能だが
となると科学的な知見とは?
実態を基にしたものは,反証が出来る可能性を有する・・・永遠に正しいかどうかはわからない
知見そのものだけでは不十分で どのような研究を行ったのか?どのうような分析をしたのか? が必要
過去の研究に関する事案を思い浮かべても納得できるかと
研究における結果の誤り(研究ミス)と、研究不正の違い(EE Times Japan)
https://eetimes.itmedia.co.jp/ee/articles/1702/21/news024.html

p値が有意水準よりも低いからと

仮説が既に確立されていてその検証という態度で
後出しじゃんけんしないように

何故か有意な結果が出ない

サンプルの問題かもしれませんが,統計的有意差を追い求めるのであれば標本数を増やせば結果は得られるかと思います.
でもそれぞれの群の値を比較しても臨床的に見て違いはないんですよね.臨床的に差が無ければ有意差があって意味無いですよね.
データは尤もな仮説を検証はするものの,仮説そのものを作り出すだけのものは持ち合わせていないというところです

多重検定

なぜいけないの?と聞かれます.
nmubiostat2023-0902.png(4728 byte)
nmubiostat2023-0904.png(3229 byte)
仮説検定においては有意水準を設けて・・・としておりますが,多重検定の際に対立仮説をどのように設定しているのかだと思います.
確たる仮説がないままですと探索的な話でおかしな話ですし,仮説が多重に検定しなくてはならない仮説であれば全部ひっくるめた有意水準を維持する必要があります.補正が必要になりますが検定しても大丈夫です.
参考資料
演繹の前提を設置する思考過程(村中達矢,科学哲学42 巻 (2009) 1 号)
https://www.jstage.jst.go.jp/article/jpssj/42/1/42_1_1_97/_article/-char/ja
第10回 【AB合同】独立多群間の比較(2)多重検定(奈良医大生物統計学2023)
https://medbb.net/education/nmubiostat2023/#10

終わりに

生活の場においては意思決定をする際は,帰納法により判断しているケースが多いのではないでしょうか.
一方経験をベースにした根拠となる知見(科学的な根拠)は演繹法によって導かれています.
日常生活の場は検証の場では無いので当然と言えば当然ですが,研究の場においては帰納法に基づく知見(仮説)も有用に思います.
その時は状況を示す適切な指標を用いることでしょうか
特にデータを未来に向かって取得する場合(コホート)と過去に遡っていく(症例対照)ところなど,どのような集団を対象としているのか見誤らないことが必要に思います
無意識のうちに願望が前面に出て指標をチョイスするケースもあるように思います.そのようなことにならないよう日々取り組んでください
参考資料
科学論理とデータサイエンスの流れ(山岡和枝,W'waves/3 巻 (1997) 1 号)
https://www.jstage.jst.go.jp/article/wwaves1995/3/1/3_1_13/_article/-char/ja/
無作為比較研究(RCT)の場合(論文をいかに読み解くか? -あなたもデータに騙されてます-)(浅井隆,日本臨床麻酔学会誌/36 巻 (2016) 7 号)
https://www.jstage.jst.go.jp/article/jjsca/36/7/36_671/_article/-char/ja
第11回 相対危険(奈良医大生物統計学2023)
https://medbb.net/education/nmubiostat2023/#11