奈良県立医科大学大学院医学研究科 医の共通科目(分担:研究におけるデータ収集と統計処理について)
(博士課程,修士課程)
本講義について
https://medbb.net/education/nmucsmed2022概要
人々は日常生活において経験や伝聞に基づいた知見に基づき,状況を判断し意思決定を行っている.一方研究における「新たな知見」の獲得は日常のプロセスと異なり,科学的な検証が求められる.
本講義では研究を進めるにあたって,日常生活と科学における知の違いを示したうえで,データの取得から統計処理まで,手法を中心に整理していく.
ねらい
博士課程の方,修士課程の方と対象が幅広いことや,一コマ分でありますので,データを取り扱っていく上で私が気になった,もしくは周囲の人が気になって相談してきたことをまとめることにしました故に私自身話す内容はこれまでのアレコレを整理した格好で良い機会になって満足しております
皆さんには,この時間を通して立ち止まって考えることも大切だということを感じていただけたらなと思います
日常生活でのデータ取得と意思決定(プライベートモードの私)
日常生活における様々な情報源
地域
それぞれが社会生活の中における経験したことや聞いてきたことなど(自身の経験も含む)家族
・学校での出来事や経験したこと
・マスコミのニュースやネット情報,井戸端会議情報,家の中の出来事など
友人・知人
・旅行やスポーツなどの経験談
・ココだけの話
マスメディア
・世の中の出来事が一通り把握できる.・ジャンルは自身の関心によらない
インターネットメディア
マスメディアからの情報よりか掘り下げたものが多い印象SNS
・世の中の出来事が一通りわかるのだろうが・・・・入ってくる情報が繋がっているユーザーに依存するので偏ってしまう
経験者
旅行に行こうと思ったとき,物品購入する時に参考にしたい・実空間では,なかなか聞く機会が無い.そこで定員さんに相談
・オンラインサイトで閲覧出来る(オンラインショップで),センターに相談
日常生活における意思決定
地域
基本的に情報をあまり吟味せず基づいた判断マスメディア
基本的に情報をあまり銀むせず複数のメディアからの情報に基づいて判断インターネットメディア
サイトによっては批判的な見方をするように心掛けており,ただし個人のブログなどでも有用なものも多いが,その事柄について検証するキッカケとなっている
SNS
・趣味に関するところの書き込みは有用だと思っている.・それまでの書き込みに基づいて信頼できるか判断している.
・ニュース性の高い(情報価値が高い)ものについては疑わしい目でみている
経験者
・定員さんは基本信用しているが,誘導してきた場合は打ち切っている・ネットショップの購入者などの書き込みは,信用しているものもある
情報と意思決定の関係(私の場合原則として)
地域
良い結果に結びつかなかったとしても,フィードバックすれば良いと思っているマスメディア
マスメディア情報のみに基づく決断をすることはないSNS
実際に紹介されていた書籍を買ったことあります.経験者
高額なものほど不安になるので実際に購入された方や利用した感想などの情報を集めて決断していますまた地域(家族友人知人)が経験している場合は,その意見に基づく決断になっています
参考
令和2年度国内喫緊課題情報発信多様化支援事業 広報レポート(経済産業省)https://www.meti.go.jp/policy/newbusiness/houkokusyo/R2_Johouhasshintayouka_report.pdf
補足
トイレットペーパーの件は,過去に国内でそのような事態が起こりましたし,コロナ禍におけるマスク不足の件も記憶に新しいところ.SNS→マスメディア→地域という格好で品切れになった地域は大変ビックリされたことかと.マスメディアの注意喚起を逆に捉えられた方が多かったように思いますし,情報に基づく「正しい」行動よりも「家族」を守る行動が優先されるからだと思います.
ちなみに我が家では普段から備蓄していたので,特に慌てるような話も無かったのですが,それは私の地域で具体的にそのような危機が起こらなかったというところも大きかったように思います.
過去には口コミによる事案では金融機関が大変な事態になったこともありました.
(SNS時代における個人情報保護と情報セキュリティより)
原油が高騰!トイレの紙は大丈夫?(NHK)
https://www3.nhk.or.jp/news/special/sakusakukeizai/20190917/231/科学の話
経験に基づく物事について論理的に解明するときの手法に,帰納法と演繹法が挙げられる帰納法
事例から,共通する一般的結論を出す物事を多面的に深く見て引き出すという恰好でしょうか
演繹法
一般論を個々の場合や要素に適用して正しいことを論証事例を集めてある説を繰り返したこととして,データのふるまいから証明する
参考文献:研究方法の研究(芦葉浪久,教育情報研究/12 巻 (1996) 1 号)
https://www.jstage.jst.go.jp/article/jjsei/12/1/12_KJ00002151944/_article/-char/ja/なぜ帰納的な結論は仮説なのだろう
「科学」とは一体何ものなのか?反証可能性
実態を基にした科学的な知とは反証が出来る可能性を有する(ポパー) という考え方.反証不可能なものってなんでしょう??
質的研究の話は実態を基にしながら論理的に突き詰めていく手法
純粋に論理的なものは反証不可能だが
となると科学的な知見とは?
実態を基にしたものは,反証が出来る可能性を有する・・・永遠に正しいかどうかはわからない知見そのものだけでは不十分で どのような研究を行ったのか?どのうような分析をしたのか? が必要
過去の研究に関する事案を思い浮かべても納得できるかと
研究における結果の誤り(研究ミス)と、研究不正の違い(EE Times Japan)https://eetimes.itmedia.co.jp/ee/articles/1702/21/news024.html
科学に基づく知見は一時的?
故に長きに渡って根拠とされている理論などは尊いものであります.知見に関するところでは以下のような話もありました
既に指摘されていたものの,その情報が伝わっていない故の話です.関わる人々にとってupdateすることの重要性を示したものです
無論これは必要な情報を効果的に伝達させる仕組みの話でもあります.
ワクチンの筋肉注射手技の国内における問題点:末梢神経損傷およびSIRVAについて(仲西康顕他 中部日本整形外科災害外科学会雑誌/64 巻 (2021) 1 号)
https://www.jstage.jst.go.jp/article/chubu/64/1/64_1/_article/-char/ja
Establishing a new appropriate intramuscular injection site in the deltoid muscle(Yukari Nakajima et al. Hum Vaccin Immunother. 2017 Sep 2;13(9))
https://pubmed.ncbi.nlm.nih.gov/28604191/
まとめると
生活空間における情報源とその利活用は,自身の生活を円滑にすることを中心にデータを取得し解釈しているように感じる私が人生を豊かにすることに繋がるであろう情報は,他の方にとっては全く関係ないものも多いように思うし,そこには科学的な根拠よりも優先順位が高いものがあるようにも思う
それは,一つの事柄の正しさよりも自身の生活の質を追求するほうを優先してデータをチョイスし解釈していることになるが,それが結果的には未来を暗くしてしまう間違った判断をしているのかもしれない.
最後に,情報の伝達の話にも触れたが情報として当事者が認識していなければそれに基づく判断する機会は無い.誰しも少なからずそのような経験をしているように思う.
保健医療分野は人々にとっては生活の質に直結する分野であり,有用な情報がわかりやすく伝えるようにしていくことが必要とされている.
(よりよい医療に貢献する医療情報技師の役割より)
研究におけるデータ取得
基本的な部分は今更のようにも思いますが,データを扱うにあたって気を付けなくてはいけない部分について,取り上げます.研究を進めていくというのは用心深くコトを進めて積み上げていくものになりますので,疑問点がいろいろ湧いてくるようになります.
学会などで質問されている方のやり取りなどを聞いていると,思ってもいない側面からの質問などあったりです.
ベーシックな部分ですがお付き合いください.
私が思うに基本的な部分に疑問を持ち解明し新たな知見に繋がれば,それは寿命の長い知に思います
4つの尺度
名義順序間隔比例間隔尺度は×÷は御法度?
間隔尺度のデータを直接乗除した場合の計算結果が解釈できないので御法度ということ計算例
×摂氏温度27.3度の2倍=27.85×2=55.7度〇摂氏温度27.3度の2倍=(27.85+273.15)×2=絶対温度600度=摂氏温度326.85度
平均値や分散も×?
平均は摂氏温度で算出しても絶対温度で算出しても同じY(摂氏温度)=X(絶対温度)+273.15
(1/n)ΣY=(1/n)Σ(X+273.15)=(1/n)(ΣX+273.15n)=273.15+(1/n)ΣX
分散を求めたりする場合は平均値との偏差を求める時点で絶対温度の計算と同一になるので問題ない.
偏差:Y-Ybar=X+273.15-(Xbar+273.15)=X-Xbar
故に標準偏差も問題ない.
どうしても乗除したい
間隔尺度(例:時刻)であったとしてもある点を基準として測定すれば比例尺度(時間)になる.順序尺度は平均してよいか
教科書的にはすべきではないとされていますが,分野によっては平均を計算しています順序尺度が多段階であれば本来量的なものに使うt検定で検定を行っているケースもあります.
もっともノンパラのWilcoxon検定でもn数が多いと検定統計量Tからz値に変換して有意確率を求めたり
参考資料
リスク評定尺度の数量化の妥当性について : 順序尺度の表現定理からの検討(竹村和久他,日本行動計量学会大会抄録集/44)https://www.jstage.jst.go.jp/article/pbsj/44/0/44_98/_article/-char/ja/
名義尺度で計算をできないか
名義尺度はコード化することで番号を付与することはできます.無論加減乗除しても意味はありません唯一ですが同じ/異なる を判別できるのでその度数(離散量)は比例尺度になりますので,自在に計算できます
また名義ごとに重みづけを行う格好で計算を行うときがあります.無論重みづけには根拠を持たせる格好にしていますが
参考資料
都道府県コード表(経済産業省)https://www.meti.go.jp/policy/chemical_management/kasinhou/files/ippantou/table_prefecturecode.pdf
中心極限定理の説明グラフ
このグラフを用いて説明した授業は以下ページ
第03回CMC 平均値の推定(奈良県立医科大学 生物統計学2022)
https://medbb.net/education/nmubiostat2022/#3
統計処理について
チェックして綺麗にしないと(取り除く,補習する)後の工程が無意味なものになります.「後工程はお客様」です
データクレンジング
Garbage in, garbage outゴミデータが混じってしまうと大変
研究で新たに調査しデータを入力する際にはルールを決めておかないと処理が難解になります.
結果を入力したのかわからない
Yes/Noをそれぞれ1,0とコードを割り当てて処理することは一般的だと思いますデータをどのようの用いるかで Yesのレコードを抽出すれば事足りる運用であれば問題ありません
しかしながら入力者によっては0は空白と一緒と判断して0を入力しないケースがあります
特に外部委託などで代行入力などをお願いするときは具体的な指示と確認など必要かと思います
一方データを二次利用するケースでは「9999」など意味ありげな数値が入っている場合もあります.
二次利用の際は実際の入力状況を教えてもらえれば良いのですが,困難なケースも多いと思います.
記述は重要
地図を見てから街歩きをしたほうが何かと良いと思いますが,データも同様になります.入手したデータをざっくり眺めていると思わぬことを教えてくれる場合もあります.
いずれにしても入手したデータを一旦可視化(記述統計)して眺めてみると,思わぬことに気がついたりします.
上記の「9999」の件は平均値を算出するとおかしいことに気がつく場合もありますが,モノによっては気がつきにくくなります
何を計算しているのか
指標を求める時には,計算式が与えられ値を入れ込めばOKとなりますが,データの形は一緒に見えても取得のタイミングなどでは不適切な計算になる場合があります.わかりやすい例としては,コホート/症例対照での相対危険の算出でしょうか.
色々な算出式がある場合は理由があるのでそれを理解することが未来に役立つと思います
ランダム
皆さんの思うランダムって絵で示すと 0から49999までの乱数でXY座標を発生させプロット1万回分0から49999までの乱数でXY座標を発生させプロット千回分
0から49999までの乱数でXY座標を発生させプロット百回分
数が少なくなると,なんとなく思っているようなランダム感が無くなりますよね.
ランダムなのに相関が
こちらはX軸は1~10の乱数(整数)をY軸は1~100の乱数(整数)を発生させそれぞれプロットしたものです.
オリジナルデータ(下のグラフ)はバラついている感がありますが,上のグラフはXの値ごとにYの平均を求めプロットしたものです
相関係数がオリジナルのものは0.09,平均をしたものは0.79という恰好で謎な法則が出来てしまうこともあります.
ランダムと思っていたのに
意外と思われるものもあったりしますのでご注意ください.
出生数の話は様々な要因が影響を及ぼしている格好です.
参考資料
日別出生数からみた社会的要因による出生日選好傾向の現状(高橋美保子他,日本公衆衛生雑誌/61 巻 (2014) 1 号)
https://www.jstage.jst.go.jp/article/jph/61/1/61_12-081/_article/-char/ja/
人口動態調査 / 人口動態統計 確定数 保管統計表(報告書非掲載表) 出生(厚生労働省)
保管統計表 出生 第7表 出生数,出生の場所・出生月・出生日・出生時別
2019年(令和元年)カレンダー(便利.com)
http://www.benri.com/calendar/2019.html
参考資料
Garbage in, garbage out(ウィキペディア)
https://ja.wikipedia.org/wiki/Garbage_in,_garbage_out
HbA1c国際標準化 4月からJDS値からNGSP値に移行(糖尿病ネットワーク)
https://dm-net.co.jp/calendar/2012/016773.php
第11回CMC 相対危険(奈良県立医科大学 生物統計学2022)
https://medbb.net/education/nmubiostat2022/#11
仮説検定
お察しの通り科学の話をするには避けて通れません
但し講義をすると,記述統計は楽だったのに急にわからなくなった.と多くのご指摘をいただいております
帰無仮説
p値さえあれば良いのじゃないの?と学生の頃は思いながらでした
背理法に基づいたもので,最初に二つの仮説が存在しています.(帰無仮説と対立仮説 証明したいのは対立仮説)
演繹法で反証可能性を有する形で検証するスタイルになります.
結果についてはエラーが起こる可能性を有した格好ですし,誤った判断をする可能性はあります.
となるとp値が有意水準よりも低くなったからその論(対立仮説)は正しいことが確定したと捉えるのはまずいですよね
さらに一般論(仮説)が成立していない事柄について,エイヤで検定して有意差出た場合は科学的?
何故か有意な結果が出ない
サンプルの問題かもしれませんが,統計的有意差を追い求めるのであれば標本数を増やせば結果は得られるかと思います.
でもそれぞれの群の値を比較しても臨床的に見て違いはないんですよね.臨床的に差が無ければ有意差があって意味無いですよね.
データは尤もな仮説を検証はするものの,仮説そのものを作り出すだけのものは持ち合わせていないというところです
多重検定
なぜいけないの?と聞かれます.
仮説検定においては有意水準を設けて・・・としておりますが,多重検定の際に対立仮説をどのように設定しているのかだと思います.
確たる仮説がないままですと探索的な話でおかしな話ですし,仮説が多重に検定しなくてはならない仮説であれば全部ひっくるめた有意水準を維持する必要があります.補正が必要になりますが検定しても大丈夫です.
参考資料
演繹の前提を設置する思考過程(村中達矢,科学哲学42 巻 (2009) 1 号)
https://www.jstage.jst.go.jp/article/jpssj/42/1/42_1_1_97/_article/-char/ja
終わりに
生活の場においては意思決定をする際は,帰納法により判断しているケースが多いのではないでしょうか.
一方経験をベースにした根拠となる知見(科学的な根拠)は演繹法によって導かれています.
日常生活の場は検証の場では無いので当然と言えば当然ですが,臨床の場においては帰納法に基づく知見(仮説)も有用に思います.
但し,一般生活においても研究においても気を付けるべきは論のすり替えでしょうか.
無意識のうちに願望が前面に出ているケースもあるように思います.そのようなことにならないよう日々取り組んでください
参考資料
科学論理とデータサイエンスの流れ(山岡和枝,W'waves/3 巻 (1997) 1 号)
https://www.jstage.jst.go.jp/article/wwaves1995/3/1/3_1_13/_article/-char/ja/
無作為比較研究(RCT)の場合(論文をいかに読み解くか? -あなたもデータに騙されてます-)(浅井隆,日本臨床麻酔学会誌/36 巻 (2016) 7 号)
https://www.jstage.jst.go.jp/article/jjsca/36/7/36_671/_article/-char/ja
出生数の話は様々な要因が影響を及ぼしている格好です.
参考資料
日別出生数からみた社会的要因による出生日選好傾向の現状(高橋美保子他,日本公衆衛生雑誌/61 巻 (2014) 1 号)https://www.jstage.jst.go.jp/article/jph/61/1/61_12-081/_article/-char/ja/
人口動態調査 / 人口動態統計 確定数 保管統計表(報告書非掲載表) 出生(厚生労働省)
保管統計表 出生 第7表 出生数,出生の場所・出生月・出生日・出生時別
2019年(令和元年)カレンダー(便利.com)
http://www.benri.com/calendar/2019.html
参考資料
Garbage in, garbage out(ウィキペディア)https://ja.wikipedia.org/wiki/Garbage_in,_garbage_out
HbA1c国際標準化 4月からJDS値からNGSP値に移行(糖尿病ネットワーク)
https://dm-net.co.jp/calendar/2012/016773.php
第11回CMC 相対危険(奈良県立医科大学 生物統計学2022)
https://medbb.net/education/nmubiostat2022/#11
仮説検定
お察しの通り科学の話をするには避けて通れません但し講義をすると,記述統計は楽だったのに急にわからなくなった.と多くのご指摘をいただいております
帰無仮説
p値さえあれば良いのじゃないの?と学生の頃は思いながらでした背理法に基づいたもので,最初に二つの仮説が存在しています.(帰無仮説と対立仮説 証明したいのは対立仮説)
演繹法で反証可能性を有する形で検証するスタイルになります.
結果についてはエラーが起こる可能性を有した格好ですし,誤った判断をする可能性はあります.
となるとp値が有意水準よりも低くなったからその論(対立仮説)は正しいことが確定したと捉えるのはまずいですよね
さらに一般論(仮説)が成立していない事柄について,エイヤで検定して有意差出た場合は科学的?
何故か有意な結果が出ない
サンプルの問題かもしれませんが,統計的有意差を追い求めるのであれば標本数を増やせば結果は得られるかと思います.でもそれぞれの群の値を比較しても臨床的に見て違いはないんですよね.臨床的に差が無ければ有意差があって意味無いですよね.
データは尤もな仮説を検証はするものの,仮説そのものを作り出すだけのものは持ち合わせていないというところです
多重検定
なぜいけないの?と聞かれます.仮説検定においては有意水準を設けて・・・としておりますが,多重検定の際に対立仮説をどのように設定しているのかだと思います.
確たる仮説がないままですと探索的な話でおかしな話ですし,仮説が多重に検定しなくてはならない仮説であれば全部ひっくるめた有意水準を維持する必要があります.補正が必要になりますが検定しても大丈夫です.
参考資料
演繹の前提を設置する思考過程(村中達矢,科学哲学42 巻 (2009) 1 号)https://www.jstage.jst.go.jp/article/jpssj/42/1/42_1_1_97/_article/-char/ja
終わりに
生活の場においては意思決定をする際は,帰納法により判断しているケースが多いのではないでしょうか.一方経験をベースにした根拠となる知見(科学的な根拠)は演繹法によって導かれています.
日常生活の場は検証の場では無いので当然と言えば当然ですが,臨床の場においては帰納法に基づく知見(仮説)も有用に思います.
但し,一般生活においても研究においても気を付けるべきは論のすり替えでしょうか.
無意識のうちに願望が前面に出ているケースもあるように思います.そのようなことにならないよう日々取り組んでください
参考資料
科学論理とデータサイエンスの流れ(山岡和枝,W'waves/3 巻 (1997) 1 号)https://www.jstage.jst.go.jp/article/wwaves1995/3/1/3_1_13/_article/-char/ja/
無作為比較研究(RCT)の場合(論文をいかに読み解くか? -あなたもデータに騙されてます-)(浅井隆,日本臨床麻酔学会誌/36 巻 (2016) 7 号)
https://www.jstage.jst.go.jp/article/jjsca/36/7/36_671/_article/-char/ja