奈良県立医科大学大学院医学研究科 医の共通科目(分担:研究におけるデータ収集と統計処理について)
(博士課程,修士課程)

当日リアルタイム配信では声が反響し(畝傍山キャンパスで17時50分まで授業だったのでそのまま3階の演習室に移動し配信したのですが)聞き取りにくい部分があったとお聞きしております.失礼しました.
講義の最後にご案内したとおり,今回の講義資料を作成しながら収録したものがありますので以下に公開しておきます

20250616追記
 オンデマンド版については公開を終了しています(講義終了後一定期間経過したので)
ただし,受講対象者の院生で閲覧したい方がおられましたら,2025年開講にあたってのページのトップにあるフォームから.大学から配布されたメールアドレスを入力して私にその旨ご連絡ください

2025年度開講にあたって
https://medbb.net/education/2025init/

本講義について

https://medbb.net/education/nmucsmed2025
nmucsmed2025-00.png(2796 byte)
大学院進学おめでとうございます.自分の明るい未来に向けて夢と希望を持ち合わせている方,そのまま突っ走ってください.なんとなく流れで入学された方.人生そんなものでもあります.流れに乗るにはこの世界楽しむことと思います.
学術の世界は実直に取り組む方を大切にする文化があるように感じています.「新たな知見」の産み出す苦しみを感じると思いますが,それ以上の楽しさもそれなりにある感じです.
私は大学院生活をおかわりしたくないと思う一方,その後の人生を歩むにあたりこの時代の経験は(いろんな意味で)人生を強く生きていく上で役に立っているように思います.

概要

 人々は日常生活において経験や伝聞に基づいた知見に基づき,状況を判断し意思決定を行っている.
一方研究における「新たな知見」の獲得は日常のプロセスと異なる部分があり,科学的な検証が求められる.
 本講義では研究を進めるにあたって,日常生活と科学における知の違いを示したうえで,データの取得から統計処理までを中心に整理していく.

ねらい

 博士課程の方,修士課程の方と対象が幅広いことや限られた時間でありますので,これまでに講義してきた中で感じたことや伝えきれていないようなこと,またデータを取り扱っていく上で私が気になった,もしくは周囲の人が気になって相談してきたことをまとめることにしました
 この時間を通して日常生活と学術研究の違いについて考える機会になればと思っております

学部学生を見ていて大学院生になった皆様に対して思うところ

中等教育まで・・・日常生活の延長線上での取り組み方が多いように思う・・・結果が支配的・・・故に設定されている結果に対して幅広い選択肢の中から自分の好む方法で辿り着く
高等教育以降・・・徐々に学術視点・・・結果だけでは不十分,結論に至るまでの道筋が大切・・・まだ誰も想定していない未来を描くのでゴールの無い世界
道筋に興味を持てない人は,新たな道筋を見いだせないので新たな知見に辿り着くのは大変に思う

積み重ね

知の積み重ねとは → 丸暗記型の学生はしんどくなっていく
 → 知識の積み上げになっていない→情報を貯めているだけ(試験のために必要な事柄という情報として取り扱っているから知識になりにくい)
大学院では
大学院では自分なりな知の積み上げ → 新たな知見へ
修了(学位取得)は新たな知見のアウトプットに基づき判断 → 公聴会

生活者として目指している事,研究者として目指している事

纏めてみると技術者はどちらも鑑みないといけないので,その中間に位置しているのだろうと思いました.
ですので,研究者としての視点をこの機会に堪能してください
生活者の視点 研究者の視点
限られた中で工夫を凝らしながら周囲を含めた幸せな人生を 限られた中で工夫を凝らしながら新たな知見を
日常生活では自身の想いを実現する都合の良い奇跡が起こることを心待ちにしている 研究生活では論拠に基づく新たな知見(仮説)が,当然のように研究結果(事実)として出てくることを心待ちにしている
事実が全ての世界 真実が全ての世界
科学は正しい 科学は正しいと言い切れない

科学

科学が,それ以外の文化と区別される基本的な条件としては,実証性,再現性,客観性などが考えられる。
実証性とは,考えられた仮説が観察,実験などによって検討することができるという条件である。
再現性とは,仮説を観察,実験などを通して実証するとき,人や時間や場所を変えて複数回行っても同一の実験条件下では,同一の結果が得られるという条件である。
客観性とは,実証性や再現性という条件を満足することにより,多くの人々によって承認され,公認されるという条件である。
<引用>
小学校学習指導要領解説(文部科学省)
https://www.mext.go.jp/a_menu/shotou/new-cs/1387014.htm
【理科編】小学校学習指導要領(平成29年告示)解説(文部科学省)
https://www.mext.go.jp/content/20211020-mxt_kyoiku02-100002607_05.pdf

世の中には未だ(これからも)科学的に証明されていないものは存在する

生活者の視点だと流通している食材は安心安全な食材で科学的に検証されている(=故に科学は正しい)と捉えてしまうように思います.
「フグの卵巣」は科学的に証明されていない手法で,安心安全な食材として流通しています
一般的に技術=科学技術と置き換えてしまっているように思いますが,科学で説明できない技術に基づくものは社会に存在します.
当然ながらその技術も正しく使わなければ安全な食材にはなりません
世の中全てを科学で語ることができたならば,それはより良い未来に繋がるだろうと思いますが,世の中そんなに甘くないというところですかね
<参考>
世界の珍食一位猛毒「フグの卵巣の糠漬け」(東京新潟県人会)
https://kouhou.niigatakenjinkai.com/?p=2835
COREZOコレゾ「自分に抱え込もうとすると、水は溢れ出し、外に押し出せば、水は自分のところに流れ込んでくると、郷土の伝統食品、ふぐ卵巣ぬか漬を守り続ける七代目」賞(一般財団法人コレゾ財団)
https://corezoprize.com/araki-toshiaki
No.19001 フグ(卵巣)による食中毒(H-CRISIS 国立保健医療科学院)
https://h-crisis.niph.go.jp/archives/136651/

実証性

「考えられた仮説」が無いことには始まらない→仮説検証型
それでは「考えられていない仮説」とは?
→まだ十分に確固たる仮説として成立していない仮説

仮説検証型と仮説探索型

仮説探索型とは「考えられた仮説」が存在せず(関心ある事象など),得られた結果は「考えられた仮説」になる可能性を有するので「まだ考えられたと言い切れない仮説」

再現性

仮説を実証するために得られたデータから複数回,同一の検証結果になること
「常に」同一の検証結果になることを求めていないが,それは求められないから

再現性の限界

再現性の条件は「仮説の実証を複数回行っても同一の結果が得られる」ことですが,その回数が無限であるならばその条件は永遠に満たされません.
故に有限となりますが,それはある回数(x回)まで同一の結果としても,x+1回目以降同一の結果にならない可能性を含んだものになります.
これは未来において,その仮説が覆される可能性があることを示すもので,反証可能性といわれるものです.
再現性の限界を超える方法
「仮説の実証を∞回行っても同一の結果が得られる」
実証で得られたデータについてどのようなものであっても同一な結果が出るように判定基準を定める
問1 再現性の限界を超える(同一の結果が100%出るような判定基準を定める)ことがよろしくない理由
判定基準
同一の結果が100%出るような判定基準を定めた場合,その結果は「科学を超越した何か」に基づくものになります
問2 「科学を超越した何か」に基づく話にどのようなものがあるのでしょうか
<お時間あるときにどうぞ>科学と疑似科学を分ける2つの基準(森田 邦久 科学哲学/42 巻 (2009) 1 号)
https://www.jstage.jst.go.jp/article/jpssj/42/1/42_1_1_1/_article/-char/ja

故に判定基準は「同一の結果」が100%の確率で出現しないことを示しておく必要が出てきます 例えば仮説の実証を行うにあたって判定基準を具体的な効果量とした場合,その判定基準が「『同一の結果』が100%の確率で出現しない基準であることを説明できません.
例えその判定基準が医学的に妥当なものであるかどうかは「再現性」と関係ない話になります
故に仮説検定では効果量で判定せずに確率に基づいて行わない限り科学の枠組みに収まっていることを主張できません

統計的有意差と臨床的有意差

確率に基づき計算した量を統計的有意差と呼びます.
知見は社会実装することで社会に貢献できますが,医療現場においては臨床的に効果があるとされる量を指す臨床的有意差が結果として求められます
当然ですが臨床で必要とされるのは,統計的有意差よりも臨床的有意差が重要です.しかしながら「科学的」な観点では前者が重要になります.(科学的な話なので)

確率の違いを量で示すと,サンプルサイズにより変化します.
各群サンプルサイズ10の場合で検定すると10kg程度となるが、そこまで体重が変化しているとなにか違う出来事が起こっている気がする
各群サンプルサイズ1000の場合検定すると1kg程度で有意な結果となるが、本当に意味あるのか気になる
 nmubiostat2016-0901.png(37095 byte)
例えば臨床的有意差が統計的有意差(に基づく効果量)よりも大きい場合は再現性については確認できたものの臨床的な観点で確認していません.統計的には良いが,医科学的には?という結果になります
故に臨床的有意差に基づきサンプルサイズを決定することで二つの違いを解消できます
一般にはサンプルサイズが大きいほど推定の場合は精度の高い結果が得られるので好ましいという感覚に思いますが,あくまでも区間推定の話で仮説検定においては状況が異なります

統計的有意性とp値に関するASA(アメリカ統計協会)声明

<参考>統計的有意性とP値に関するASA声明(日本計量生物学会)
http://biometrics.gr.jp/news/all/ASA.pdf
以下の内容が指摘されています
1. p値はデータと特定の統計モデルが矛盾する程度をしめす指標のひとつ
2. p値は、調べている仮説が正しい確率を測るものではない
3. 科学的な結論は、p値がある値を超えたかどうかにのみ基づくべきではない
4. 適正な推測のためには、すべてを報告する透明性が必要
5. p値は、効果の大きさや結果の重要性を意味しない
6. p値は、それだけでは仮説に関するエビデンスのよい指標とはならない

データで示される事実と真実の不一致

研究は,現象を確認できる事実に基づいて取りまとめた上で客観的な真実を追求する取組 ということと理解しています
事実はあくまでも出来事そのものになるので,データに変換する時点でモノやコトから分離されます.
これらのデータを用いた研究では,たとえ研究のために取得したデータを基にしても事実とは異なる可能性を否定できません.
nmuhlthstat1_2024-0101.png(354590 byte)
事実 →【測定・観察】→【記録】→ データ →【統計処理】 → データ(【二次利用】)
の流れに沿って以下何が起こりうるのか

【測定・観察】測定機器の不適切な使い方

この手の話はちょっと文字に起こしにくいので,ファンタジーな世界での出来事を紹介します.
あと他言は無用です.ポイントのみ記憶に留めあとは綺麗に忘れてください
重要な話ですが,データとなってしまったものは,そのデータの振る舞いで判断するしか術がありません
測定時点で出力がおかしいことに気が付くと良いので,そのような仕掛けを測定系に含めるのが良いかなと思います

【測定・観察】測定機器の特性による話

測定装置からダイレクトにデータをサーバーに送ってもらう等,人の手を介さない形で取得できるケースも多くなってきました.
しかしながら,測定装置の特性について技術者側と研究者側で理解に相違があると困った事態になります
無論,転んでもただでは起きないよう取り組むのが研究に向き合う正しい態度に思います(のでエラーの話もどこかで昇華しています)
RF-IDタグを用いた研究に参画していたのですが,いろいろ経験しました
想定していなかったエラーデータが山のように出現し・・・
huhmacollab2018-10.png(357084 byte)
huhmacollab2018-11.png(213654 byte)
huhmacollab2018-12.png(185389 byte)
産学官連携マネジメント論2018(分担:地域医療と産学官連携) より
この時はエリア間の移動を把握しようとするのですが,建物には鉄筋が入っているので電波が乱反射
出てきたデータを見て呆然としつつデータクリーニング
このエラーは「仕様の範疇」であるからエラーではないとしているが,利用者側としてはエラーとして処理しないと実態を示すところまで辿り着かない
よくわかる研究論文のクリティーク第2版 クリティーク・チェックシート
に本件に関する論文の情報が出ています

【記録】間違えないと進めない世界

人が直接データを入力すると間違いがあっても当然と思います
なるべく人を介さないようにするのが良いのでしょうが,研究においてはそのような環境は出来ないことも多いかと
そこで,入力するカラムに入力に制限をかける方法もありますが,思うように入力できないなどの弊害も出てきます
その中で,データが欠損している場合ルールを決めなくてはいけません.
知恵絞って【999999】などなどありえないような数値を入力してしのぐことがありますが,そのルールが共有されていないと謎数値が誕生します
あとは一列ズレたまま入力とか,被験者IDがズレて入力など・・・
データクリーニングすること前提ですが,例えばID以外の本人の属性情報も入力するなど他のデータと突合できるような設計にすることが必要かと思います.
地道なクリーニングになりますが,出来ないものもあるので(オリジナルの資料が存在しないなど)悩ましいところです

【統計処理】分散と不偏分散の話

事実を示すデータを取得できたとしても,とりまとめる過程において不適切な取り扱いにより真実を見誤る例
事実とは実際の出来事・・・記述統計
真実とは実際の出来事をベースに見いだす・・・推測統計
事実と真実が異なる例として「分散」の話が挙げられます.
記述統計(事実)の世界では偏差平方和をサンプルサイズnで除するという,非常にわかりやすい定義
推測統計(真実)の世界では偏差平方和をサンプルサイズn-1で除するという,事実側から眺めると理解し難い定義(?)
ちなみにですが,母集団からサンプルサイズ10の標本を2000ほど抽出した平均値のヒストグラム
母集団の平均は125.0なのですが,ピッタシは1%程度 事実から外れているものの外れっぷりは程があります.推定は当たらないけど程がある(不偏)のがよいというところです
medbbstat2022-0202.png(96791 byte)
さて分散ですが,母集団の平均(本来知る由もない事実125.0)を用いて2000の標本それぞれの分散を求めたヒストグラムです(ちなみに母分散も本来知る由もない事実81.0)
medbbstat2022-0204.png(137439 byte)
もし母平均を事実として知っていたならば,上記のように標本から求めた分散は標本平均の時と同じように母分散ピッタシは期待できないものの外れっぷりに程があります
残念ながら母平均は知らないので,標本平均を用いるしかない(事実から算出しているものですが母平均そのものではない)のですが,以下のようになります
medbbstat2022-0203.png(135831 byte)
ピッタシは期待できないどころか,外れっぷりも値の低い方に偏っているのが確認できると思います
そこで同じ標本の平均を用いて事実とは異なる分母(サンプルサイズ-1)で偏差平方和を除すると以下のように(本人は知る由もないが)外れっぷりに程がある結果となります
medbbstat2022-0205.png(146106 byte)
事実は正しいが客観的な真実に辿り着くには,事実に重きを置きすぎるとその先を見誤ることもあるということを示している例に思います

【統計処理】平均よお前もか

平均値を使うと新たな関係(事実)が爆誕することもある

例えば2変量の相関を求める時以下のような処理をしたことありませんか?
nmucsmed2025-01.png(272205 byte)
X軸が気温,Y軸が炭酸飲料の売り上げ本数になります.左がオリジナル 右がY軸(本数)をX軸(気温)ごとに求めた値で作成したものです.
以下のデータを用いました
<出典>
ともなって変わる二つの数量の関係(中学生のための統計学習 東京都総務局統計部)
https://www.toukei.metro.tokyo.lg.jp/manabou/tyuu/sirou2/tokutyou2/ma1206t24b.htm
以下は身長と体重を乱数で適当に割り当てたデータを作成したものです.
nmucsmed2025-02.png(335868 byte)
X軸が身長,Y軸が体重になります.左がオリジナル 右がY軸(体重)をX軸(身長)ごとに求めた値で作成したものです.
これまでの常識を覆すことの出来る望んでいた結果が出てきました.(この講義で本件のような事象が起こりうることを説明したかったので)
何回も繰り返しデータ抽出して都合のいいデータを載せてますが,それが一回目のチャレンジで得られた可能性も当然あります
問3 なぜ平均値を用いると相関関係があるようなものが見られるのでしょうか

平均値は万能ではない

2群の比較をするとき,平均値で行うこと(すなわちt検定)が多いかと思います.それは中心極限定理があるから・・・という話でしたが
中心極限定理
サンプル数が多ければ標本平均の分布は正規分布になる

あまりにも分布が違う場合は平均値で解釈するとおかしなことになることがあります
例えばA群は100人中全く当たらなかった人は10人,1回当たった人は10人・・・という格好になります
nmucsmed2024-03.png(332403 byte)

【二次利用】実態は事実かもしれないし,私たちの想定を超える事実が含まれたものかもしれない

人口動態に関する指標 出生であったり死亡などは年間の集計値を教えてもらった時,12や365で除することで月平均,一日平均を計算するのではないかと思います
例えば,年間を通してデータを取っているものに出生数があります
人間は周年繁殖動物とされているので一年の中で本来季節の影響は少ないように思います
しかしながらデータを見ると生活空間においてはなにかしら季節の影響を受けている事,それに加えて社会の仕組みが影響を与えていることも見て取れると思います
nmucsmed2025-03.png(499488 byte)
<参考>
ヒトの“繁殖期”は10~11月?(日経メディカル)
https://medical.nikkeibp.co.jp/leaf/mem/pub/hotnews/int/200711/504694.html
カンニング竹山 誕生日4月2日も「本当に生まれた」日を告白 戸籍上ずらす行為「今やると罪になる」(Yahooニュース)
https://news.yahoo.co.jp/articles/1f8bff31191b583a93909f74cc271b04698cbfd1

問4 このデータは想定(出生数は一様ではない)と違う場合,いくつかの要因が含まれたものになりますがどのようなことが考えられるでしょうか

【二次利用】質問紙調査が事実を示すことの限界

研究においてアンケート調査を行うときも同様ですが,自身で取得した場合は分析過程で状況を把握できるように思いますが,二次利用の場合は特にご注意ください
下記のものからAge Heapingを確認できるかと思います.
nmucsmed2025-04.png(215625 byte)
インドネシアの人口ピラミッドと Age Heaping(インドネシア中央統計庁(BPS)に対する技術協力 総務省統計局)
https://www.stat.go.jp/info/meetings/develop/pdf/ind_pyra.pdf
https://www.stat.go.jp/info/meetings/develop/indones.html

終わりに

 受講されたみなさんは院生としての取組が始まったところですが,なにかのお役に立てたのであれば幸いです.
私はお陰様で,入学したての皆さんにお話しできる機会を頂きそのテーマについて考える機会を頂いております.
 学会などで講演をされる先生が「このような機会を頂き・・・」と仰っている場面に遭遇しますが,以前は枕詞なんだろうと勝手に思っていました.
授業も含めですが,実際に話す機会を頂くことは緩やかな緊張感を持ちながら考える機会を頂いていたことに,ある日気が付きました.
授業で毎週言うのは「ひつこい」ので,概ね最終回などではその旨自然に口から出るようになりました
結局,自分の知識を含めテーマに合わせてアウトプットする準備をする中で,自身の考えが至らない部分に気が付くからだと思います.
ですので,皆さんはゼミであったり研究会であったりなにかしらお話しする機会を頂いたら,「無茶振り」と思っても理由を並べて断らず,それなりに調べて自身の見解なども含めて取り組んでください

 本講義は数年前から「日常生活と科学」という切り口でお話ししておりコンセプトは変わりませんが「事実と真実」に置き換わってきたなぁと感じた次第です.
「科学」という言葉は「科学忍者隊」という日常生活を悪から守る集団がおりますし,「科学技術」は日常生活を便利に豊かにしてくれるので,社会において評価いただいているところと思います
一方ですが,事実は一つであるものの真実は一つとは限りません.科学が行っていることは小さいが世の中の人が異論を挟まない真実を産み出すことと思っています.それらを丁寧に一つ一つ組み合わせていく事でその事実を一連の真実で説明できるようになると思います.
はたして科学が真実を一つにしうるのか?というところです.今回の講義は科学の限界についても考える機会になったのであれば幸いです.

これから楽しいことはありますが,呆然と立ち尽くすこともあるかもしれません.是非良かったと振り返ることのできる学生生活をお過ごしください.
「研究におけるデータ収集と統計処理について」における「事実」と「真実」の出現頻度の変化
(授業本編のみで「終わりに」を除く)
FY2022 FY2023 FY2024 FY2025
事実 0 0 27 28
真実 0 0 8 13

<参考>
「事実」は一つだけれど「真実」は人の数だけある- 正しく情報と付き合うために -(株式会社日立アカデミー)
https://www.hitachi-ac.co.jp/news/column/2022/colum_2204.html
ある学会でシンポジウムで発表することになりました。そこで発表の冒頭のあいさつでどのように話せばよいかご教示ください。(Yahoo知恵袋)
https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q14149963509
「このような機会をいただきありがとうございます」と伝えるコツ(indeed)
https://jp.indeed.com/career-advice/interviewing/thank-you-for-giving-me-this-opportunity