奈良県立医科大学 生物統計学2024
(医学部医学科)

2024年度開講にあたって
https://medbb.net/education/2024init/

課題の提出状況については,出欠システムのところで表示するようにします.
9/1の1時限目 1回目の授業の課題
9/2の1時限目 2回目の授業の課題

評価は問題無しが○ ちょっと問題ありが△ 未提出が×で入力しています.それぞれ(出席)(遅刻)(欠席)と表記されると思いますがご注意ください
授業への出席は開講期間の部分でご確認ください 開講期間外の9月分はあくまでも上記のように課題の提出状況を示していますので勘違いされない様よろしくお願いします

なお,例年例題について回答が欲しいという声があるのですが,授業中に示したとおりですのであらためて掲載はしておりません.

課題提出フォーム

https://forms.gle/GFakVm7EbcneXmkT8

授業メニュー



第01回 科学と統計

第02回 記述統計(1)尺度,度数,代表値

第03回 記述統計(2)散布度

第04回 推測統計(1)点推定(平均と分散)

第05回 推測統計(2)区間推定(正規分布)

第06回 推測統計(3)平均値の区間推定(正規分布とt分布)

第07回 推測統計(4)母比率の区間推定(二項分布と正規分布)

第08回 【AB合同】中間まとめ(小テスト)

第09回 推測統計(5)パラメトリック検定

第10回 【AB合同】推測統計(6)ノンパラメトリック検定

第11回 相対リスク

第12回 ROC解析

第13回 相関係数,回帰分析

第14回 【AB合同】生存時間分析

第15回 【AB合同】まとめ

第01回 科学と統計

【GE-01-04-01】根拠に基づいた医療(EBM)の 5 つのステップを列挙できる
(教科書1章1,2)

授業の進め方

授業中は課題について廻りに相談せず各自で取り組んでください.不明点は私に質問してください.その内容をみなさんでシェア出来たらと思っています.
この授業は,2グループ制で行いますが,一部合同で行う回(第8回ミニテスト,第10回,第14回,15回)もありますのでご注意ください.
オフィスアワーは特に設けていないので,気になった時にTeamsからご連絡ください.

なぜ統計が必要なのか?

私たちはデータを取得して物事を判断し次の行動につなげている.
nmuhlthstat1_2024-0101.png(303517 byte)

科学

科学が日常生活を豊かにしていることは明らかであるものの,科学者の想いによらない使い方もされたり,世の中全てを科学で説明できない
小学校学習指導要領(平成 29 年告示)解説 理科編(文部科学省)
科学が,それ以外の文化と区別される基本的な条件としては,実証性,再現性,客観性などが考えられる。
実証性とは,考えられた仮説が観察,実験などによって検討することができるという条件である。
再現性とは,仮説を観察,実験などを通して実証するとき,人や時間や場所を変えて複数回行っても同一の実験条件下では,同一の結果が得られるという条件である。
客観性とは,実証性や再現性という条件を満足することにより,多くの人々によって承認され,公認されるという条件である。
小学校学習指導要領解説(文部科学省)
https://www.mext.go.jp/a_menu/shotou/new-cs/1387014.htm
【理科編】小学校学習指導要領(平成29年告示)解説(文部科学省)
https://www.mext.go.jp/content/20211020-mxt_kyoiku02-100002607_05.pdf
実証性
検討することのできる仮説が無いことには始まらない
再現性
同一の実験条件では同一の結果が得られる
客観性
多くの人々に承認される
chatGPTによる実証性に関する質問
「検討することのできる仮説とは」
ChatGPT3.5
検討することのできる仮説は、研究や分析の目的に基づいて多岐にわたります。仮説とは、観測された現象を説明するための仮定や推測であり、実験やデータ分析を通じて検証可能でなければなりません。(以下略)
「検討することが出来ない仮説とは」
ChatGPT3.5(纏めると)
検討することができない仮説にはいくつかの特徴があります。科学的な文脈で、仮説は観察や実験を通じて検証可能でなければなりません。
検討が難しい仮説の特徴
検証不可能,曖昧な定義,超自然的な要素,因果関係の証明が不可能,非現実的な条件

EBM

Evidence-Based Medicine
根拠に基づいた医療
「根拠」・・・科学的根拠と表現されているケースも多い・・・(経験則だけに基づかないようにという意味合いを込めてというところかな)

医療提供における「根拠」以外の要素

意思決定における3要素・・・根拠,価値観,資源
価値観は人によってさまざま
現有(もしくは調達可能な)資源で出来ることしかできない
医療資源
joho20140730-01.png(104237 byte)
不足の観点からみる医療2.0β より)
「根拠に基づく医療」(EBM)を理解しよう(厚生労働省eJIM(イージム「統合医療」情報発信サイト))
https://www.ejim.ncgg.go.jp/public/hint2/c03.html

EBMの5つのステップ

1.問題の定式化
PICO
P(Patient)どのような患者さん(対象)なのか
I(Intervention)どのような介入を適用しようとしているのか
C(Comparison)介入しない場合(もしくは他の介入)と比較して
O(Outcome)どのような結果になるのだろうか
2.問題についての情報収集
掲げた問題に相当するような情報(世の中にある研究論文など)を探す
3.情報の批判的吟味
情報そのものがどの程度信頼出来るのか,効果があるのか.
4.情報の患者への適用
今回の患者さんと情報で得られた患者像を同じと見做し適用して良いか,問題あるのか
5.1~4 のstepの振り返り
研究の場合もPICO/PECO(E(Exposure) 治療などの介入ではなく曝露)で整理し目的を明確化します.
EBMはある患者さんに医療を適用するために情報を検索という流れですが,研究はある仮説を明らかにするために目的を明確化してデータ収集・分析となります.
南郷栄秀,Evidence-based medicine:診療現場でのプロブレムの解決法 日内会誌 106:2545~2551,2017
https://www.jstage.jst.go.jp/article/naika/106/12/106_2545/_article/-char/ja/
特集:EBMとEBH『公衆衛生研究』 第49巻 第4号 (2000年12月)

EBMの5ステップと意思決定の3要素

EBM1~3ステップが根拠の部分
根拠とする情報に実証性と再現性と客観性があったほうが良いというところは理解できるかと(つまり科学としての基本的な条件を満たしている方が良いだろう)
研究の方法によって,グレードが変わるのはそれらの要素が方法によって異なってくるので
ステップ4においては価値観と資源を含めた形となる
提出課題
1:あなたが思う「らくたん」を漢字で示せ
2:根拠に基づかない医療とはどのようなものかお考えを教えてください(短文で)
締め切りは授業日の22時00分までとします.
提出いただいた内容は例えば以下のような形で可視化した格好で示せたら良いなと思っています
(正直どうなるのやらわかりませんが)
futuremed20190406-02.png(165988 byte)
保健医療分野におけるフューチャー・デザインの可能性 より)

課題の感想等

1)
漢字 度数 コメント
落胆 60 入学したのになぜ落ち込むのだろう.相談乗ります
落単 25 そのようなことにならないことを祈っています
楽単 21 楽しく学修し単位を取得してください
スポーツ実践 1 これを らくたん と読むのか.油断しない様受講して
楽探 1 楽しく探究できるよう私も頑張ります
楽胆 1 楽しんでいただけるのならば何より.でも違うのかもしれないな.相談乗ります
健康 1 体調の問題で無ければ良いのですが.相談乗ります
落単します 1 その宣言を現実にならないようにするのが私の役目です.前向きに取り組みましょう
<参考>楽胆(人間詩人 小説家になろう)
https://ncode.syosetu.com/n2975fr/

2)
nmubiostat2024-0101.png(231577 byte)

第02回 記述統計(1)尺度,度数,代表値

(教科書2章1)
nmubiostat202102-02.png(396280 byte)

統計に用いるデータ

基本どのようなデータでも統計処理は出来る
出来ないのは,どのようなデータであっても一つしか存在しない時

データについて

レコード
症例,個体,被験者単位でまとめられたデータの塊.表の場合一行にその症例のすべてのデータを記していたらそれがレコード
変数(変量)
データの項目名のこと
データ
観測値や測定値のこと(数値)だけでなく性別など文字の場合もある.
コンピュータ処理するとき,文字だと扱いにくい時があるのでその時は数字に置き換える(→コード変換)
例えば都道府県名であれば 北海道→01 青森県→02 奈良県→29
全国地方公共団体コードの上二桁=都道府県番号
<参考>全国地方公共団体コード(総務省)
https://www.soumu.go.jp/denshijiti/code.html
都道府県番号の順序を用いて説明する事柄は存在しない.一方,文字で順列の存在するもの(松 竹 梅)はその法則にしたがった番号を振ることがあるので注意

変量(データ)の分類

変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。
それぞれを尺度と呼び、4つに分類するのが一般的である
1分類尺度(名義尺度)
2順序尺度
3間隔尺度
4比尺度(比例)(比率)

1,2を質的変量(定性的)
3,4を量的変量(定量的)
性質としては上位互換性があり
4>3>2>1
nmuhlthstat1_2024-0103.png(363067 byte)

統計量

取りまとめたものを「量で」示したもの.質的変数であっても度数(個数,人数など数えるもの)については「量」として示すことが出来る

度数

どのようなデータでも度数を示すことは可能
度数分布表
それぞれのデータ(変量)の数(出現頻度)をまとめたもの
変量が名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数  ・・・出現頻度
相対度数・・・総出現頻度を1(100%)としたときのそのぞれの度数のしめる割合
累積度数・・・上位の変量の度数もあわせた度数
累積相対度数・・・累積度数の相対版
例題2-1
以下の店名別のみかんの売り上げデータより度数分布表を作成せよ
日付 店名 数量(箱)
9月1日 奈良本店 1400
9月1日 大和郡山店 700
9月1日 大和高田店 450
9月2日 奈良本店 1000
9月2日 大和郡山店 900
9月2日 大和高田店 1100
9月3日 奈良本店 1600
9月3日 大和郡山店 400
9月3日 大和高田店 850

店名 度数 相対度数 累積度数 累積相対度数
 
 
 
 
  1.00
1.00 ----- -----
量的変数の度数分布表
量的変数の場合はその数値だけで度数を積み上げようにもなかなか上手くいかない場合がある.
血圧 163.5mmHg 164.2mmHg 162.5mmHg・・・どれも度数を積み上げられない → 区間を設定する
「A~B」は「A以上B未満」と読む格好と思っていたが,分野などによって違うようです
「A以上B以下」のようにどちらの階級にも属してしまう可能性のある設定はしないように.
階級 階級値 度数 相対度数 累積度数 累積相対度数
130~140 135
140~150 145
150~160 155
160~170 165
170~180 175
----- -----
度数分布図
質的変数・・・縦棒グラフ
nmuhimstat2021-01.png(3771 byte)
量的変数・・・ヒストグラム
nmuhimstat2021-02.png(3656 byte)
棒の間隔が無いのは値が連続している状態であるが故
普通の棒グラフは棒の長さが度数を示すが,ヒストグラムは棒の面積が度数を示す
「階級の幅を等しくすること」と説明している場合があるが,それは幅が変わると高さが変わる故で,実際にはそのような区間設定はよくある
以下の参考資料に区間幅の異なるヒストグラムについても説明なされているのでよろしければごらんください
ヒストグラムーなるほど統計学園(総務省統計局)
https://www.stat.go.jp/naruhodo/4_graph/shokyu/histogram.html

記述統計量(代表値)

代表値と散布度からなる.←駅伝やマラソンの実況中継はこれらを利用しているから状況がわかる
平均(Mean)
算術平均
いわゆる割り勘.xbar=1/n(x1+x2+・・・+xn)
欠点:外れ値があると平均値は分布の中心位置を示さない(←それって代表的な値??)
 → 対処法:外れ値を取り除くか中央値を使うか
幾何平均(相乗平均)
全て掛け合わせて累乗根をとる
加重平均
重みづけ平均
例えば ミニテストと期末試験の平均をとる → そのままの平均で良いの?
度数分布表を用いた平均もこの方法・・・Σ(階級値×階級の度数)/n
中央値
昇順に並べたときに,真ん中の順番のデータ(変数)の値
データの数が偶数だと真ん中のデータは二つになるのでそれらの平均値
最頻値
最も個数が多いデータの値
最頻値は複数存在する場合がある→二峰性
平均値と中央値の考え方の違い
nmuhimstat2021-11.png(10453 byte)
平均値(14.55)
nmuhlthstat202102-01.png(21147 byte)
こちらは分布なんて関係なく中央値(15) データの分布に依存する(パラメトリック)=平均値 と データの分布に依存しない(ノンパラメトリック)=中央値,最頻値の関係がわかるかなと思います
例えば5が0に変わってしまうと平均値は大きく変わりますが,中央値は変わりません
パラメトリック・・・数値に依存する(数値の分布によって値が影響を受ける)というとイメージしやすいのかな?

記述統計量(散布度)

範囲
最大値と最小値の差
四分位範囲
IQR=第3四分位数(75%点)-第1四分位数(25%点)(参考:中央値=第2四分位数(50%点))
第3四分位数(75%点)の算出方法は数多くありまして・・・
一番わかりやすい四分位数の出し方は以下参照ください
実際には何種類か出し方があります.
ダンゴ包丁理論(tukeyのヒンジ) https://medbb.hatenablog.com/entry/2020/12/12/091240
分散 標準偏差
範囲を用いた散布度と違い,平均値からのバラツキ(差=偏差)の平均を求めようというもの
ただし偏差の平均をとれば集団内の各々のズレっぷりがわかると思って計算しても → 合計は常に0 故に平均も常に0
そこで偏差を二乗したものの平均を取っている → 分散
標準偏差は分散の正の平方根をとったもの
nmubiostat2016-0302.png(3064 byte)
例題2-2
以下の個票データから
ID 収縮期血圧(mmHg)
1 130.0
2 140.5
3 176.7
4 160.0
5 128.3
6 143.2
7 151.7
8 126.3
9 132.8
10 142.5
1)収縮期血圧の度数分布表を作ってください(区間は10mmHg刻み)
階級 階級値 度数 相対度数 累積度数 累積相対度数
130~140 135
140~150 145
150~160 155
160~170 165
170~180 175
----- -----
2)収縮期血圧の平均を求めてください
3)1で作成した度数分布表より収縮期血圧の平均を求めてください
4)収縮期血圧の範囲,四分位範囲を求めてください
5)収縮期血圧の標準偏差を求めてください
6)下記の度数分布表の空欄部A,B,Cを求めよ
階級 階級値 度数 相対度数 累積度数 累積相対度数
0.5~1.0
1.0~1.5 6 A 0.325
1.5~2.0 0.1 17
2.0~2.5 B 0.65
2.5~3.0 7
3.0~3.5 0.125 C
3.5~4.0
----- 1.00 ----- -----
提出課題
1. 2.

【工事中】第03回 記述統計(2)散布度

(教科書2章1)

【工事中】第04回 推測統計(1)点推定(平均と分散)

(教科書2章1)

【工事中】第05回 推測統計(2)区間推定(正規分布)

(教科書2章1,2,3)

【工事中】第06回 推測統計(3)平均値の区間推定(正規分布とt分布)

(教科書3章2標本平均の理論分布と標準誤差(SE),4章1正規分布とt分布の違い,2)

【工事中】第07回 推測統計(4)母比率の区間推定(二項分布と正規分布)

(教科書7章1)

【工事中】第08回 中間まとめ

(小テスト)

【工事中】第09回 推測統計(5)パラメトリック検定

(教科書4章1,5章1,教科書8章1,3,10章1Q7)

【工事中】第10回 推測統計(6)ノンパラメトリック検定

(教科書4章3,5章4,8章2)

【工事中】第11回 相対リスク


【工事中】第12回 ROC解析

(教科書6章1,2,3)

【工事中】第13回 相関係数,回帰分析

(教科書9章1,2,3)

【工事中】第14回 生存時間分析


【工事中】第15回 まとめ