大阪リハビリテーション専門学校理学療法学科 統計学2022

統計の基礎部分のフォロー講義開講に関する情報
統計の基礎部分のフォロー講義(オンライン)ですがzoomで行います.
4つの尺度から記述統計,そして推測統計の入り口まで行います
告知の通り日曜の午前中が都合がつきやすいと思い設定させていただきました.
日程 タイトルは以下の通りです
2023年12月10日(日)10時~12時 統計学(1)尺度と度数

2023年12月17日(日)10時~12時 統計学(2)代表値と散布

2024年 1月 7日(日)10時~12時 統計学(3)母平均と母分散の点推定

2024年 1月14日(日)10時~12時 統計学(4)母平均の区間推定

申し込みされる方は以下のpeatixのページからお願いします
https://medbbstat2023.peatix.com
講義資料のページは以下になります
https://medbb.net/education/medbbstat2023

授業について

教科書

理学療法研究法(医歯薬出版株式会社)
https://www.ishiyaku.co.jp/search/details.aspx?bookcode=267350

取り上げていない部分 3章7章
授業メニュー
第1回 研究法(1)量的研究(観察研究1)

第2回 研究法(2)量的研究(観察研究2 症例対照研究,介入研究)

第3回 ROC曲線

第4回 統計解析(1)記述統計(度数,代表値,散布度)

第5回 統計解析(2)推測統計(点推定)

第6回 統計解析(3)推測統計(区間推定)

第7回 統計解析(4)推測統計(検定)

第8回 まとめ

第1回 研究法(1)研究について,量的研究(観察研究1)

到達目標
1-1PICO,PECOについて説明できる
1-2観察研究の流れや利点欠点について説明できる
教科書P1-10,13-18,P149

なぜ統計の授業で研究の話がでてくるの?

研究の目的・・・新たな知見(因果関係)・・・データを分析して証明
臨床現場においてもデータを分析することでより良い医療に貢献できる

クリニカルクエスチョン

臨床研究の出発点に辿り着くこともある
臨床でふと思った疑問のこと

リサーチクエスチョン

クリニカルクエスチョンを発展させ臨床研究の形式に発展させたもの
倫理的,経済的な側面をクリアした実際に研究できる格好にしたもの

PICO

(観察の場合はPECO)
Patient,Intervention(Exposure),Comparison,Outcome

FINERの基準

Feasible,Interesting,Novel,Ethical,Relevent

研究デザイン

横断研究

ある時点における個人単位での状態と要因について一度に調査
累積有病率など
因果関係を明らかにできない(原因(曝露)があって結果になる)

縦断研究:コホート研究

前向き研究
コホート・・・追跡する集団 結果より原因が先行する・・・原因(曝露)に基づく集団・・・曝露情報の妥当性が高い ・利点(時間の流れに沿った解釈が出来る 稀な曝露に対応できる) ・欠点(追跡にコストがかかる 稀な疾患には対応困難)
相対危険
リスク比を求めることが出来る
nmupnr2022-1101.png(337834 byte)
リスク比
Risk Ratio(RR)
曝露(介入)の有る時と無の時の危険を示す指標の比
危険を示す指標には罹患率やら有病率やら死亡率やら

A~D:疾病発生頻度
説明用データ
疾病発症 疾病無
曝露有 A B A+B
曝露無 C D C+D
A+C B+D

曝露有群の発症リスク=A/(A+B)
曝露無群の発症リスク=C/(C+D)
リスク比=A/(A+B)/C/(C+D)

相対危険
リスク比を求めることが出来ない
オッズ比を用いる
オッズ比
Odds Ratio(OR)
危険な事象が起きた場合と起きなかった場合の指標の比(=オッズ)について曝露(介入)の有無毎に求め比をとったもの

発症有群の曝露オッズ=A/C
発症無群の曝露オッズ=B/D
オッズ比=A/C/B/D
    =AD/BC

例題

以下のコホート研究の結果からリスク比を求めよ
不整脈あり 不整脈なし
曝露群 100 1900 2000
非曝露群 50 1950 2000
150 3850 4000

研究法(2)量的研究(観察研究2 症例対照研究,介入研究)

到達目標
2-1介入研究の注意点について説明できる
2-2適切な相対危険の算出ができる
教科書P18-25,56-71,148-149

縦断研究:ケースコントロール研究(症例対照研究)縦断研究

後ろ向き研究
症例群,対照群・・・過去に遡って追跡する集団
観察の方向性では原因より結果が先行する・・・結果に基づく集団・・・疾病発生情報の妥当性が高い
・利点(短時間で行える 稀な疾患に対応できる)
・欠点(曝露に関する妥当性が低い)

介入研究

実験研究ともいう
前向き研究

コホート研究との違い

曝露を研究者がコントロールしない・・・コホート研究
曝露を研究者がコントロールする・・・・介入研究
研究参加者に不利益が出ないように・・・介入するので観察研究よりも配慮したデザインが求められる
倫理的に実施不可能な研究も出てくる.

倫理審査

実施する研究の科学的合理性や倫理的妥当性について第三者が判断
倫理審査委員会で実施
ヘルシンキ宣言・・・人間を対象とする医学研究の倫理的原則

インフォームドコンセント

説明と同意 

3つのプロセス

1.研究対象者の候補者・・・同意能力を有する個人,または代諾者が存在すること
2.研究について研究者から候補者または代諾者に説明がなされること
3.候補者または代諾者が説明を理解したうえで自発的に同意すること

方法

1.文書
2.口頭
3.オプトアウト

ランダム化比較試験

介入群と対照群が偏らないようにランダムに割り付け

目的

研究結果が背景因子の影響を受けないように
準ランダム化比較試験
乱数表を使わずに(例:カルテ番号)振り分けする方法
層別ランダム化
対象者が少ない場合・・・背景因子によって層別化してその中でランダム割り付け

オッズ比とリスク比

リスク比は前向き研究でしか使えない
nmupnr2022-1102.png(335461 byte)

オッズ比

Odds Ratio(OR)
危険な事象が起きた場合と起きなかった場合の指標の比(=オッズ)について曝露(介入)の有無毎に求め比をとったもの

発症有群の曝露オッズ=A/C
発症無群の曝露オッズ=B/D
オッズ比=A/C/B/D
    =AD/BC

リスク比(振り返り+α)

Risk Ratio(RR)
曝露(介入)の有る時と無の時の危険を示す指標の比
危険を示す指標には罹患率やら有病率やら死亡率やら

A~D:疾病発生頻度(頻度以外に罹患率やら有病率・・・)

曝露有群の発症リスク=A/(A+B)
曝露無群の発症リスク=C/(C+D)
リスク比=A/(A+B)/C/(C+D)
もし、発生頻度が低ければA+B≒B C+D≒D
 リスク比≒A/B/C/D=AD/BC
上記のように発症頻度が低ければオッズ比とリスク比の近似値となる

例題

以下の症例対照研究の結果からリスク比とオッズ比を求め検証せよ
また前回のデータも同様に比較するためオッズ比を求めよ
症例対照研究
不整脈あり 不整脈無し
曝露歴あり 100 65 165
曝露歴無し 100 135 235
200 200 400

第3回 感度,特異度,ROC曲線

到達目標
3-1臨床判断指標である感度,特異度について説明できる
3-2ROC曲線よりAUCを求めることが出来る
疾病発生と判断するのか?検査の結果から判断するにはどこかでYes/Noを判断しなくてはならない
ocrotstat2022-0301.png(344953 byte)
ocrotstat2022-0302.png(394121 byte)
ocrotstat2022-0303.png(266829 byte)
ocrotstat2022-0304.png(355176 byte)
カーブが左上に行くほど検査特性が優れている.(=AUCが大きくなる)
判断基準は諸々の要素が入るが1,0と0,1の対角線と曲線の交わる部分が目安.あとは検査の目的などによって変わってくる
例題
次のマンモグラフィの検査結果からROC曲線を描き、AUCを(小数点以下2桁まで求め四捨五入)求めよ。またカットオフ値を検討せよ
異常なし(1) 良性(2) 悪性を否定できない(3) 悪性の疑い(4) 悪性(5)
疾患群 1 1 6 14 18 40
非疾患群 5 14 15 6 0 40
回答例
ROC曲線を縦にするとAUCの算出の際の台形の式にあてはめやすい
ocrotstat2023-0301.png(43366 byte)

受講者からの質問と返答

ROC曲線を算出する過程においてなぜ特異度を求める必要はあるのでしょうか.偽陽性率は感度と同じような計算で求めることが出来るのに特異度って必要?

返答

ROC曲線を描くには感度と偽陽性を求めれば十分です.
感度と特異度ですが,
感度は ○であることが好ましいものが○である割合(確率)
特異度は×であることが好ましいものが×である割合(確率)
指標としてはどちらも値が高いほど優れた特性を示します.
つまり判断基準を評価するときは感度も特異度も高いところが良いというのは分かりやすい話になります
「ROC曲線はカーブが左上に行くほど検査特性が優れている」と説明しましたがそれはAUCの話でした.同様に判断基準も左上に近いところに設定するのが数値としては好ましくなります.
例題より特異度を求め,感度と特異度の和をROC曲線に示しました.
ocrptstat2023-0301.png(323574 byte)
ocrptstat2023-0302.png(399422 byte)
偽陽性は1-特異度 特異度+偽陽性=1の関係になるのでどちらか求めたら他方は機械的に算出できるのですが,特異度のほうが指標の理解がしやすく,偽陽性率のほうがROC曲線を理解しやすく というところでしょうか

第4回 統計解析(1)記述統計(度数,代表値,散布度)

到達目標
4-1測定尺度について説明できる
4-2度数分布表を作成することができる
4-3適切な代表値を求めることが出来る
教科書P100-105

変量(データ)の分類

変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。
それぞれを尺度と呼び、4つに分類するのが一般的である
1分類尺度(名義尺度)
2順序尺度
3間隔尺度
4比尺度(比例)(比率)

1,2を質的変量(定性的)
3,4を量的変量(定量的)
性質としては上位互換性があり
4>3>2>1

記述統計量(度数)

取りまとめたものを「量で」示したもの.質的変数であっても度数(個数,人数など数えるもの)については「量」として示すことが出来る
どのようなデータでも度数を示すことは可能

度数分布表

それぞれのデータ(変量)の数(出現頻度)をまとめたもの
変量が名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数  ・・・出現頻度
相対度数・・・総出現頻度を1(100%)としたときのそのぞれの度数のしめる割合
累積度数・・・上位の変量の度数もあわせた度数
累積相対度数・・・累積度数の相対版

品名 度数 相対度数 累積度数 累積相対度数
いちご 15
みかん
ぶどう
30 1.00 ----- -----
量的変数の場合はその数値だけで度数を積み上げようにもなかなか上手くいかない場合がある.
血圧 163.5mmHg 164.2mmHg 162.5mmHg・・・どれも度数を積み上げられない → 区間を設定する
「A~B」は過去の教科書では「A以上B未満」と読む格好で統一されていたが,現在は読み方を明記することと変わっている
「A以上B以下」とするとどちらの階級にも属してしまう場合がある.
階級 階級値 度数 相対度数 累積度数 累積相対度数
130~140 135
140~150 145
150~160 155
160~170 165
170~180 175
----- -----
<例題>
nmubiostat202102-01.png(7088 byte)
上記のデータの拡張期血圧のデータを用いて
1)度数分布表を作成せよ
階級 階級値 度数 相対度数 累積度数 累積相対度数
70~80 75
80~90 85
90~100 95
100~110 105
----- -----

記述統計量(代表値)

代表値と散布度からなる.←駅伝やマラソンの実況中継はこれらを利用しているから状況がわかる

平均(Mean)

Averageってexcel関数ありますが,あれ代表値って意味です.
算術平均
いわゆる割り勘.xbar=1/n(x1+x2+・・・+xn)
欠点:外れ値があると平均値は分布の中心位置を示さない(←それって代表的な値??)
 → 対処法:外れ値を取り除くか中央値を使うか
幾何平均(相乗平均)
全て掛け合わせて累乗根をとる
加重平均
重みづけ平均
例えば ミニテストと期末試験の平均をとる → そのままの平均で良いの? 応用例
度数分布表から算術平均を計算
Σ(階級値×度数)/構成数

中央値

昇順に並べたときに,真ん中の順番のデータ(変数)の値
データの数が偶数だと真ん中のデータは二つになるのでそれらの平均値

最頻値

最も個数が多いデータの値
最頻値は複数存在する場合がある→二峰性

記述統計量(散布度)

範囲
最大値と最小値の差
四分位範囲
IQR=第3四分位数(75%点)-第1四分位数(25%点)(参考:中央値=第2四分位数(50%点))
第3四分位数(75%点)の算出方法は数多くありまして・・・
標準偏差
範囲を用いた散布度と違い,平均値からのバラツキ(差=偏差)の平均を求めようというもの
ただし偏差の平均をとれば集団内の各々のズレっぷりがわかると思って計算しても → 合計は常に0 故に平均も常に0
そこで偏差を二乗したものの平均を取っている → 分散
標準偏差は分散の正の平方根をとったもの
nmubiostat2016-0302.png(3064 byte)

まとめ

こちらの度数分布表の空欄埋めてください

品名 度数 相対度数 累積度数 累積相対度数
かつ丼 90
カレーライス 0.3 0.75
ラーメン
1.00 ----- -----

例題の拡張期血圧のデータを用いて

1)平均値を求めよ
2)中央値を求めよ
3)最頻値を求めよ
4)標準偏差を求めよ

第5回 統計解析(2)推測統計(点推定)

到達目標
5-1記述統計と推測統計の違いについて説明できる
5-2なぜ標本より求めた平均をそのまま母平均の推定値として良いのか説明できる
5-3なぜ標本より求めた分散をそのまま母分散の推定値としたらいけないのか説明できる
教科書P109以降に繋がる話

記述統計と推測統計

記述統計とは

・収集したデータを要約してその集団の状況を表す
・そこにあるデータは全体(母集団)
・度数(分布)・代表値・散布度・相関係数など

推測統計とは

事象の起こる確率を仮定した上で全体(過去・現在だけではなく未来も含む)を推測する。推定と検定に分類される。
推定とは
・収集したデータを基にしてその集団の状況を表す
・そこにあるデータは一部(標本)
・点推定・区間推定・モデリング

母集団と標本

母集団とは

対象としている集団の全体を指し示すときに「母」を最初に付ける。
無限母集団と有限母集団からなる。
対象が有限か無限に増殖するかの違い

標本とは

母集団の一部。
昆虫標本を思い浮かべると、偏りに注意する必要があることは自明。

推定

母集団から抽出した標本を基に母集団の分布を示す値(母数)を推測する
点推定と区間推定がある

説明用データ

excelのRANDBETWEEN(110,140)をベースに一部調整したデータになります.
母集団は20000人からなり収縮期血圧を整数だけで記録される血圧計を用いた という想定です
母数(母集団の統計量)ですが母平均は125.0 母分散は80.97になりました
このデータはサイコロの目が均等にでるのと同様に以下のように収縮期血圧データは110から140まで均等に出現しています.
medbbstat2022-0207.png(5259 byte)
ただし,実際にある集団に対して収縮期血圧を測定するとその血圧データの分布はそのような形になりません
諸々の事情(説明を理解しやすく)を含めて設定したのですが実際とは異なる振る舞いをしているであろうことだけ承知しておいてください.
medbbstat2022-0208.png(122886 byte)
日本人の健康・栄養状態のモニタリングを目的とした国民健康・栄養調査のあり方に関する研究(厚生労働科学研究成果データベース)(https://mhlw-grants.niph.go.jp/project/23935)を加工して作成

<参考>日本人の健康・栄養状態のモニタリングを目的とした国民健康・栄養調査のあり方に関する研究(厚生労働科学研究成果データベース)
https://mhlw-grants.niph.go.jp/project/23935
の平成24年度~26年度 総合研究報告書のP108図1の部分を取り出して加工したものが上記になります
https://mhlw-grants.niph.go.jp/system/files/2014/143031/201412017B/201412017B0006.pdf

点推定とは

一つの数値(点)で推定値を示すこと
欠点:推定値と真の値がどの程度ズレているのかよくわからない
利点:区間推定よりも簡単に算出できる
推定をしても必ず一致するわけでもない→せめて偏りなくバラついてほしい→母数の期待値と推定値の期待値が一緒=不偏推定量

母平均の点推定

標本から求めた平均値は母集団の平均値の不偏推定量か?
以下は20000のデータから標本数10の平均値を求めたもの(標本数2000)をヒストグラムにしたもの
medbbstat2022-0202.png(96791 byte)
標本平均の平均 125.0 =(本来知らないハズの)母平均
125.0未満の標本平均になった標本の数 1000(50.0%)
標本平均が125.0になった標本数 22(1.1%)
125.0を超えた標本平均になった標本の数978(48.9%)

母分散の点推定

標本から求めた分散は母集団の分散の不偏推定量となるのか?

標本の平均値から求めた分散

以下は20000のデータから標本毎に求めた平均(標本平均)を用いて分散を求めたもの(標本数2000)をヒストグラムにしたもの
medbbstat2022-0203.png(135831 byte)
母分散の値よりも低く出る標本が多い→偏っている
標本より求めた分散の期待値(平均)72.96 ≠ 80.97(本来知らないハズの)母分散

母平均から求めた分散

それでは母平均を用いて標本ごとの分散を求めると以下のようになる
medbbstat2022-0204.png(137439 byte)
母平均より求めた分散の期待値(平均)80.97 = 80.97(本来知らないハズの)母分散
偏っていない推定が出来るが,そもそも母平均を用いることが出来るのであれば・・・

不偏分散(標本の平均を用いて母分散の推定を行う)

標本の平均を用いて計算すると,どうしても分散は小さくなる(母平均を用いたものと比較して))
<参考>不偏分散は何故nではなく(n-1)で除するのか(生物統計学2018奈良医大)
https://medbb.net/education/nmubiostat2018/index.html#VAR
不偏分散の期待値(平均)81.06 ≒ 80.97(本来知らないハズの)母分散
ということで,標本平均を用いて母分散の推定を行うには,少し値を大きくしないといけない
上記の<参考は>母平均を用いた式を標本平均に置き換えて式を変化させた話 → 結論は偏差平方和を標本数nではなくn-1で除すると良い
medbbstat2022-0205.png(146106 byte)

標本より求めた統計量(一部)

medbbstat2022-0201.png(148003 byte)
課題
以下のデータより母平均,母分散を点推定せよ
ocrotstat2023-0501.png(3372 byte)

第6回 統計解析(3)推測統計(区間推定)

到達目標
6-1 母平均値の区間推定について100%の信頼区間を求めることに意味が無いことを説明できる
6-2 正規分布について説明できる
教科書P76以降に繋がる話

区間推定

前回の標本から求めた母平均の推定値のヒストグラム
medbbstat2022-0202.png(96791 byte)
標本数が多くなると,その出現頻度は「正規分布」に従う・・・中心極限定理

中心極限定理

標本の大きさが十分であれば標本平均の分布は正規分布
 →正しく測定されているのであれば偶然誤差の発生は正規分布に従う
 →測定回数を増やせば増やすほど
誤差の話は二つの要因
ohsustat2016-01a.png(206456 byte)

正規分布

左右対称の釣鐘状分布
平均値に近いほど出現率が高く遠ざかるに従って低くなる(ことが多い)
標準正規分布
平均値が0標準偏差=1(分散も1)になるように値を変換したもの
偏差値は平均値を50、標準偏差=10になるように値を変換したもの
両者の関係
偏差値=50+10×z
標準正規分布表
kuswepi2021-01.png(339177 byte)
標準正規分布表のPDF版はコチラから

標準偏差と標準誤差

・標準偏差は標本の分布のバラツキ具合を示したもの
・標準誤差は母集団から抽出した標本の平均値のバラツキ具合
SE=σ/√n
標準誤差SEはなぜ標準偏差σを√nで除するのか
標準誤差は母平均に対する標本平均のバラつき指標(標準偏差)の話
対象が母集団全体ならば0だが,母平均(μ)と標本平均(xbar)には差が生じる
ある標本における平均値と母平均の偏差平方は
(xbar-μ)
=((1/n)Σx-μ)
=((1/n)Σx-(1/n)Σμ)
=((1/n)Σ(x-μ))
=(1/n)(1/n)Σ(x-μ)
 -----
 ここで
 (1/n)Σ(x-μ)
 をσとおくと
 -----
=σ/n
故に標準誤差は
SE=σ/√n

平均値の区間推定

平均値の区間推定については標準誤差をバラツキの基準にして計算する
平均値の点推定値±バラツキ
バラツキ・・・信頼区間の確率により確率分布表(標準正規分布表)から求める.
一般には95%信頼区間
ただし標準正規分布表は標準偏差が1の時の値(=Z値)なので今回対象とする集団の標準偏差(ここでは平均値の話なので標準誤差)の値で読み替えなくてはいけない

課題

1)テストの点が正規分布に従うとして
10000人でテストを行い平均点60点,標準偏差16の試験で84点(偏差値は65 ZスコアはZ=1.5)を取っていたのであれば,その順位は668番目となる
では,96点では?
2)母集団の平均点が 60点,標準偏差が16点の試験
そこで84点の場合 偏差値,Z値は?
3)ある試験の受験者100人から点を教えてもらったところ平均値(点推定)=65点 標準偏差(点推定)=18点であった.
平均値の区間推定を信頼区間95%で示せ
-->