大阪リハビリテーション専門学校理学療法学科 統計学2022

授業について

教科書

理学療法研究法(医歯薬出版株式会社)
https://www.ishiyaku.co.jp/search/details.aspx?bookcode=267350

取り上げていない部分 3章7章
授業メニュー
第1回 研究法(1)研究について,量的研究(観察研究)

第2回 研究法(2)量的研究(介入研究),相対危険

第3回 バイアス,相関

第4回 感度,特異度,ROC曲線

第5回 データの整理(1)尺度,度数,代表値

第6回 データの整理(2)散布度

第7回 検定(1)2群間の比較

第8回 第8回 総まとめ

第1回 研究法(1)研究について,量的研究(観察研究)

到達目標
1-1PICO,PECOについて説明できる
1-2観察研究の流れや利点欠点について説明できる
教科書P1-10,13-18

なぜ統計の授業で研究の話がでてくるの?

研究の目的・・・新たな知見(因果関係)・・・データを分析して証明
臨床現場においてもデータを分析することでより良い医療に貢献できる

クリニカルクエスチョン

臨床研究の出発点に辿り着くこともある
臨床でふと思った疑問のこと

リサーチクエスチョン

クリニカルクエスチョンを発展させ臨床研究の形式に発展させたもの
倫理的,経済的な側面をクリアした実際に研究できる格好にしたもの

PICO

(観察の場合はPECO)
Patient,Intervention(Exposure),Comparison,Outcome

FINERの基準

Feasible,Interesting,Novel,Ethical,Relevent

研究デザイン

観察研究

横断研究

ある時点における個人単位での状態と要因について一度に調査
累積有病率など
因果関係を明らかにできない(原因(曝露)があって結果になる)

コホート研究

前向き研究
コホート・・・追跡する集団 結果より原因が先行する・・・原因(曝露)に基づく集団・・・曝露情報の妥当性が高い ・利点(時間の流れに沿った解釈が出来る 稀な曝露に対応できる) ・欠点(追跡にコストがかかる 稀な疾患には対応困難)

相対危険

リスク比を求めることが出来る
nmupnr2022-1101.png(337834 byte)
リスク比
Risk Ratio(RR)
曝露(介入)の有る時と無の時の危険を示す指標の比
危険を示す指標には罹患率やら有病率やら死亡率やら

A~D:疾病発生頻度
説明用データ
疾病発症 疾病無
曝露有 A B A+B
曝露無 C D C+D
A+C B+D

曝露有群の発症リスク=A/(A+B)
曝露無群の発症リスク=C/(C+D)
リスク比=A/(A+B)/C/(C+D)

症例対照研究

後ろ向き研究
症例群,対照群・・・過去に遡って追跡する集団 観察の方向性では原因より結果が先行する・・・結果に基づく集団・・・疾病発生情報の妥当性が高い ・利点(短時間で行える 稀な疾患に対応できる) ・欠点(曝露に関する妥当性が低い)

相対危険

リスク比を求めることが出来ない

例題

以下のコホート研究の結果からリスク比を求めよ
不整脈あり 不整脈なし
曝露群 100 1900 2000
非曝露群 50 1950 2000
150 3850 4000

第2回 研究法(2)量的研究(介入研究),相対危険

到達目標
2-1介入研究の注意点について説明できる
2-2適切な相対危険の算出ができる
教科書P18-25,56-71,148-149

介入研究

実験研究ともいう
前向き研究

コホート研究との違い

曝露を研究者がコントロールしない・・・コホート研究
曝露を研究者がコントロールする・・・・介入研究
研究参加者に不利益が出ないように・・・介入するので観察研究よりも配慮したデザインが求められる
倫理的に実施不可能な研究も出てくる.

倫理審査

実施する研究の科学的合理性や倫理的妥当性について第三者が判断
倫理審査委員会で実施
ヘルシンキ宣言・・・人間を対象とする医学研究の倫理的原則

インフォームドコンセント

説明と同意 

3つのプロセス

1.研究対象者の候補者・・・同意能力を有する個人,または代諾者が存在すること
2.研究について研究者から候補者または代諾者に説明がなされること
3.候補者または代諾者が説明を理解したうえで自発的に同意すること

方法

1.文書
2.口頭
3.オプトアウト

ランダム化比較試験

介入群と対照群が偏らないようにランダムに割り付け

目的

研究結果が背景因子の影響を受けないように
準ランダム化比較試験
乱数表を使わずに(例:カルテ番号)振り分けする方法
層別ランダム化
対象者が少ない場合・・・背景因子によって層別化してその中でランダム割り付け

オッズ比とリスク比

リスク比は前向き研究でしか使えない
nmupnr2022-1102.png(335461 byte)

オッズ比

Odds Ratio(OR)
危険な事象が起きた場合と起きなかった場合の指標の比(=オッズ)について曝露(介入)の有無毎に求め比をとったもの

発症有群の曝露オッズ=A/C
発症無群の曝露オッズ=B/D
オッズ比=A/C/B/D
    =AD/BC

リスク比(振り返り+α)

Risk Ratio(RR)
曝露(介入)の有る時と無の時の危険を示す指標の比
危険を示す指標には罹患率やら有病率やら死亡率やら

A~D:疾病発生頻度(頻度以外に罹患率やら有病率・・・)

曝露有群の発症リスク=A/(A+B)
曝露無群の発症リスク=C/(C+D)
リスク比=A/(A+B)/C/(C+D)
もし、発生頻度が低ければA+B≒B C+D≒D
 リスク比≒A/B/C/D=AD/BC
上記のように発症頻度が低ければオッズ比とリスク比の近似値となる

例題

以下の症例対照研究の結果からリスク比とオッズ比を求め検証せよ
また前回のデータも同様に比較するためオッズ比を求めよ 症例対照研究
不整脈あり 不整脈無し
曝露歴あり 50 33 83
曝露歴無し 50 67 112
100 100

第3回 バイアス,相関

到達目標
3-1バイアスの種類と特徴を説明できる
3-2相関係数の求め方についてどのようなものか説明できる
教科書P43-52,118-122

バイアス=偏り

誤差は偏り(系統誤差)とバラツキ(偶然誤差)から
ohsustat2016-01a.png(206456 byte)
バラツキを少なくするために何回も計測した記憶があることでしょう
偶然誤差は測定回数を多くして平均を求めると影響を抑えることが出来る.
ocrptstat2022-0301.png(8156 byte)
CSVデータはココをクリック

選択バイアス

対象者を選ぶ時のバイアス・・・特定健診受診者のみ,特定の性別の被験者,対象者を高校でリクルート・・・
ランダムサンプリングしても,あらかじめ用意した対象者が上記のような場合,目的によっては問題となる
介入研究は選択バイアスが生じやすい

情報バイアス

データを得るときに生じる
1)事前情報による測定者への影響
2)測定の順番 → 局所管理
データと情報は厳密にいうと違います
joho20150613-5.png(149915 byte)
3)交絡
因果関係の間に第3の因子が入り込んでいる状態
AとBの相関関係に変数Cが入り込んできている状態
相関
correlative
因果関係があると相関関係もある
相関関係があると因果関係があるわけでも無い
(原因があって結果がある)
相関関係がある・・・関連がある
相関関係が無い・・・関連がない


たばこを吸う-肺がん・・・・相関関係○

コーヒーを飲む-肺がん・・・相関関係○

コーヒー愛飲者に肺がんが多い理由は?生活習慣との関連を検証
アメリカで約50万人を対象にした調査から
from International journal of epidemiology
http://medley.life/news/item/5589521b660815fe00d5ec8e

コーヒーと肺がんの相関関係に割り込んでいる(どちらとも相関関係がある)状態=交絡
割り込んでいるそれ=交絡因子・・・たばこ
コーヒーと肺がんに因果関係が無いとしたならその関係は疑似相関

相関係数

-1から1までの値をとる
Xが増加すればYも増加する・・・1
Xが増加すればYは減少する・・・-1
Xが増加しようが減少しようがYは関係ない・・・0

X軸で見たときのバラツキ具合とY軸で見たときのバラツキ具合を元に計算してる
バラツキ=散布度・・・分散・・・偏差の二乗の平均
共分散=ある対象のX軸の偏差とY軸の偏差を乗じたものがベース
  
Xの偏差 Yの偏差 乗じた結果
乗じた結果の平均が共分散
共分散はX軸Y軸のバラツキ具合が混ざっているのでそのままの数字だと解釈しにくい→XとYの標準偏差で除する(正規化)→相関係数

標準偏差は集団のバラツキを示す指標の一つですが後日の授業で改めてゆっくりと
相関図
X軸とY軸に一つの対象に与えられるそれぞれの値をプロット(例:身長と体重)
とりあえず図にすると関係が直感的にわかる(場合がある)
nmuhlthstat1202107-02.png(9572 byte)

例題

統計でみる都道府県のすがた2022
https://www.e-stat.go.jp/stat-search/files?page=1&layout=datalist&toukei=00200502&tstat=000001162826&cycle=0&year=20220&month=0&tclass1=000001162827 統計表「人口・世帯」より
1)都道府県別の総人口と一般世帯数
2)都道府県別の総人口と一般世帯の平均人員
との関連を調べる
どのような関係があるのか 相関図より考えよ

第4回 感度,特異度,ROC曲線

到達目標
4-1臨床判断指標である感度,特異度について説明できる
4-2ROC曲線よりAUCを求めることが出来る
教科書P150-151
疾病発生と判断するのか?検査の結果から判断するにはどこかでYes/Noを判断しなくてはならない
ocrotstat2022-0301.png(344953 byte)
ocrotstat2022-0302.png(394121 byte)
ocrotstat2022-0303.png(266829 byte)
ocrotstat2022-0304.png(355176 byte)
カーブが左上に行くほど検査特性が優れている.(=AUCが大きくなる)
判断基準は諸々の要素が入るが1,0と0,1の対角線と曲線の交わる部分が目安.あとは検査の目的などによって変わってくる
ocrotstat2022-0305.png(364354 byte)
ocrotstat2022-0306.png(368301 byte)
ocrotstat2022-0307.png(364823 byte)
陽性尤度比の高い検査は確定診断に優れている・・・感度も特異度も大きければ値は大きくなる
陰性尤度比の小さい検査は除外診断に含まれている・・・感度も特異度も大きければ値は小さくなる

例題

次のマンモグラフィの検査結果からROC曲線を描き、AUCを(小数点以下2桁まで求め四捨五入)求めよ。またカットオフ値を検討せよ
異常なし(1) 良性(2) 悪性を否定できない(3) 悪性の疑い(4) 悪性(5)
疾患群 1 1 6 14 18 40
非疾患群 5 14 15 6 0 40

回答例

ROC曲線を縦にするとAUCの算出の際の台形の式にあてはめやすい
ocrotstat2022-0308.png(363529 byte)

第5回 データの整理(1)尺度,度数,代表値

到達目標
5-1測定尺度について説明できる
5-2度数分布表を作成することができる
5-3適切な代表値を求めることが出来る
教科書P100-105

変量(データ)の分類

変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。
それぞれを尺度と呼び、4つに分類するのが一般的である
1分類尺度(名義尺度)
2順序尺度
3間隔尺度
4比尺度(比例)(比率)

1,2を質的変量(定性的)
3,4を量的変量(定量的)
性質としては上位互換性があり
4>3>2>1

記述統計量(度数)

取りまとめたものを「量で」示したもの.質的変数であっても度数(個数,人数など数えるもの)については「量」として示すことが出来る
どのようなデータでも度数を示すことは可能

度数分布表

それぞれのデータ(変量)の数(出現頻度)をまとめたもの
変量が名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数  ・・・出現頻度
相対度数・・・総出現頻度を1(100%)としたときのそのぞれの度数のしめる割合
累積度数・・・上位の変量の度数もあわせた度数
累積相対度数・・・累積度数の相対版

品名 度数 相対度数 累積度数 累積相対度数
いちご 15
みかん
ぶどう
30 1.00 ----- -----
量的変数の場合はその数値だけで度数を積み上げようにもなかなか上手くいかない場合がある.
血圧 163.5mmHg 164.2mmHg 162.5mmHg・・・どれも度数を積み上げられない → 区間を設定する
「A~B」は過去の教科書では「A以上B未満」と読む格好で統一されていたが,現在は読み方を明記することと変わっている
「A以上B以下」とするとどちらの階級にも属してしまう場合がある.
階級 階級値 度数 相対度数 累積度数 累積相対度数
130~140 135
140~150 145
150~160 155
160~170 165
170~180 175
----- -----

度数分布図

質的変数・・・縦棒グラフ
nmuhimstat2021-01.png(3771 byte)
量的変数・・・ヒストグラム
nmuhimstat2021-02.png(3656 byte)
棒の間隔が無いのは値が連続している状態であるが故
普通の棒グラフは棒の長さが度数を示すが,ヒストグラムは棒の面積が度数を示す
「階級の幅を等しくすること」というのは幅が変わると高さが変わる故で,実際にはそのような区間設定はよくある
<参考>ヒストグラムーなるほど統計学園(総務省統計局)
https://www.stat.go.jp/naruhodo/4_graph/shokyu/histogram.html

<例題>
nmubiostat202102-01.png(7088 byte)
上記のデータの拡張期血圧のデータを用いて
1)度数分布表を作成せよ
階級 階級値 度数 相対度数 累積度数 累積相対度数
70~80 75
80~90 85
90~100 95
100~110 105
----- -----

記述統計量(代表値)

代表値と散布度からなる.←駅伝やマラソンの実況中継はこれらを利用しているから状況がわかる

平均(Mean)

Averageってexcel関数ありますが,あれ代表値って意味です.
算術平均
いわゆる割り勘.xbar=1/n(x1+x2+・・・+xn)
欠点:外れ値があると平均値は分布の中心位置を示さない(←それって代表的な値??)
 → 対処法:外れ値を取り除くか中央値を使うか
幾何平均(相乗平均)
全て掛け合わせて累乗根をとる
加重平均
重みづけ平均
例えば ミニテストと期末試験の平均をとる → そのままの平均で良いの? 応用例
度数分布表から算術平均を計算
Σ(階級値×度数)/構成数

中央値

昇順に並べたときに,真ん中の順番のデータ(変数)の値
データの数が偶数だと真ん中のデータは二つになるのでそれらの平均値

最頻値

最も個数が多いデータの値
最頻値は複数存在する場合がある→二峰性

まとめ

こちらの度数分布表の空欄埋めてください

品名 度数 相対度数 累積度数 累積相対度数
かつ丼 90
カレーライス 0.3 0.75
ラーメン
1.00 ----- -----

例題の拡張期血圧のデータを用いて

1)平均値を求めよ
2)中央値を求めよ
3)最頻値を求めよ
4)度数分布表を作成し,表より平均値を概算せよ

第6回 データの整理(2)散布度

到達目標
6-1標準偏差を求めることが出来る
教科書P100-107

記述統計量(散布度)

範囲

最大値と最小値の差

四分位範囲

IQR=第3四分位数(75%点)-第1四分位数(25%点)(参考:中央値=第2四分位数(50%点))
第3四分位数(75%点)の算出方法は数多くありまして・・・

標準偏差

範囲を用いた散布度と違い,平均値からのバラツキ(差=偏差)の平均を求めようというもの
ただし偏差の平均をとれば集団内の各々のズレっぷりがわかると思って計算しても → 合計は常に0 故に平均も常に0
そこで偏差を二乗したものの平均を取っている → 分散
標準偏差は分散の正の平方根をとったもの
nmubiostat2016-0302.png(3064 byte)

統計手法の考え方

量的変数をそのまま量的に取り扱う場合・・・平均値 標準偏差 パラメトリック検定・・・t検定(正規分布を用いた検定)
量的変数を順序変数として取り扱う場合・・・中央値 四分位範囲/偏差 ノンパラメトリック検定・・・一標本Wilcoxon検定,Mann-Whitney検定
量的変数を名義(カテゴリー)変数として取り扱う場合・・・度数 カイ二乗検定

よく,パラメトリック検定を分布に依存すると表現している件

意味としてはノンパラ(順序=分布に依存しない)とは,取り扱うと,値の分布をキャンセルしている(バラバラに存在整列していたものを整列させる)ということ
nmuhimstat2021-11.png(10453 byte)
元々は量的変数.こちらの絵の通りで平均値(14.55)を求めたり標準偏差(4.23)を求めたり,母集団の推定のために不偏分散(19.67)求めたりt検定を行ったり.
nmuhlthstat202102-01.png(21147 byte)
こちらは分布なんて関係なく中央値(15)を求めたり,四分位偏差(2)求めたり,U検定を行ったり.

記述統計量の求め方で集団そのものの可視化ではなく,集団の一部である標本としたときに,母集団の推定に用いることが出来るのか

偏りが無ければ使える=均等にばらつくことが期待できるのであれば

代表値(算術平均)

計算そのもので偏よることはない(標本が偏っているのであれば偏ってしまうが)

散布度(分散 標準偏差)

計算そのもので偏ってしまう・・・(母集団の平均を標本の平均で推定しているが一致しないことが期待されるので)
ocrptstat2022-0601.png(75256 byte)
csv形式のファイルはコチラ
<参考>不偏分散は何故nではなく(n-1)で除するのか(生物統計学2018奈良医大)
https://medbb.net/education/nmubiostat2018/index.html#VAR

例題

以下の表より病院に勤務する理学療法士の平均値,中央値,範囲,標準偏差を求めよ.

ocrotstat2022-0401.png(31446 byte)
CSV形式のファイルはコチラ
<資料>令和3年度病床機能報告の報告結果について(厚生労働省)
https://www.mhlw.go.jp/stf/seisakunitsuite/bunya/open_data_00008.html

第7回 検定(1)2群間の比較

到達目標
7-1t分布について説明できる
7-2検定の進め方を説明できる
教科書P106-118

推測統計

推定と検定に分かれる
ともに100%の確率で行っても意味が無く,通常95%の確率を用いて行っている

推定

母集団から抽出した標本を基に母集団の分布を示す値(母数)を推測する
標本から求めた平均より母集団の平均値を推測する

検定

得られた標本が母集団から抽出したものとみなせるのか推測する(ただし見做せないことを期待している)
新薬を使った群と,現在用いられている薬に効果に差があるか(つまり差が0とみなせるものなのか)検証する

検定の手順

検定の流れ(平均値の2群の検定)

1:帰無仮説H0,対立仮説H1を設定(対立仮説が証明したい説)
背理法の考え方を使っている.95%の確率で0と見做せるか検証して出来なかった場合見做せないとする考え方
帰無仮説H0が0であるという仮説.意味のない仮説とか言われている.見做せない仮説を対立仮説H1という
対立仮説(本来証明するための仮説)は既に仮説として妥当なものであることが想定されており,その検証のためにデータをとり検定を行う格好
故に根拠の薄い(対立)仮説を検定し対立仮説を採択となっても怪しい話になるのでしないこと
逆に根拠がハッキリしている(対立)仮説であれば,帰無仮説を棄却できなかった場合でもたまたま結果が出なかった可能性を有するため判定を保留する格好になる
2:有意水準を定める(通常5% 0.05)
95%の確率の話だが,有意水準は確率でいうと帰無仮説が外れる(対立仮説側の)確率を指すので100-95=5%となる
なお推定の時は95%を半分にして 平均値±47.5%の幅をもたせて推定を行うが 検定も同様に左右対象に外れる部分を設けている(両側検定という)それぞれ2.5%になる
3:標本より求めたデータから検定統計量を求める(t分布を使うならt値,正規分布を使うならZ値)
この部分は標準正規分布の話を丁寧にできていないので割愛するが,差が0と見做せるのかどうかについて求めた差の平均値を標準誤差で割った値を基に確率を求めている  <母集団から見た標本の平均値>
 t=(集団の平均値-母集団の平均値)/標準誤差
標準誤差
・標準偏差は標本の分布のバラツキ具合を示したもの
・標準誤差は母集団から抽出した標本の平均値のバラツキ具合
SE=σ/√n
標準誤差SEはなぜ標準偏差σを√nで除するのか
標準誤差は母平均に対する標本平均のバラつき指標(標準偏差)の話
対象が母集団全体ならば0だが,母平均(μ)と標本平均(xbar)には差が生じる
ある標本における平均値と母平均の偏差平方は
(xbar-μ)
=((1/n)Σx-μ)
=((1/n)Σx-(1/n)Σμ)
=((1/n)Σ(x-μ))
=(1/n)(1/n)Σ(x-μ)
 -----
 ここで
 (1/n)Σ(x-μ)
 をσとおくと
 -----
=σ/n
故に標準誤差は
SE=σ/√n

平均値の差の検定で用いている確率分布

生物について事象の起こる確率は正規分布に従っているものが多かったりする.
平均に近いほどその事象は多く起こり,離れていくほどその事象の起こる確率は低くなる(確率=頻度)
正規分布に従わないものもあります.例えばサイコロ.
でも不思議なことにサイコロを複数回転がしてその目の平均の値の出た度数を測定すると・・・

中心極限定理

母集団の分布によらず、抽出した標本の平均値は表本数が大きくなるほど近似的に正規分布に従う

4:検定統計量からその標本がどの程度の確率でおこる事柄か確率Pを求める(統計表より)
5a:P値が有意水準よりも小さい場合は帰無仮説を棄却し対立仮説を採択(違いがある)
5b:P値が有意水準よりも大きい場合は判定保留(元々の仮説がるので今回証明できなかっただけ.無論何回も実験を行い証明が出来ないと・・・)

t分布

2群の平均値の推定や検定において,標準正規分布を使うと上手くいかない・・・特に標本数が少ないと
困っていたゴセットさんが標本数によって平均値の出現する確率が変化する分布を示しました.
諸々の理由でt分布と呼ばれています.
酒井 弘憲,ギネスビールと統計家ペンネーム スチューデント,ファルマシア51巻12号,2015
https://www.jstage.jst.go.jp/article/faruawpsj/51/12/51_1168/_article/-char/ja
正規分布は母集団の分散(標準偏差)が必要で変化しないが,t分布は標本より求めた不偏分散を用いるが,標本の自由度(標本数より求める)によって変化する.
故に標本数が多くなるとt分布は正規分布に近似されていく.
nmuhims2022-01.png(169858 byte)
t分布のPDF版はコチラから

「自由度」νが出てきますが,以下考え方

標本の中で自由に振る舞うことが許されている値の数
例えば標本から平均を求めたとき,その平均が母数の推定値としたら、自由に振る舞えない値が出てくる(つじつま合わせ)

検定の考え方がわかるような

ocrptstat2022-0701.png(340989 byte)
ocrptstat2022-0702.png(385202 byte)
運動会の玉入れはカゴに入ると得点ですが,標準正規分布やt分布のカゴはどのような場所に投げたものでもあり得るとしています
ですので,審判がどこまでカゴの中心に近いものを得点とするか判定しなくちゃいけません
ただし,検定は外れること(得点にならない玉入れ)を期待しておりますのでその点だけご注意
有意水準よりも小さい確率の領域を棄却域,有意水準よりも大きい確率の領域を採択域・・・どちらも帰無仮説を基準の名称になっています.
基本は確率(P値と有意水準)で採択域か棄却域か判断するのですが,実際には検定統計量同士で比較するケースの方が多くなるかと思います.
大小関係を整理しておかないとわからなくなるので,確率分布図を思い浮かべていただけたら混乱しないと思います
h3>t検定 2群の平均値に差があるのかを統計的に検証
t分布を使う(参考 正規分布を使うのはz検定)
(一群のt検定もあるがそれは割愛)
関連のある2群(一標本)と関連の無い2群(二標本)のケースがある

独立2群

異なる二つの群(例:何かを施した群と何もしていない群)の平均値の比較
計算するにあたっては,それぞれの群の分散(標準偏差)を合成するので,あまりにも異なる場合はそれ用のWelchのt検定を用いる
(最初からWelchのt検定を行ったほうが良いという説を支持しています)

関連2群

ビフォーアフターなど,同じ対象に対して2回測定したデータを用いる.
それぞれ前後の差分をとり平均したものを用いる,差が無ければ0.効果があったら値が0とは異なる
paired-t検定とよばれる

頑健性(ロバストネス)

母集団の分部が正規分布であることを前提としているが・・・

例題

例題1

リハビリ前後の患者さんの動作にかかる時間を測定したところ以下の結果になった.
効果があったのか検定せよ
ocrotstat2022-0601.png(83754 byte)
CSVデータはコチラ

例題2

P106図8の左側のデータ(1標本)で効果があったか検定せよ

第8回 総まとめ

到達目標
8-1これまでの授業で取り上げた内容に関連する部分を理解する