大阪リハビリテーション専門学校作業療法学科 統計学2023
統計の基礎部分のフォロー講義開講に関する情報
統計の基礎部分のフォロー講義(オンライン)ですがzoomで行います.4つの尺度から記述統計,そして推測統計の入り口まで行います
告知の通り日曜の午前中が都合がつきやすいと思い設定させていただきました.
日程 タイトルは以下の通りです
2023年12月10日(日)10時~12時 統計学(1)尺度と度数
2023年12月17日(日)10時~12時 統計学(2)代表値と散布
2024年 1月 7日(日)10時~12時 統計学(3)母平均と母分散の点推定
2024年 1月14日(日)10時~12時 統計学(4)母平均の区間推定
申し込みされる方は以下のpeatixのページからお願いします
https://medbbstat2023.peatix.com
講義資料のページは以下になります
https://medbb.net/education/medbbstat2023
授業について
教科書
作業療法研究法(医歯薬出版株式会社)https://www.ishiyaku.co.jp/search/details.aspx?bookcode=216760
授業メニュー
第1回 研究法(1)量的研究(観察研究)
第2回 研究法(2)量的研究(介入研究),調査票
第3回 ROC曲線
第4回 統計解析(1)記述統計(度数,代表値,散布度)
第5回 統計解析(2)推測統計(点推定)
第6~8回 統計解析(3)推測統計(区間推定)
第1回 研究法(1)量的研究(観察研究)
到達目標1-1観察研究の方法について説明できる
1-2相対危険をリスク比で求められない場合があることを説明できる
教科書P1-7,10-17,34-37,80,100
知っておいてほしい用語
様々な場面で出てくる用語臨床と研究
臨床・・・医療を実践している場臨床研究・・・臨床の場で生じた疑問や仮説についての探究
倫理
臨床倫理と研究倫理の違いについて整理臨床・・・対象者の生活向上を
研究・・・新たな学術的知見の獲得に向けて
どちらも対象者への同意が必要
臨床を中心とした研究となると因果関係(原因と結果)の話が主題
因果関係を求める
リスクの評価・・・どの程度原因によって危険になったのかこの教科書ではリスク比を相対危険としている.
リスクの評価指標の事を「相対危険」や「相対危険度」と読むケースが多いように思う
説明用データ
疾病発症 | 疾病無 | 計 | |
---|---|---|---|
曝露有 | A | B | A+B |
曝露無 | C | D | C+D |
計 | A+C | B+D |
曝露有群の発症リスク=A/(A+B)
曝露無群の発症リスク=C/(C+D)
リスク比=A/(A+B)/C/(C+D)
観察研究
生態学的研究
1)ある時点での集団と異なる集団の要因と状態を比較2)集団で時点を変えて状態を比較
記述疫学の延長線・・・「仮説の設定」
あくまでも集団単位
記述疫学(一般社団法人日本疫学会)
https://jeaweb.jp/glossary/glossary002.html横断研究
ある時点における個人単位での状態と要因について一度に調査累積有病率など
因果関係を明らかにできない(原因(曝露)があって結果になる)
コホート研究
コホート・・・追跡する集団 結果より原因が先行する・・・原因(曝露)に基づく集団・・・曝露情報の妥当性が高い ・利点(時間の流れに沿った解釈が出来る 稀な曝露に対応できる) ・欠点(追跡にコストがかかる 稀な疾患には対応困難)相対危険
リスク比を求めることが出来るリスク比(振り返り+α)
Risk Ratio(RR)曝露(介入)の有る時と無の時の危険を示す指標の比
危険を示す指標には罹患率やら有病率やら死亡率やら
A~D:疾病発生頻度(頻度以外に罹患率やら有病率・・・)
曝露有群の発症リスク=A/(A+B)
曝露無群の発症リスク=C/(C+D)
リスク比=A/(A+B)/C/(C+D)
もし、発生頻度が低ければA+B≒B C+D≒D
リスク比≒A/B/C/D=AD/BC
症例対照研究
症例群,対照群・・・過去に遡って追跡する集団 観察の方向性では原因より結果が先行する・・・結果に基づく集団・・・疾病発生情報の妥当性が高い ・利点(短時間で行える 稀な疾患に対応できる) ・欠点(曝露に関する妥当性が低い)相対危険
リスク比を求めることが出来ないオッズ比を用いる
オッズ比
Odds Ratio(OR)危険な事象が起きた場合と起きなかった場合の指標の比(=オッズ)について曝露(介入)の有無毎に求め比をとったもの
発症有群の曝露オッズ=A/C
発症無群の曝露オッズ=B/D
オッズ比=A/C/B/D
=AD/BC
上記のように発症頻度が低ければオッズ比とリスク比の近似値となる
例題
コホート研究不整脈あり | 不整脈なし | 計 | |
---|---|---|---|
曝露群 | 100 | 1900 | 2000 |
非曝露群 | 50 | 1950 | 2000 |
計 | 150 | 3850 | 4000 |
不整脈あり | 不整脈無し | 計 | |
---|---|---|---|
曝露歴あり | 100 | 65 | 165 |
曝露歴無し | 100 | 135 | 235 |
計 | 200 | 200 | 400 |
第2回 研究法(2)量的研究(介入研究),調査票
到達目標2-1介入研究と観察研究の違いについて説明できる
2-2研究で用いる調査法について説明できる
教科書P37-49,73,89-93
介入研究
実験研究ともいうコホート研究との違い
曝露を研究者がコントロールしない・・・コホート研究曝露を研究者がコントロールする・・・・介入研究
研究参加者に不利益が出ないように
群内前後比較試験
ワンアーム介入群しか存在しない研究
集団の変化を前後(ビフォーアフター)比較で求める
ヒストリカル・コントロール試験
過去の類似集団を非介入群として比較群間比較試験
基本系であるが,介入群と非介入群の割り付けによっては集団の特性が影響・・・交絡例えば介入群と非介入群を被験者に選んでもらうと介入の好き嫌いで決まってしまったり
ランダム化比較試験
ランダム=無作為対象から被験者を無作為に選ぶこと・・無作為抽出・・対象とする集団の状況を反映した被験者集団
被験者を群に無作為に割り当て ・・無作為割付・・各群に被験者集団を反映した割付
選択バイアス
偏った抽出による偏りのこと例:特定健診受診者を対象に過去の曝露を調査・・・対象とする集団を住民とすると偏っている可能性が高い
コホート研究や介入研究では生じにくい
無作為割付の話は選択後の話なのでゴチャゴチャニならないように
教科書は割付の話が出ているが,規則性が無ければ順番や曜日でも良いが準無作為割付.第三者(コンピュータ)が割付すれば作為の無いことが証明できる
情報バイアス
教科書のマスク化のくだり情報が事実と異なることによる偏り
思い出しバイアス・・・例)曝露情報について症例群の方が必死に思い出そうとする
誤分類・・・被験者の属性を知ることで誤った分類(症状有/無のエラー)にする傾向が出てしまう ← マスク化により防ぐ
クロスオーバー試験
被験者が介入と非介入を両方担う方法資料
手良向 聡,臨床試験におけるランダム化の意義と限界,計量生物学41巻 1 号https://www.jstage.jst.go.jp/article/jjb/41/1/41_37/_article/-char/ja/
盲検性の維持(製薬協)
https://www.jpma.or.jp/information/evaluation/results/allotment/2014tf6.html
データベース研究
既に蓄積されたデータを用いる研究を目的としたデータでは無いので限界がある
レセプトデータ,DPCデータを用いて・・・医療費のためのデータ
利点・・・データセットの中で過去時間を自由に往来
調査票
答えやすく分析できるような設問をダブルバーレル
一つの設問で,二つ以上の要素を含む特定の回答に誘導
→情報バイアス選択回答形式
目的に応じて・・・分析の際の事を考えて・単一回答法・・・二項,多項
・複数回答法・・・無制限,制限
・順位回答法・・・完全,一部
・一対比較法
・評定尺度法・・・評定法,SD法
・数値配分法
例題
コホート研究と症例対照研究の特徴をまとめよどのような強みがあるか,どのような弱みがあるか,相対危険の求め方
第3回 感度,特異度,ROC曲線
到達目標3-1臨床判断指標である感度,特異度について説明できる
3-2ROC曲線よりAUCを求めることが出来る
教科書P101
疾病発生と判断するのか?検査の結果から判断するにはどこかでYes/Noを判断しなくてはならない
カーブが左上に行くほど検査特性が優れている.(=AUCが大きくなる)
判断基準は諸々の要素が入るが1,0と0,1の対角線と曲線の交わる部分が目安.あとは検査の目的などによって変わってくる
例題
次のマンモグラフィの検査結果からROC曲線を描き、AUCを(小数点以下2桁まで求め四捨五入)求めよ。またカットオフ値を検討せよ異常なし(1) | 良性(2) | 悪性を否定できない(3) | 悪性の疑い(4) | 悪性(5) | 計 | |
---|---|---|---|---|---|---|
疾患群 | 1 | 1 | 6 | 14 | 18 | 40 |
非疾患群 | 5 | 14 | 15 | 6 | 0 | 40 |
回答例
ROC曲線を縦にするとAUCの算出の際の台形の式にあてはめやすい第4回 統計解析(1)記述統計(度数,代表値,散布度)
到達目標4-1測定尺度について説明できる
4-2度数分布表を作成することができる
4-3適切な代表値を求めることが出来る
教科書P78
変量(データ)の分類
変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。それぞれを尺度と呼び、4つに分類するのが一般的である
1分類尺度(名義尺度)
2順序尺度
3間隔尺度
4比尺度(比例)(比率)
1,2を質的変量(定性的)
3,4を量的変量(定量的)
性質としては上位互換性があり
4>3>2>1
統計量
取りまとめたものを「量で」示したもの.質的変数であっても度数(個数,人数など数えるもの)については「量」として示すことが出来る度数
どのようなデータでも度数を示すことは可能度数分布表
それぞれのデータ(変量)の数(出現頻度)をまとめたもの変量が名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数 ・・・出現頻度
相対度数・・・総出現頻度を1(100%)としたときのそのぞれの度数のしめる割合
累積度数・・・上位の変量の度数もあわせた度数
累積相対度数・・・累積度数の相対版
品名 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|
いちご | 15 | |||
みかん | 8 | |||
ぶどう | 7 | |||
計 | 30 | 1.00 | ----- | ----- |
血圧 163.5mmHg 164.2mmHg 162.5mmHg・・・どれも度数を積み上げられない → 区間を設定する
「A~B」は過去の教科書では「A以上B未満」と読む格好で統一されていたが,現在は読み方を明記することと変わっている 「A以上B以下」とするとどちらの階級にも属してしまう場合がある. |
階級 | 階級値 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|---|
130~140 | 135 | ||||
140~150 | 145 | ||||
150~160 | 155 | ||||
160~170 | 165 | ||||
170~180 | 175 | ||||
計 | ----- | ----- |
品名 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|
かつ丼 | 90 | |||
カレーライス | 0.3 | 0.75 | ||
ラーメン | ||||
計 | 1.00 | ----- | ----- |
記述統計量(代表値)
代表値と散布度からなる.←駅伝やマラソンの実況中継はこれらを利用しているから状況がわかる平均(Mean)
Averageってexcel関数ありますが,あれ代表値って意味です.いわゆる割り勘.xbar=1/n(x1+x2+・・・+xn)
欠点:外れ値があると平均値は分布の中心位置を示さない(←それって代表的な値??)
→ 対処法:外れ値を取り除くか中央値を使うか
中央値
昇順に並べたときに,真ん中の順番のデータ(変数)の値データの数が偶数だと真ん中のデータは二つになるのでそれらの平均値
最頻値
最も個数が多いデータの値最頻値は複数存在する場合がある→二峰性
記述統計量(散布度)
範囲
最大値と最小値の差四分位範囲
IQR=第3四分位数(75%点)-第1四分位数(25%点)(参考:中央値=第2四分位数(50%点))第3四分位数(75%点)の算出方法は数多くありまして・・・
標準偏差
範囲を用いた散布度と違い,平均値からのバラツキ(差=偏差)の平均を求めようというものただし偏差の平均をとれば集団内の各々のズレっぷりがわかると思って計算しても → 合計は常に0 故に平均も常に0
そこで偏差を二乗したものの平均を取っている → 分散
標準偏差は分散の正の平方根をとったもの
例題
授業中に取り扱った諸々
1986 OMEGA TRIBE - 君は1000% [OFFICIAL MUSIC VIDEO]https://youtu.be/CYweetJWgoA?si=JNNX6VKEjmBsiGGx
第5回 統計解析(2)推測統計(点推定)
到達目標5-1記述統計と推測統計の違いについて説明できる
5-2なぜ標本より求めた平均をそのまま母平均の推定値として良いのか説明できる
5-3なぜ標本より求めた分散をそのまま母分散の推定値としたらいけないのか説明できる
教科書P76以降に繋がる話
記述統計と推測統計
記述統計とは
・収集したデータを要約してその集団の状況を表す・そこにあるデータは全体(母集団)
・度数(分布)・代表値・散布度・相関係数など
推測統計とは
事象の起こる確率を仮定した上で全体(過去・現在だけではなく未来も含む)を推測する。推定と検定に分類される。推定とは
・収集したデータを基にしてその集団の状況を表す・そこにあるデータは一部(標本)
・点推定・区間推定・モデリング
母集団と標本
母集団とは
対象としている集団の全体を指し示すときに「母」を最初に付ける。無限母集団と有限母集団からなる。
対象が有限か無限に増殖するかの違い
標本とは
母集団の一部。昆虫標本を思い浮かべると、偏りに注意する必要があることは自明。
推定
母集団から抽出した標本を基に母集団の分布を示す値(母数)を推測する点推定と区間推定がある
説明用データ
excelのRANDBETWEEN(110,140)をベースに一部調整したデータになります.母集団は20000人からなり収縮期血圧を整数だけで記録される血圧計を用いた という想定です
母数(母集団の統計量)ですが母平均は125.0 母分散は80.97になりました
このデータはサイコロの目が均等にでるのと同様に以下のように収縮期血圧データは110から140まで均等に出現しています. ただし,実際にある集団に対して収縮期血圧を測定するとその血圧データの分布はそのような形になりません 諸々の事情(説明を理解しやすく)を含めて設定したのですが実際とは異なる振る舞いをしているであろうことだけ承知しておいてください. 日本人の健康・栄養状態のモニタリングを目的とした国民健康・栄養調査のあり方に関する研究(厚生労働科学研究成果データベース)(https://mhlw-grants.niph.go.jp/project/23935)を加工して作成 <参考>日本人の健康・栄養状態のモニタリングを目的とした国民健康・栄養調査のあり方に関する研究(厚生労働科学研究成果データベース) https://mhlw-grants.niph.go.jp/project/23935 の平成24年度~26年度 総合研究報告書のP108図1の部分を取り出して加工したものが上記になります https://mhlw-grants.niph.go.jp/system/files/2014/143031/201412017B/201412017B0006.pdf |
点推定とは
一つの数値(点)で推定値を示すこと欠点:推定値と真の値がどの程度ズレているのかよくわからない
利点:区間推定よりも簡単に算出できる
推定をしても必ず一致するわけでもない→せめて偏りなくバラついてほしい→母数の期待値と推定値の期待値が一緒=不偏推定量
母平均の点推定
標本から求めた平均値は母集団の平均値の不偏推定量か?以下は20000のデータから標本数10の平均値を求めたもの(標本数2000)をヒストグラムにしたもの
標本平均の平均 125.0 =(本来知らないハズの)母平均
125.0未満の標本平均になった標本の数 1000(50.0%)
標本平均が125.0になった標本数 22(1.1%)
125.0を超えた標本平均になった標本の数978(48.9%)
母分散の点推定
標本から求めた分散は母集団の分散の不偏推定量となるのか?標本の平均値から求めた分散
以下は20000のデータから標本毎に求めた平均(標本平均)を用いて分散を求めたもの(標本数2000)をヒストグラムにしたもの母分散の値よりも低く出る標本が多い→偏っている
標本より求めた分散の期待値(平均)72.96 ≠ 80.97(本来知らないハズの)母分散
母平均から求めた分散
それでは母平均を用いて標本ごとの分散を求めると以下のようになる母平均より求めた分散の期待値(平均)80.97 = 80.97(本来知らないハズの)母分散
偏っていない推定が出来るが,そもそも母平均を用いることが出来るのであれば・・・
不偏分散(標本の平均を用いて母分散の推定を行う)
標本の平均を用いて計算すると,どうしても分散は小さくなる(母平均を用いたものと比較して))
<参考>不偏分散は何故nではなく(n-1)で除するのか(生物統計学2018奈良医大) https://medbb.net/education/nmubiostat2018/index.html#VAR |
ということで,標本平均を用いて母分散の推定を行うには,少し値を大きくしないといけない
上記の<参考は>母平均を用いた式を標本平均に置き換えて式を変化させた話 → 結論は偏差平方和を標本数nではなくn-1で除すると良い
標本より求めた統計量(一部)
課題
以下のデータより母平均,母分散を点推定せよ第6回 統計解析(3)推測統計(区間推定)
到達目標6-1 母平均値の区間推定について100%の信頼区間を求めることに意味が無いことを説明できる
6-2 正規分布について説明できる
教科書P76以降に繋がる話
区間推定
前回の標本から求めた母平均の推定値のヒストグラム標本数が多くなると,その出現頻度は「正規分布」に従う・・・中心極限定理
中心極限定理
標本の大きさが十分であれば標本平均の分布は正規分布→正しく測定されているのであれば偶然誤差の発生は正規分布に従う
→測定回数を増やせば増やすほど
誤差の話は二つの要因
正規分布
左右対称の釣鐘状分布平均値に近いほど出現率が高く遠ざかるに従って低くなる(ことが多い)
標準正規分布
平均値が0標準偏差=1(分散も1)になるように値を変換したもの偏差値は平均値を50、標準偏差=10になるように値を変換したもの
両者の関係
偏差値=50+10×z
標準正規分布表
標準正規分布表のPDF版はコチラから
例題
ある学校の集団から一人呼び出し身長を測定したところ170cmだった.その集団の身長の標準偏差は6cmである.
身長の分布が正規分布としたとき,この集団の平均身長を95%信頼区間で推定せよ
標準偏差と標準誤差
・標準偏差は標本の分布のバラツキ具合を示したもの・標準誤差は母集団から抽出した標本の平均値のバラツキ具合
SE=σ/√n
標準誤差SEはなぜ標準偏差σを√nで除するのか
標準誤差は母平均に対する標本平均のバラつき指標(標準偏差)の話対象が母集団全体ならば0だが,母平均(μ)と標本平均(xbar)には差が生じる
ある標本における平均値と母平均の偏差平方は
(xbar-μ)2
=((1/n)Σxi-μ)2
=((1/n)Σxi-(1/n)Σμ)2
=((1/n)Σ(xi-μ))2
=(1/n)(1/n)Σ(xi-μ)2
-----
ここで
(1/n)Σ(xi-μ)2
をσ2とおくと
-----
=σ2/n
故に標準誤差は
SE=σ/√n