大阪保健医療大学 統計学2023(保健医療学部 リハビリテーション科)
授業メニュー
第1回 尺度,データ形式第2~6回 データの取り込み,整理(1)~(5)
第7~11回 推定(1)~(5)
第12回 t検定
第13回 カイ二乗検定
第14回 判断分析-感度・特異度・ROC曲線(1)~(2)
第1回 尺度,データ形式
到達目標1-1 4つの尺度について説明できる
1-2 ネットワーク上で取り扱うデータ形式について説明できる
統計とは
教科書による統計学
『統計学はあくまで「確率で真の結論を推測する」だけ』私の考える統計学
『気づかせてくれるもの。うすうす気づいていることを確認するもの』私の考える医療統計学(2015)
『ある事象のなかで一般化出来るもの(法則性)を見いだすことは、その個別の事例にとどまらず広く利用できる知見をもたらす。そのためには複数の事例を集めて検討する統計処理が必要になる。それゆえ、統計処理は個別の事情を発生頻度などある条件に従って排除する主義に基づく。
私達の周りで起こる様々な事象は自然現象によるものだけではなく人間活動などの人工的な要因の影響を受けるものも多く、そのため法則性を見いだすにはそれぞれの領域の目的に応じた統計処理が必要となる。
医療統計学は、単に生物としてだけではなく活動状況も多様な集団である人に対して、提供する医療が及ぼす影響やその要因に関する法則性を見いだす方法を探求する学問分野である。』
(複雑なため確定的な事象はなく確率的に取り扱う必要がある)
統計の分類
記述統計と推測統計に分類される記述統計とは
・収集したデータを要約してその集団の状況を表す・そこにあるデータは全体(母集団)
・度数(分布)・代表値・散布度など
変量(データ)の分類・・・測定尺度
変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。
それぞれを尺度と呼び、4つに分類するのが一般的である(P5)
1名義尺度
2順序尺度
3間隔尺度
4比例尺度
1,2を質的データ(変量)(定性的)
3,4を量的データ(変量)(定量的)
性質としては上位互換性があり
4>3>2>1
ネットワーク上で取り扱うデータ形式について
ネットワーク上で取り扱えるデータは全て0,1の何れかの数値の羅列.
皆さんがスマホやPCで見ている各種データは人にわかるように表示している
拡張子によって人はデータの形式を知ることができる
CSVはシンプルな形式なので,様々なソフトで取り扱うことができます
本日の課題
1 4つの尺度 (名義尺度,順序尺度,間隔尺度,比例尺度)の例を挙げよ. 但し以下に例示したものを除く.名義尺度・・・動物の名前
順序尺度・・・順位(特等 一等 二等 三等・・・)
間隔尺度・・・摂氏温度(℃)
比例尺度・・・絶対温度(゜K)
2 拡張子・・・使ったことのあるファイルの拡張子を5つ程度
第2~6回 データの取り込み,整理(1)~(5)
到達目標2-1 ネットワーク上にあるデータを探すことができる
2-2 ネットワーク上のデータを取り込むことができる
厚生労働統計一覧
https://www.mhlw.go.jp/toukei/itiran/index.html医療従事者に関するところを中心に
課題
令和3年医療施設(動態)調査
都道府県別の病院数と病床数をまとめよ病床機能報告
令和3年度病床機能報告の結果を用いて,大阪府内の一般病院に勤務している常勤のPT,OTの人数と施設数をまとめよ第3回 データの取り込み,整理(2)
前回の振り返りと,知ってて役に立ちそうなエクセルの使い方など参考資料
セルの絶対参照,相対参照(エクセル)(Medbb's blog)https://medbb.hatenablog.com/entry/2022/07/18/120000
出来上がりサンプル
第4回 データの取り込み,整理(3)
年齢区分別(年少人口(0~14歳)生産年齢人口(15~64歳)老年人口(65歳~))の無医地区と準無医地区の住民の合計についてその割合を都道府県別に求めよ用いるデータ
無医地区等調査(厚生労働省)
令和元年度無医地区等調査 第5表 年齢階級別・男女別、人口https://www.mhlw.go.jp/toukei/list/76-16.html
人口推計 / 各年10月1日現在人口(e-stat総務省統計局)
https://www.e-stat.go.jp/stat-search/files?page=1&layout=datalist&toukei=00200524&tstat=000000090001&cycle=7&year=20190&month=0&tclass1=000001011679出来上がりサンプル
第5回 データの取り込み,整理(4)
新型コロナウイルス感染症用いるデータ
データからわかる-新型コロナウイルス感染症情報-(厚生労働省)
https://covid19.mhlw.go.jp/年代別新規陽性者数(週別)
https://covid19.mhlw.go.jp/public/opendata/newly_confirmed_cases_detail_weekly.csv
人口推計の結果の概要(総務省統計局)
https://www.stat.go.jp/data/jinsui/2.html人口推計(2022年(令和4年)10月1日現在)
https://www.stat.go.jp/data/jinsui/2022np/index.html
出来上がりサンプル
以下のものを全国と大阪府と奈良県の3パターンで出来ればと考えています東京都年齢階級別新型コロナウイルスの新規陽性患者数(7日移動平均 人口10万対)3月24日~10月24日. pic.twitter.com/oYriGiJReK
— めどぶぶ (@medbb) October 25, 2020
全国
大阪府
奈良県
参考
セルの絶対参照,相対参照(エクセル)(Medbb's blog)https://medbb.hatenablog.com/entry/2022/07/18/120000
第6回 データの取り込み,整理(5)
文字データの解析解析例
「コンソーシアム実習」地域医療学概論(分担:奈良県の地域医療)(奈良県立医科大学医学部医学科 ・早稲田大学)https://medbb.net/education/wasedanmucom2021/
保健医療分野におけるフューチャー・デザインの可能性
https://medbb.net/education/futuremed20190406
形態素解析器
Web茶まめhttps://chamame.ninjal.ac.jp/
参考
tf-idf(term frequency - inverse document frequency)とは?(ITmedia)https://atmarkit.itmedia.co.jp/ait/articles/2112/23/news028.html#:~:text=%E8%87%AA%E7%84%B6%E8%A8%80%E8%AA%9E%E5%87%A6%E7%90%86%EF%BC%8F%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92,%E6%96%87%E6%9B%B8%E4%B8%AD%E3%80%8D%E3%81%A7%E3%80%8C%E3%81%82%E3%82%8B%E5%8D%98%E8%AA%9E
用いるデータ
まちづくりアンケート調査など(高山市)https://www.city.takayama.lg.jp/shisei/1004958/1006854.html
第7~8回 推定(1)~(2)
到達目標7-1 点推定をすることができる
7-2 平均値の区間推定を出来る
記述統計量(代表値)
代表値と散布度からなる.←駅伝やマラソンの実況中継はこれらを利用しているから状況がわかる平均(Mean)
算術平均average
いわゆる割り勘.xbar=1/n(x1+x2+・・・+xn)
欠点:外れ値があると平均値は分布の中心位置を示さない(←それって代表的な値??)
→ 対処法:外れ値を取り除くか中央値を使うか
幾何平均(相乗平均)
全て掛け合わせて累乗根をとる
加重平均
重みづけ平均
例えば ミニテストと期末試験の平均をとる → そのままの平均で良いの?
度数分布表を用いた平均もこの方法・・・Σ(階級値×階級の度数)/n
中央値
median昇順に並べたときに,真ん中の順番のデータ(変数)の値
データの数が偶数だと真ん中のデータは二つになるのでそれらの平均値
最頻値
mode最も個数が多いデータの値
最頻値は複数存在する場合がある→二峰性
平均値と中央値の考え方の違い 平均値(14.55) こちらは分布なんて関係なく中央値(15) データの分布に依存する(パラメトリック)=平均値 と データの分布に依存しない(ノンパラメトリック)=中央値,最頻値の関係がわかるかなと思います 例えば5が0に変わってしまうと平均値は大きく変わりますが,中央値は変わりません パラメトリック・・・数値に依存する(数値の分布によって値が影響を受ける)というとイメージしやすいのかな? |
記述統計量(散布度)
範囲
最大値と最小値の差 max,min四分位範囲
quartileIQR=第3四分位数(75%点)-第1四分位数(25%点)(参考:中央値=第2四分位数(50%点))
第3四分位数(75%点)の算出方法は数多くありまして・・・
一番わかりやすい四分位数の出し方は以下参照ください 実際には何種類か出し方があります. ダンゴ包丁理論(tukeyのヒンジ) https://medbb.hatenablog.com/entry/2020/12/12/091240 |
分散 標準偏差
var範囲を用いた散布度と違い,平均値からのバラツキ(差=偏差)の平均を求めようというもの
ただし偏差の平均をとれば集団内の各々のズレっぷりがわかると思って計算しても → 合計は常に0 故に平均も常に0
そこで偏差を二乗したものの平均を取っている → 分散
標準偏差は分散の正の平方根をとったもの
例題
以下の身長のデータより,算術平均,中央値,最頻値,範囲,分散,標準偏差を求めよcsvファイルはコチラをクリック
点推定
一つの数値(点)で推定値を示すこと欠点:推定値と真の値がどの程度ズレているのかよくわからない
利点:区間推定よりも簡単に算出できる
推定をしても必ず一致するわけでもない→せめて偏りなくバラついてほしい→不偏推定量
平均値
標本から求めた平均値は母集団の平均値の不偏推定量か?以下は20000のデータから標本数10の平均値を求めたもの(標本数2000)をヒストグラムにしたもの
125.0未満の標本平均になった標本の数 1000(50.0%)
標本平均が125.0になった標本数 22(1.1%)
125.0を超えた標本平均になった標本の数978(48.9%)
分散
標本から求めた分散は母集団の分散の不偏推定量か?標本の分散
以下は20000のデータから標本毎に求めた平均(標本平均)を用いて分散を求めたもの(標本数2000)をヒストグラムにしたもの母分散の値よりも低く出る標本が多い→偏っている
母平均を用いた標本の分散
それでは母平均を用いて標本ごとの分散を求めると以下のようになる偏っていない推定が出来るが,そもそも母平均を用いることが出来るわけもなく・・・
不偏分散(標本の平均を用いて母分散の推定を行う)
<参考>不偏分散は何故nではなく(n-1)で除するのか(生物統計学2018奈良医大) https://medbb.net/education/nmubiostat2018/index.html#VAR |
今回のデータで検証すると
標本の平均を用いた分散<母平均を用いた分散 1978
標本の平均を用いた分散=母平均を用いた分散 22
標本の平均を用いた分散>母平均を用いた分散 0
ということで,標本平均を用いて母分散の推定を行うには,少し値を大きくしないといけない
上記の<参考は>母平均を用いた式を標本平均に置き換えて式を変化させた話 → 結論は偏差平方和を標本数nではなくn-1で除すると良い
課題
1
以下の3つの標本の個票データよりそれぞれの標本から母平均と母分散,標準偏差を点推定せよ2
var.p(分散)とvar.s(不偏分散)の関係を示せ区間推定
点推定に幅をもたせたもの.幅の定義は確率(どの程度あたるものか)
∴100%あたる推定に意味は無い→確実に当たる幅を設定したら達成できるので
一般的に95%の確率で当たる区間(95%の信頼区間)で幅を決めている
平均値の区間推定については標準誤差を基準に計算する
標本平均の標準偏差=標準誤差
・標準偏差は標本の中でのそれぞれの値の分布のバラツキ具合を示したもの・標準誤差は標本の平均は標本ごとに異なるのでそのバラツキ具合を示したもの
2000の標本(n=10)より求めた平均値から分散を求めると8.01396
((((ID1~10の平均値)-125)^2)/10+(((ID11~20の平均値)-125)^2)/10+・・・+(((ID19991~20000の平均値)-125)^2)/10)/2000=8.01396
標本数は10,母分散は80.97なので母分散/標本数≒標本平均の分散
∴母標準偏差/√標本数≒標本平均の標準偏差
という関係があるように見える → 数式を展開するとそのような関係が導ける.以下参照
<参考>標準誤差SEはなぜ標準偏差σを√nで除するのか(生物統計学2018奈良医大) https://medbb.net/education/nmubiostat2018/index.html#SE |
正規分布
人など生物の成長に関わるものなどは、正規分布に近いとされている平均値に近い事象ほど多く起こり,平均値から離れていくほど少なくなっていく(どこまで離れていってもその事象は起こる)
標準正規分布表
正規分布は平均値を0とし,正規分布の広がりは分散に依存するので分散=1 つまり 標準偏差=1としたときに,平均値離れて行く程(Zがプラス方向に大きく マイナス方向に小さく)ズレることで出現確率が低下することを表わしたもの曲線下の面積=1(100%)
標準正規分布表のPDF版はコチラから
中心極限定理
血圧のデータは先に示した通り単純に乱数で発生させただけなので,サイコロと同様にどの血圧値も均等に出現しております.なので母集団のデータの分布は正規分布ではないのですが,母集団の分布によらず、抽出した標本の平均値は表本数が大きくなるほど近似的に正規分布に従うという性質があります.
課題(授業内)
確率(面積)とZ値の関係の確認を行う例:95%の信頼区間を求める時のZ値は?
課題1
母集団20000人からなる収縮期血圧を整数だけで記録される血圧計を用いて測定したデータの件20000のデータから標本数10の平均値を求めたもの(標本数2000)が,正規分布と同じような状況になっているか検証せよ
度数分布表は以下
それぞれの階級の出現確率を求めて検証すること
medbbstat2022-0201FDT.csv
偏差値は平均点を50として,1標準偏差分良い点悪い点を取っていたら偏差値を±10として求める.
Z値は平均値を0として1標準偏差分高い値,低い値であったら±1として求める
標本平均を用いた母平均の区間推定
いわゆる一般に行われる区間推定の話になります.検証したのはどなたも知るはずがない母数(母集団の平均値や母分散)を用いましたが,実際に標本からデータを取り平均値を推定する際に求めることが出来るのは,一つの標本から標本平均を求めることと不偏分散を求めるところまでです
そのため推定は標本のデータおよび正規分布を用いて95%の信頼区間を求めることで20回標本を抽出すれば19回は含まれるであろう区間推定を行うことになります.
課題2
以下のデータセットからサンプル数10毎に平均を求め95%信頼区間で母平均の推定を行え.medbbstat2022-0201b301_500.csv
回答例(t分布による推定付き)
medbbstat2022-0201b301_500A.xlsx第12回 t検定
到達目標12-1t分布を説明できる
12-2検定の多重性について説明できる
t分布
2群の平均値の推定や検定において,標準正規分布を使うと上手くいかない・・・特に標本数が少ないと困っていたゴセットさんが標本数によって平均値の出現する確率が変化する分布を示しました.
諸々の理由でt分布と呼ばれています.
酒井 弘憲,ギネスビールと統計家ペンネーム スチューデント,ファルマシア51巻12号,2015 https://www.jstage.jst.go.jp/article/faruawpsj/51/12/51_1168/_article/-char/ja |
故に標本数が多くなるとt分布は正規分布に近似されていく.
t分布のPDF版はコチラから
「自由度」νが出てきますが,以下考え方
標本の中で自由に振る舞うことが許されている値の数例えば標本から平均を求めたとき,その平均が母数の推定値としたら、自由に振る舞えない値が出てくる(つじつま合わせ)
検定
二つの仮説(本当に証明したい仮説=H1対立仮説と,H0帰無仮説)を基準とする確率(有意水準α)に基づきいずれかを採択する.
流れは帰無仮説を棄却するかしないか→棄却した場合は対立仮説
H0 μ=0
H1 μ≠0
という感じで検定する人は帰無仮説は世の中的に想定内 対立仮説は想定外 という恰好で帰無仮説を棄却して対立仮説を採択することを祈っている(と思う)
仮説検定を行う理由は,既に仮説があって立証する形をとっているからです. 「後出しじゃんけん」だと偶然出た結果であってもなんでも言えるわけで,本当なの?となってしまいます. 詳しい話は以下の資料を読んでいただけると良いかなと思います. <参考>研究におけるデータ収集と統計処理について-医の共通科目(奈良県立医科大学大学院医学研究科) https://medbb.net/education/nmucsmed2022/ |
検定の流れ
1:帰無仮説H0,対立仮説H1を設定(対立仮説が証明したい説)2:有意水準を定める(通常5% 0.05)
3:標本より求めたデータから検定統計量を求める(t分布を使うならt値,正規分布を使うならZ値)
<母集団から見た標本の平均値>
t=(集団の平均値-母集団の平均値)/標準誤差
<集団内の個々の観測値>
z=(観測値-その集団の平均値)/標準偏差
<母集団から見た標本の平均値>
=(集団の平均値-母集団の平均値)/標準誤差
4:検定統計量からその標本がどの程度の確率でおこる事柄か確率Pを求める(統計表より)
5a:P値が有意水準よりも小さい場合は帰無仮説を棄却し対立仮説を採択(違いがある)
5b:P値が有意水準よりも大きい場合は判定保留(元々の仮説がるので今回証明できなかっただけ.無論何回も実験を行い証明が出来ないと・・・)
有意水準よりも小さい確率の領域を棄却域,有意水準よりも大きい確率の領域を採択域・・・どちらも帰無仮説を基準の名称になっています. 基本は確率(P値と有意水準)で採択域か棄却域か判断するのですが,実際には検定統計量同士で比較するケースの方が多くなるかと思います. 大小関係を整理しておかないとわからなくなるので,確率分布図を思い浮かべていただけたら混乱しないと思います |
t検定
2群の平均値に差があるのかを統計的に検証t分布を使う(参考 正規分布を使うのはz検定)
(一群のt検定もあるがそれは割愛)
関連のある2群(一標本)と関連の無い2群(二標本)のケースがある
独立2群
異なる二つの群(例:何かを施した群と何もしていない群)の平均値の比較計算するにあたっては,それぞれの群の分散(標準偏差)を合成するので,あまりにも異なる場合はそれ用のWelchのt検定を用いる
(最初からWelchのt検定を行ったほうが良いという説を支持しています)
関連2群
ビフォーアフターなど,同じ対象に対して2回測定したデータを用いる.それぞれ前後の差分をとり平均したものを用いる,差が無ければ0.効果があったら値が0とは異なる
paired-t検定とよばれる
頑健性(ロバストネス)
母集団の分部が正規分布であることを前提としているが・・・例題
例題1
リハビリ前後で患者さんの動作にかかる時間を測定したところ以下の結果になった.効果があったのか検定せよ
CSVデータはコチラ
例題2
SSDSE-基本素材(SSDSE-E)https://www.nstac.go.jp/sys/files/SSDSE-E-2023.csv
をダウンロードし都道府県別の中学と高校の生徒数に違いがあるか検定をせよ
また,都道府県によって中学と高校の学校あたりの在籍人数に違いがあるか検定せよ
<参考>SSDSE(教育用標準データセット)(独立行政法人統計センター)
https://www.nstac.go.jp/use/literacy/ssdse/
第13回 カイ二乗検定
到達目標12-1カイ二乗分布を説明できる
12-2期待値(度数)を求めることが出来る
カイ二乗分布
母分散を推定できる確率分布χ2=ΣZi2
カイ二乗分布表
t分布と同じく自由度により確率分布は変化するカイ二乗分布(ν=1)の時のそれぞれの上側確率に相当する正規分布の確率(両側5%(片側2.5%ずつ)は全て上側に集約されてしまう
χ2=((X-μ)/σ)2
χ20.05=((1.96-0)/1)2
例)標準正規分布で有意水準両側5%の場合の境界値はz=1.96.カイ二乗分布表より有意水準上側5%の時のカイ二乗値=3.84
カイ二乗分布のPDF版はコチラから
独立性の検定(カイ二乗分布)
度数の比較(名義尺度でもOK)被験者からコーヒーおよび煙草に関してアンケートをとり,コーヒーとタバコに関連がある(対立仮説)か無い(帰無仮説)か調べる
事象の起こる確率は実際に観測された度数を基に算出して全体の度数を乗じることで期待値(度数)とする.
期待値は周辺度数より求める格好
喫煙あり×コーヒー好きの期待値=100×90/160=56.25 以降も同様に全ての組み合わせで期待値を求める
喫煙あり×コーヒー好きのカイ二乗値=(75-56.25)2/56.25=6.25 以降も同様に求め足し合わせる
χ2=6.25+10.42+8.04+13.39=38.10
この集計表の自由度は1・・・χ20.05(1)=3.84
帰無仮説を棄却し対立仮説を採択.つまり関連がある.
例題
例題1
1.コーヒーの好き嫌いが運動習慣に関連があるのかアンケート調査を行った.有意水準5%で検定を行え
2.上記の各セルの度数を勝手に倍にしてみた.(無論現実にはやってはいけない)同様に検定を行え
例題2
SSDSE-基本素材(SSDSE-E)https://www.nstac.go.jp/sys/files/SSDSE-E-2023.csv
より奈良と近畿の他府県の転入者数と転出者数の関係を比較せよ
第14回 判断分析-感度・特異度・ROC曲線(1)~(2)
到達目標14-1判別特性値の計算が出来る
14-2評価結果よりROC曲線を作成し評価やカットオフ値の検討が出来る
検査法の診断的有用性を評価する話
疾患あり | 疾患なし | 指標 | |
---|---|---|---|
検査陽性 | 真陽性 a |
偽陽性 b |
陽性的中率 a/(a+b) |
検査陰性 | 偽陰性 c |
真陰性 d |
陰性的中率 d/(c+d) |
指標 | 感度 a/(a+c) |
特異度 b/(b+d) |
有病率 (a+c)/(a+b+c+d) |
予測値
有病率の影響を受ける陽性的中率=P(D|陽性)
陰性的中率=P(Dc|陰性)
感度と特異度
感度=P(陽性|D) 疾患群における真陽性の割合偽陽性率=P(陽性|Dc) 非疾患群における偽陽性の割合
特異度=1-偽陽性率 非疾患群における真陰性の割合
検査法の評価指標
AUC=ROC曲線を描いて算出 検査の分別能ROC曲線
教科書(P119)判別度の分析
感度と偽陽性率(1-特異度)を用いて曲線を描く
カーブが左上に行くほど検査特性が優れている.(=AUCが大きくなる)
判断基準は諸々の要素が入るが1,0と0,1の対角線と曲線の交わる部分が目安.あとは検査の目的などによって変わってくる
尤度比
オッズ比
オッズ・・・値が高いほど感度が高いオッズ比は疾患無しのオッズに比べ疾患有のオッズがどの程度高くなるのかの比
例題
2種類の検査法A,Bを施行したところ以下の結果を得た.AUCを求めどちらの検査が優れているか評価せよ
A法
疾患群 | 14.3 | 15.2 | 13.8 | 14.1 | 13.9 | 12.6 | 14.2 | 14.6 | 13.1 | 13.7 |
非疾患群 | 13.2 | 14.1 | 13.8 | 13.6 | 12.9 | 12.4 | 12.1 | 12.3 | 12.3 | 12.8 |
疾患群 | 14.3 | 15.2 | 13.8 | 14.1 | 13.9 | 12.6 | 14.2 | 14.6 | 13.1 | 13.7 |
非疾患群 | 13.2 | 14.3 | 13.8 | 12.9 | 14.4 | 14.4 | 12.1 | 15.3 | 12.3 | 12.8 |
例題2
以下の個票データよりどちらの検査が優れているか検証せよC法 ohsustat2023-1401.csv
D法 ohsustat2023-1402.csv