大阪保健医療大学 統計学2021(保健医療学部 リハビリテーション科)

対面授業で実施しておりますので,動画閲覧のページを利用する予定はありません.
第2回よりオンライン授業になりました
但し自宅からリアルタイムで授業参加される方は.大学から通視されたzoomURLにアクセスしてください.


講義/復習動画の閲覧はこちらから

ログインID:

パスワード:

授業メニュー

第1回 尺度,データ形式

第2-5回 データの取り込み,整理

第6-回 推測

第13-回 判断分析-感度・特異度・ROC曲線



第1回 尺度,データ形式

到達目標
1-1 4つの尺度について説明できる
1-2 ネットワーク上で取り扱うデータ形式について説明できる


統計とは

教科書による統計学

『統計学はあくまで「確率で真の結論を推測する」だけ』

私の考える統計学

『気づかせてくれるもの。うすうす気づいていることを確認するもの』

私の考える医療統計学(2015)

『ある事象のなかで一般化出来るもの(法則性)を見いだすことは、その個別の事例にとどまらず広く利用できる知見をもたらす。そのためには複数の事例を集めて検討する統計処理が必要になる。
 それゆえ、統計処理は個別の事情を発生頻度などある条件に従って排除する主義に基づく。
 私達の周りで起こる様々な事象は自然現象によるものだけではなく人間活動などの人工的な要因の影響を受けるものも多く、そのため法則性を見いだすにはそれぞれの領域の目的に応じた統計処理が必要となる。
 医療統計学は、単に生物としてだけではなく活動状況も多様な集団である人に対して、提供する医療が及ぼす影響やその要因に関する法則性を見いだす方法を探求する学問分野である。』
(複雑なため確定的な事象はなく確率的に取り扱う必要がある)

統計の分類

記述統計と推測統計に分類される

記述統計とは

・収集したデータを要約してその集団の状況を表す
・そこにあるデータは全体(母集団)
・度数(分布)・代表値・散布度など

変量(データ)の分類・・・測定尺度

ohsustat2020-0105.png(346931 byte)
変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。
それぞれを尺度と呼び、4つに分類するのが一般的である(P5)
1名義尺度
2順序尺度
3間隔尺度
4比例尺度

1,2を質的データ(変量)(定性的)
3,4を量的データ(変量)(定量的)
性質としては上位互換性があり
4>3>2>1

ネットワーク上で取り扱うデータ形式について

ohsustat2020-0106.png(338767 byte)
ネットワーク上で取り扱えるデータは全て0,1の何れかの数値の羅列.
皆さんがスマホやPCで見ている各種データは人にわかるように表示している
ohsustat2020-0107.png(352827 byte)
拡張子によって人はデータの形式を知ることができる
ohsustat2020-0108.png(321674 byte)
CSVはシンプルな形式なので,様々なソフトで取り扱うことができます

本日の課題

1 4つの尺度 (名義尺度,順序尺度,間隔尺度,比例尺度) の例を挙げよ.    但し以下に例示したものを除く.
  名義尺度・・・動物の名前
  順序尺度・・・順位(特等 一等 二等 三等・・・)
  間隔尺度・・・摂氏温度(℃)
  比例尺度・・・絶対温度(゜K)
2 拡張子・・・使ったことのあるファイルの拡張子を5つ程度

第2-5回 データの取り込み,整理

到達目標
2-1 ネットワーク上にあるデータを探すことができる
2-2 ネットワーク上のデータを取り込むことができる

厚生労働統計一覧

https://www.mhlw.go.jp/toukei/itiran/index.html
2.保健衛生(厚生労働統計一覧)
2.1.医療(施設)
2.2.医療(従業者等)
2.3.医療(患者)

平成30(2018)年医療施設(動態)調査・病院報告の概況

https://www.mhlw.go.jp/toukei/saikin/hw/iryosd/18/
調査の目的,対象,調査方法,集計,表章記号の規約の確認
統計表一覧(政府統計の総合窓口e-Stat)
https://www.e-stat.go.jp/stat-search/files?page=1&toukei=00450021&tstat=000001030908

「Z3 第3表(報告書第3表) 病院数・病床数,年次・開設者別」のDBボタンをクリックすると,表形式のデータを閲覧できる

1)平成29年医療施設(静態・動態)調査
E20病院数,診療録電子化(電子カルテ)の状況・二次医療圏別

医師・歯科医師・薬剤師統計*(旧:医師・歯科医師・薬剤師調査)

https://www.mhlw.go.jp/toukei/list/33-20.html
2)平成30年医師・歯科医師・薬剤師統計
閲覧29 医療施設従事医師数(主たる従事先),主たる診療科、主たる従事先の勤務日数、宿直・日直回数別

受療行動調査(一般統計)

https://www.mhlw.go.jp/toukei/list/34-17.html
医療施設を利用する患者について、受療の状況や受けた医療に対する満足度等を調査
取り扱う表
3)平成29年_受療行動調査 受療行動調査
閲覧表 基本集計 13患者の構成割合,性、年齢階級、心身の状態全項目、外来-入院別

課題

本日授業で取り扱った1~3について
データの切り口やまとめ方は,各自違ってよいですよ.
グラフの名前も付けてください.
1)人口動態統計より大阪府の死亡数,死因について平成11年から令和元年までどのように変化したのかまとめよ
2)奈良県各医療圏の診療録電子化の状況が近畿厚生局管内でどのような位置付けにあるのかわかるグラフ
参考
nmucpmentor2019-01.png(170657 byte)
奈良県立医科大学 キャリアパス・メンター実習2019(分担:地域医療学)より

X)診療科別で宿日直の観点から勤務状況が分かるようなグラフ
X)心身の状態が年齢や性別,入院や外来などの状況によりどのような変化をしているのか示すグラフ

補足

病名関連資料

「疾病、傷害及び死因の統計分類」(厚生労働省)
https://www.mhlw.go.jp/toukei/sippei/
標準病名マスター作業班
http://www.byomei.org/index.html

第6-回 推定

大数の法則

標本の平均は標本数が大きくなると母平均に近づく
エクセルで確認

中心極限定理

標本の平均は標本数が大きくなるほど,母集団の分布に関わらず標本の平均の分布は正規分布に近づく.
エクセルで確認

進捗状況

6回

乱数でテストの点をシミュレート
ohsustat2021-0601.png(23683 byte)
大数の法則
ohsustat2021-0602.png(8510 byte)

7回

正規分布に関する説明
左右対称の釣鐘状分布
平均値に近いほど出現率が高く遠ざかるに従って低くなる(ことが多い)
同じ事柄を同じ条件で繰り返すと正規分布になるという話→中心極限定理
「異質な集団の計測値が組み合わさった分布は正規分布とならない」

中心極限定理に関する説明
標本の大きさが十分であれば標本平均の分布は正規分布
 →正しく測定されているのであれば偶然誤差の発生は正規分布に従う
 →測定回数を増やせば増やすほど

分散
variance
V excel関数はVAR
偏差を二乗したものの平均
偏差とは,もともとは標準となる数値からのズレ(偏り)を意味するものだが統計の世界では集団の平均値からのズレを示す
偏差の平均をとれば集団内の各々のズレっぷりがわかる → 合計は常に0 故に平均も常に0 なので求められない
標準偏差
Standard Deviation
記号は標本標準偏差s 母標準偏差σ
s=√V
(故にVはs^2やσ^2で表現する)
nmubiostat2016-0302.png(3064 byte)

標準偏差と標準誤差
・標準偏差は標本の分布のバラツキ具合を示したもの
・標準誤差は母集団から抽出した標本の平均値のバラツキ具合
SE=σ/√n
標準誤差SEはなぜ標準偏差σを√nで除するのか
標準誤差は母平均に対する標本平均のバラつき指標(標準偏差)の話
対象が母集団全体ならば0だが,母平均(μ)と標本平均(xbar)には差が生じる
ある標本における平均値と母平均の偏差平方は
(xbar-μ)
=((1/n)Σx-μ)
=((1/n)Σx-(1/n)Σμ)
=((1/n)Σ(x-μ))
=(1/n)(1/n)Σ(x-μ)
 -----
 ここで
 (1/n)Σ(x-μ)
 をσとおくと
 -----
=σ/n
故に標準誤差は
SE=σ/√n

8回 区間推定

母数がある確率で入る幅を持った推定値
母平均は一定なのに標本平均は標本毎に異なるので幅を持たせる
orcstat2020-0602.png(11589 byte)
標本平均に幅を持たせることで、その枠内に母平均が入る。→平均値のバラつき具合が標準誤差 SE=σ/√n

母標準偏差が未知の場合の区間推定

標本が大きい場合

正規分布は母平均値と母標準偏差が分からないと使えない→nが多い場合標本平均と標本標準偏差(不偏標準偏差))で近似できる

標本が小さい場合

正規分布は母平均値と母標準偏差が分からないと使えない→nが少ないので近似できない→t分布(標本の自由度νさえわかっていれば、後は検定統計量を求めれば確率がわかる)
t分布
自由度のみできまる確率分布
自由度・・・標本の中で自由に振る舞うことが許されている個体の数
      統計量が母数の推定となると、自由に振る舞えない個体が出てくる(つじつま合わせ)
標本分散は偏差二乗和を個体の数で除することで求めるが母分散のほどよい推定である不偏分散はn-1(自由度)で除する
正規分布との関係を確認
nmubiostat2018-0401.png(3867 byte)

課題

1000人を対象に試験を行った.全体の集計はまだ行っていない.
とりあえず受験した各教室(20名)の点数が手元にある.
このデータから試験全体の平均点を95%信頼区間,99%信頼区間で推定せよ
データは以下の通り6教室分あるが,それぞれ手分けして推定を行い結果を示せ
例)95%信頼区間(46.82,55,12)
クラスデータ(CSV)

クラス1

クラス2

クラス3

クラス4

クラス5

クラス6

9-10回 検定

<大前提>やみくもに検定するのではなく、検定する理由・確信があるから確かめる という感じで
手順1:仮説をたてる(帰無仮説H0および対立仮説H1)
背理法に基づく証明をしている。
(差がない仮説が証明できないので、その対立である差がある仮説を採択する)
手順2:有意水準を決める
確率的に必然と偶然を切り分けている。一般に5%で分けているが1%の時もある
手順3:検定統計量を計算する
その事象の起こる確率を計算していることになるが、用いる確率分布によって計算式が異なる。
手順4:有意水準と比較し、仮説を棄却採択する
例)帰無仮説H0を棄却し対立仮説H1採択

<参考>とりあえずt検定やってみたという統計の話(medbb.net)
http://www.medbb.net/education/ocrstat2015/img/01toriaezu.pdf

検定と推定の違い

推定
orcstat2020-0602.png(11589 byte)
検定
orcstat2020-0603.png(12754 byte)

課題

過去の気象データ検索(気象庁) https://www.data.jma.go.jp/obd/stats/etrn/index.php?prec_no=62&block_no=1470&year=2021&month=1&day=1&view=
20年前の6月と今年の6月の湿度は統計的に異なるのか?

第11回-12回 カイ二乗検定

適合度の検定

1行n列
事象の起こる確率に基づく頻度(=n×p)期待値(度数))と実際に観測された度数(観察度数)の差異について検定.帰無仮説(測定した分布は想定されている分布と等しい)H:P=(1/6,1/6,1/6,1/6,1/6,1/6)・・・サイコロの場合
<例題> 対象とする集団のABO式血液型の割合はA型40%、O型30%、B型20%、AB型10%なのか?
A型28人 O型22人 B型22人 AB型18人
有意水準5%で検定せよ
nmuhlthstat1202106-01.png(3747 byte)
血液型Aのカイ二乗値=(28-36)/36=1.78 O型以降も同様に求め足し合わせる
χ=1.78+0.93+0.89+9.00=12.59
この集計表の自由度は3・・・χ0.05(3)=7.815
帰無仮説を棄却し対立仮説を採択.つまり適合しない.

独立性の検定

m行n列
こちらはそれぞれが独立しているか(関係があるか無いか)を検定
考え方は一緒
事象の起こる確率は実際に観測された度数を基に算出して全体の度数を乗じることで期待値(度数)とする.
nmuhlthstat1202106-02.png(3628 byte)
期待値は周辺度数より求める格好
nmuhlthstat1202106-03.png(3808 byte)
喫煙あり×コーヒー好きの期待値=100×90/160=56.25 以降も同様に全ての組み合わせで期待値を求める
喫煙あり×コーヒー好きのカイ二乗値=(75-56.25)/56.25=6.25 以降も同様に求め足し合わせる
χ=6.25+10.42+8.04+13.39=38.10
この集計表の自由度は1・・・χ0.05(1)=3.84
帰無仮説を棄却し対立仮説を採択.つまり関連がある.

本日の課題

以下は奈良県令和2年度県民アンケート(http://www.pref.nara.jp/15126.htm)の「問8 将来の奈良県での定住意向」の結果である.
性別により意向が異なるのか検定せよ.なお有意水準は5%とする
nmuhlthstat1202106-04.png(4113 byte)

本日の課題(12)

人口動態統計特殊報告(厚生労働省)より
https://www.mhlw.go.jp/toukei/list/list58-60.html
高橋 美保子, 仁科 基子, 太田 晶子:日別出生数からみた社会的要因による出生日選好傾向の現状(日本公衆衛生雑誌)
https://www.jstage.jst.go.jp/article/jph/61/1/61_12-081/_article/-char/ja/
直近20年間の日本国内における日別の出生数が知りたい。(レファレンス協同データベース)
https://crd.ndl.go.jp/reference/modules/d3ndlcrdentry/index.php?page=ref_view&id=1000285240

第13回 判断分析-感度・特異度・ROC曲線

到達目標
13-1判別特性値の計算が出来る
13-2評価結果よりROC曲線を作成し評価やカットオフ値の検討が出来る

<参考資料>
COVID-19における抗体検査についての基本的考え方(日本臨床検査医学会新型コロナウイルスに関するアドホック委員会)
疾患あり 疾患無し
検査陽性 真陽性 偽陽性
検査陰性 偽陰性 真陰性
検査法の診断的有用性を評価する話
有病率の影響を受ける指標、受けない指標を整理しておくこと
「率」ではあるが実際には割合。時点有病率ともいう(期間有病率は時点有病率に期間中の罹患を加えたもの)
比と率と割合の違いについて
比・・・異なるものを比較(無単位になる場合もあるが)
率・・・比だが時間と比較(単位は/sec /min /hr となる)
割合・・全体と一部(同じもの)を比較(無単位)
以下参考にしてください

第13医療統計(Ⅱ)-比と率と割合(大阪保健医療大学 医療情報学2016)
http://www.medbb.net/education/ohsumedinfo2016/#13

感度と特異度

感度=P(陽性|D)  疾患群における真陽性の割合
偽陽性率=P(陽性|Dc) 非疾患群における偽陽性の割合
特異度=1-偽陽性率 非疾患群における真陰性の割合
予測値
有病率の影響を受ける
 陽性的中率=P(D|陽性)
 陰性的中率=P(Dc|陰性)
検査法の評価指標
 尤度比=感度/偽陽性率 
 オッズ比=教科書参照 検査の有用性
 ROC-AUC=ROC曲線を描いて算出 検査の分別能

何でも陽性と判断する検査は感度も偽陽性率も1になる
(なんでもかんでも、あります!! のノリ)

ROC曲線

判別度の分析

課題

1)次のマンモグラフィの検査結果からROC曲線を描き、AUCを(小数点以下2桁まで求め四捨五入)求め、カットオフ値の検討をせよ
<参考>
森本 忠興,日本の乳癌検診の歴史と課題,日乳癌検診学会誌,18(3)211-231,2009
https://www.jstage.jst.go.jp/article/jjabcs/18/3/18_3_211/_article/references/-char/ja/
異常なし(1) 良性(2) 悪性を否定できない(3) 悪性の疑い(4) 悪性(5)
疾患群 0 4 14 12 10 40
非疾患群 20 20 12 8 0 60
2)以下のデータと1)を比較しどちらの系がより優れているか
異常なし(1) 良性(2) 悪性を否定できない(3) 悪性の疑い(4) 悪性(5)
疾患群 1 5 16 10 8 40
非疾患群 20 16 14 10 0 60

課題用csv