大阪保健医療大学 統計学2019
(保健医療学部リハビリテーション学科 理学療法学専攻・作業療法学専攻)


授業について

教科書

入門統計学−検定から多変量解析・実験計画法まで(オーム社)
http://shop.ohmsha.co.jp/shop/shopdetail.html?brandcode=000000001900&search=978-4-274-06855-3&sort=

授業メニュー(授業の進み具合など状況に応じて変更しながら実施します)
第1〜5回 記述統計(T)−度数分布について

第6〜8回 記述統計(U)−代表値・散布度について

第9回 t検定

第11〜12回 判断分析−感度・特異度・ROC曲線


第1〜3回 記述統計(T)−度数分布について

到達目標
1−1度数分布表を作成できる


統計について

教科書による統計学

『統計学はあくまで「確率で真の結論を推測する」だけ』

私の考える統計学

『気づかせてくれるもの。うすうす気づいていることを確認するもの』

ここまでの統計学・・・木を見て森を見ず(研究者側) 対 森を見て木を見ず(データ側)
両者ともに妥当となったら研究者が気付いていた木の話は正しいだろう という論法
データ側の妥当とは確率に基づいた判断

授業後補足

本日は授業の進め方についての内容でした
モンティホールジレンマで示したスライドは以下
nmubiostat2018-0101.png(310373 byte)
nmubiostat2018-0102.png(311201 byte)
nmubiostat2018-0103.png(306942 byte)
nmubiostat2018-0104.png(305866 byte)

解説で用いたページは以下
ネコでもわかるモンティホールジレンマ(DOFI-BLOG どふぃぶろぐ)
公開データ絡みで紹介したページ

https://www.mhlw.go.jp/toukei/list/81-1.html
指標の必要性と存在する理由のくだりで紹介したのは
人口動態調査2017年表5.3  世界各国における粗死亡率及び年齢調整死亡率(人口10万対)(厚生労働省)
https://www.e-stat.go.jp/stat-search/file-download?statInfId=000031749373&fileKind=0
csv形式の話もしましたが様々なところで使われています

変量(データ)の分類・・・測定尺度

変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。
それぞれを尺度と呼び、4つに分類するのが一般的である(P5)
1名義尺度
2順序尺度
3間隔尺度
4比率(比例)尺度

1,2を質的データ(変量)(定性的)
3,4を量的データ(変量)(定量的)
性質としては上位互換性があり
4>3>2>1

度数分布表

それぞれのデータ(変量)の数(出現頻度)をまとめたもの
変量が名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数  ・・・出現頻度
累積度数・・・上位の変量の度数もあわせた度数
相対度数・・・総出現頻度を1(100%)としたときのそのぞれの度数のしめる割合
累積相対度数・・・累積度数の相対版

度数分布図

度数分布表をグラフ化したもの
縦棒グラフだが量的変量に限っては「ヒストグラム」その棒の部分の面積が度数を示している
<余談>
図にするときには色々なお作法があります

お題

大阪府にはどの地域にどれだけの医療機関があるのか.度数分布表でまとめよ
参考資料
医療機関コードがどのようなものか調べてみましょう
「診療報酬請求書等の記載要領等について」等の一部改正について(保医発0325第6号 平成28年3月25日)
https://www.mhlw.go.jp/file/06-Seisakujouhou-12400000-Hokenkyoku/0000123306.pdf
保険医療機関・保険薬局の管内指定状況等について(近畿厚生局)
https://kouseikyoku.mhlw.go.jp/kinki/gyomu/gyomu/hoken_kikan/shitei_jokyo.html
データを抽出していくわけですが結構大変だと思います.
地区番号別と市区町村単位で病院数 診療所数をまとめてください
データ処理の大変な人は空白取り除き版あります.
パスワードは授業中教えます
コチラ

授業後補足

大阪府の医療機関を抽出し郡市区番号を導き出すところまでしました.
次週は,市区町村別と郡市区番号別にとりまとめていきますが,
病院/医院 病床数と標榜診療科 など取りまとめていこうと思います,
診療科略称に関するところはPDFで出ています.ただしPDF→表形式に直すの時間かかると思いますし,表記も一対一ではないところもあるので以下のように取りまとめました.利用ください
診療科名の略称.csv

授業後補足

セルに入っている用語を抽出,判定する式
ohsustat2019-0101.png(18181 byte)
一つのセルで終わらそうとしたので上記のような式になりましたが,例えば下のようにしたら数式の入れ子構造にならず理解しやすいかと
ohsustat2019-0102.png(16059 byte)
セル<L3>:=SUBSTITUTE($I3,N$2,"")
セル<M3>:=LEN(L3)
セル<N3>:=IF(LEN(I3)=M3,0,1)

次週は 復習として診療科を
病院/診療所
そして市町村別のラベルも作成して,度数分布表を作成

第6回 記述統計(U)−代表値・散布度について

到達目標
6−1代表値にどのようなものがあるか説明・計算することが出来る
6−2度数分布表から平均値などの算出が出来る


代表値と散布度があると(構成数nもですが)その集団がどんなものか想像出来る(マラソン実況)
授業で用いるデータ
住民基本台帳に基づく人口、人口動態及び世帯数(総務省)
http://www.soumu.go.jp/main_sosiki/jichi_gyousei/daityo/jinkou_jinkoudoutai-setaisuu.html

代表値

average(その集団を数値一つで表す。excelはaverage関数で算術平均を出すが、まぁ代表値の代表ということだからと解釈しています)

算術平均

mean
関数はaverage
1/n・Σxi
加重平均 それぞれの変数を評価した上での平均
幾何平均(相乗平均) 関数はgeomean
積を求めてn乗根をとったもの
テストの点が10,15,14,13,60
算術平均=22.4
幾何平均=17.5
移動平均 平滑化

中央値

median(別名第2四分位数)
量的変量を順序尺度で処理した代表値
順番に並べたとき真ん中の順位にきた個体の値
個体数が偶数の時は真ん中2つの数値の平均値

最頻値

mode(流行,はやり)
違う意味で数の理論(多数決)の世界
量的変量を名義尺度で処理した代表値
名義尺度でわかることは一緒か違うか
階級毎に度数をカウント
一番多いところの階級値
一位が同点の時は併記(平均をとると えっオレ優勝!?状態になる)


度数分布表から算術平均を計算
Σ(階級値×度数)/構成数

散布度

dispersion

最大値と最小値を使う

最大値と最小値がわかればその集団のバラツキがわかる
最大値maximum excel max関数
最小値minimum excel min関数

範囲

Range
R=最大値−最小値

特徴
 外れ値もひらう
 算出が用意

四分位数を使う

Quartile
小さい順(昇順)に並べて集団を4分割

第1四分位数 First Quartile:Q1 = 25th percentile 25%タイル値
第2四分位数 Second Quartile:Q2 = 50th percentile 50%タイル値 = Median 中央値
第3四分位数 Third Quartile:Q3 = 75th percentile 75%タイル値

四分位範囲

IQR(interquartile range)
IQR=Q3-Q1

四分位偏差

QD(Quartile Deviation)
QD=IQR/2
範囲は個々の値のバラツキをイメージ
偏差はある値からのズレをイメージ

平均値を使う

偏差

Deviation
もともとは標準となる数値からのズレ(偏り)を意味するものだが統計の世界では集団の平均値からのズレを示す
偏差の平均をとれば集団内の各々のズレっぷりがわかる → 合計は常に0 故に平均も常に0

分散

variance
V excel関数はVAR
偏差の二乗したものの平均

標準偏差

Standard Deviation
記号は標本s 母集団σ
s=√V
(故にVはs^2やσ^2で表現する)

変動係数

C.V.=s/xbar バラつきを比較するため平均値を用いて正規化

到達度確認

1)下記の男性15-19歳の集団の測定データ(ダミー)より代表値と散布度をそれぞれ求めよ
15歳〜19歳男性BMIダミーデータ
国民栄養基礎調査(平成29年度の結果を利用)データより正規分布になるものとして機械的に作成しています.(故にデータ的にどうかと思うものも含まれます)
https://www.mhlw.go.jp/bunya/kenkou/kenkou_eiyou_chousa.html

2)20面体のサイコロを作り、不偏分散が母分散の程よい推定になるか検証せよ

授業後補足

フィルタ機能を使って必要なデータを抽出し,別シートに貼り付ける手法を紹介しました

住民基本台帳のデータを用いましたが以下
住民基本台帳に基づく人口、人口動態及び世帯数(総務省)
http://www.soumu.go.jp/main_sosiki/jichi_gyousei/daityo/jinkou_jinkoudoutai-setaisuu.html
人口推計(総務省統計局)
https://www.stat.go.jp/data/jinsui/

2018年6月に確定値が公表されています
比較してみましょう

第9-10回 t検定

到達目標
9−1仮説検定の手順について説明できる
9−2t検定を行うことが出来る

仮説検定

<大前提>やみくもに検定するのではなく、検定する理由・確信があるから確かめる という感じで
手順1:仮説をたてる(帰無仮説H0および対立仮説H1)
背理法に基づく証明をしている。
(差がない仮説が証明できないので、その対立である差がある仮説を採択する)
手順2:有意水準を決める
確率的に必然と偶然を切り分けている。一般に5%で分けているが1%の時もある
手順3:検定統計量を計算する
その事象の起こる確率を計算していることになるが、用いる確率分布によって計算式が異なる。
手順4:有意水準と比較し、仮説を棄却採択する
例)帰無仮説H0を棄却し対立仮説H1採択

t分布

正規分布に基づき確率を求めるには母平均と母標準偏差が必要→nが多い場合標本平均と標本標準偏差で近似できるが
nが少ない場合は近似できない→t分布(標本の自由度νさえわかっていれば、後は検定統計量を求めれば確率がわかる)
自由度
考え方・・・標本の中で自由に振る舞うことが許されている個体の数
      統計値が母数の推定となると、自由に振る舞えない個体が出てくる(つじつま合わせ)
標本分散は偏差二乗和を個体の数で除することで求めるが母分散のほどよい推定である不偏分散はn-1(自由度)で除する

t検定の種類

一標本(ビフォーアフター)
 一つの集団を対象としている
二標本(異なる集団を比較)
 それぞれの集団を一緒と見なして良いか
<参考>とりあえずt検定やってみたという統計の話(medbb.net)
http://www.medbb.net/education/ocrstat2015/img/01toriaezu.pdf

到達度確認

1:18人の患者にA剤(降圧剤)を投与し6カ月後の血圧を計測した。A剤に効果があるか検定を行う。両側検定で有意水準α=0.05,0.01で検定せよ。
ファイルはコチラ
<参考>降圧剤使用成績調査等データベース 高血圧治療患者の背景分析に関する研究報告書(くすりの適正使用協議会データベース委員会)
https://www.rad-ar.or.jp/pharmacoepidemiology/database/pdf/koatsu-haikei_201503.pdf
2:これはある病院で実施した健康診断の一部署(放射線室)の身長の記録である
性別 人数 平均値(cm) 不偏分散
11 152.5 25
13 160.3 9
性別により違いがあるか両側検定で有意水準α=0.05,0.01で検定せよ。

補足


第11〜12回 判断分析−感度・特異度・ROC曲線

到達目標
12−1判別特性値の計算が出来る
12−2評価結果よりROC曲線を作成し評価やカットオフ値の検討が出来る


検査法の診断的有用性を評価する話
有病率の影響を受ける指標、受けない指標を整理しておくこと
「率」ではあるが実際には割合。時点有病率ともいう(期間有病率は時点有病率に期間中の罹患を加えたもの)
比と率と割合の違いについて
比・・・異なるものを比較(無単位になる場合もあるが)
率・・・比だが時間と比較(単位は/sec /min /hr となる)
割合・・全体と一部(同じもの)を比較(無単位)
以下参考にしてください

第13回 医療統計(U)−比と率と割合(大阪保健医療大学 医療情報学2016)
http://www.medbb.net/education/ohsumedinfo2016/#13

感度と特異度

感度=P(陽性|D)  疾患群における真陽性の割合
偽陽性率=P(陽性|Dc) 非疾患群における偽陽性の割合
特異度=1−偽陽性率 非疾患群における真陰性の割合
予測値
有病率の影響を受ける
 陽性的中率=P(D|陽性)
 陰性的中率=P(Dc|陰性)
検査法の評価指標
 尤度比=感度/偽陽性率 
 オッズ比=教科書参照 検査の有用性
 ROC−AUC=ROC曲線を描いて算出 検査の分別能

何でも陽性と判断する検査は感度も偽陽性率も1になる
(なんでもかんでも、あります!! のノリ)

ROC曲線

判別度の分析
感度と偽陽性率(1−特異度)を用いて曲線を描く

到達度確認

1)次のマンモグラフィの検査結果からROC曲線を描き、AUCを(小数点以下2桁まで求め四捨五入)求め、カットオフ値の検討をせよ
<参考>
森本 忠興,日本の乳癌検診の歴史と課題,日乳癌検診学会誌,18(3)211-231,2009
https://www.jstage.jst.go.jp/article/jjabcs/18/3/18_3_211/_article/references/-char/ja/
異常なし(1) 良性(2) 悪性を否定できない(3) 悪性の疑い(4) 悪性(5)
疾患群 0 4 14 12 10 40
非疾患群 20 20 12 8 0 60
2)以下のデータと1)を比較しどちらの系がより優れているか
異常なし(1) 良性(2) 悪性を否定できない(3) 悪性の疑い(4) 悪性(5)
疾患群 1 5 16 10 8 40
非疾患群 20 16 14 10 0 60
これ