大阪保健医療大学 統計学2020
(保健医療学部 リハビリテーション科)

授業について

遠隔で実施します.(4回目より対面になりました)
皆さんの学修環境にあわせて授業計画を決めていきます


授業メニュー と 配信動画リンク(動画閲覧には大阪保健医療大学のGoogleのアカウントが必要)
第1回 尺度,データ形式 配信動画(大学Googleアカウント必須)

第2回 データの取り込み,整理 配信動画(大学Googleアカウント必須)

第3回 記述統計(T)−度数分布表 配信動画(大学Googleアカウント必須)

第4,5回 記述統計(U)度数分布図 注)ここから対面授業

第6,7,8,9,10回 記述統計(V)代表値,散布度

第11回 判断分析−感度・特異度・ROC曲線 注)ここからオンライン授業(zoom)

第12回 検定の原理

第13回 カイ二乗検定

第14回 一標本の検定

(授業の資料が皆さんに届いていないとのことなで急遽13-14を入れ替えます)


第1回 尺度,データ形式

到達目標
1−1 4つの尺度について説明できる
1−2 ネットワーク上で取り扱うデータ形式について説明できる


統計とは

教科書による統計学

『統計学はあくまで「確率で真の結論を推測する」だけ』

私の考える統計学

『気づかせてくれるもの。うすうす気づいていることを確認するもの』

私の考える医療統計学(2015)

『ある事象のなかで一般化出来るもの(法則性)を見いだすことは、その個別の事例にとどまらず広く利用できる知見をもたらす。そのためには複数の事例を集めて検討する統計処理が必要になる。
 それゆえ、統計処理は個別の事情を発生頻度などある条件に従って排除する主義に基づく。
 私達の周りで起こる様々な事象は自然現象によるものだけではなく人間活動などの人工的な要因の影響を受けるものも多く、そのため法則性を見いだすにはそれぞれの領域の目的に応じた統計処理が必要となる。
 医療統計学は、単に生物としてだけではなく活動状況も多様な集団である人に対して、提供する医療が及ぼす影響やその要因に関する法則性を見いだす方法を探求する学問分野である。』
(複雑なため確定的な事象はなく確率的に取り扱う必要がある)

統計の分類

記述統計と推測統計に分類される

記述統計とは

・収集したデータを要約してその集団の状況を表す
・そこにあるデータは全体(母集団)
・度数(分布)・代表値・散布度など

変量(データ)の分類・・・測定尺度

ohsustat2020-0105.png(346931 byte)
変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。
それぞれを尺度と呼び、4つに分類するのが一般的である(P5)
1名義尺度
2順序尺度
3間隔尺度
4比例尺度

1,2を質的データ(変量)(定性的)
3,4を量的データ(変量)(定量的)
性質としては上位互換性があり
4>3>2>1

ネットワーク上で取り扱うデータ形式について

ohsustat2020-0106.png(338767 byte)
ネットワーク上で取り扱えるデータは全て0,1の何れかの数値の羅列.
皆さんがスマホやPCで見ている各種データは人にわかるように表示している
ohsustat2020-0107.png(352827 byte)
拡張子によって人はデータの形式を知ることができる
ohsustat2020-0108.png(321674 byte)
CSVはシンプルな形式なので,様々なソフトで取り扱うことができます

本日の課題

1 4つの尺度 (名義尺度,順序尺度,間隔尺度,比例尺度) の例を挙げよ.    但し以下に例示したものを除く.
  名義尺度・・・動物の名前
  順序尺度・・・順位(特等 一等 二等 三等・・・)
  間隔尺度・・・摂氏温度(℃)
  比例尺度・・・絶対温度(゜K)
2 マイクロソフトEXCELをPCで使って授業を受けられるか(Y/N)
  Yの場合 EXCELのバージョンも教えてください

第2回 データの取り込み,整理

到達目標
2−1 ネットワーク上にあるデータを探すことができる
2−2 ネットワーク上のデータを取り込むことができる

ネット講義において表計算を利用できない環境の方がおられますので,鑑みた上で進めていきます.
人口動態調査(厚生労働省)
https://www.mhlw.go.jp/toukei/list/81-1.html
先週取り上げたCSVデータを実際に取り込む
メニューの「統計表一覧」→「確定数の出生の年次」→「2001年」→4-3都道府県別にみた年次別出生数 CSV
グラフ化することで,年度ごとの違いが分かりますが・・・・(都道府県で比較がしにくい)
メニューの「統計表一覧」→「確定数の出生の年次」→「2001年」→4-4都道府県別にみた年次別出生率(人口千対) CSV

本日の課題

moodleで指示します

第3回 記述統計(T)−度数分布表について

到達目標
3−1 質的変量の度数分布表を作成できる
3−2 量的変量の度数分布表を作成できる

今週もネット講義です.
表計算を利用できない環境の方がおられますので,鑑みた上で進めていきます.
動画で補いきれなかった部分音話です.

度数分布表の階級の設定の話

スタージェスの公式というのがあります.
量的変量の度数分布表・図作成の時に階級幅設定の参考になる公式
K(階級数)=1+log2(サンプル数)
例えば度数の合計が30の場合
1+4.907=5.907
6ぐらいが適当
0.5〜4.0の度数分布表だったので
(4.0−0.5)/6=0.583≒0.6

0.5〜1.1
1.1〜1.7
1.7〜2.3
2.3〜2.9
2.9〜3.5
3.5〜4.1

スライドで示したものは0.5刻みでしたが,そちらの方がわかり良いですよね.
スタージェスの公式でアタリをつけて,解釈しやすいような階級幅に設定するのが良いかと思います.

本日の課題

moodleで指示します

第4,5回 記述統計(U)度数分布図

エクセルを実際に使いながら,第1回〜3回までの題材を基に度数分布図を作っていきます ohsustat2020-0401.png(10259 byte)
本日から対面授業なので,実際にエクセルで度数分布表を作成しました.
無論これまでのオンラインで学んでいる度数分布表の作成や厚生労働省ページからCSVファイルのダウンロードなども実際に出来たと思います
若干,復習フォローが必要な部分もあるので次回は,度数分布図の2回目として,年次別出生率の話も含め,量的変量の度数分布図の作成を行います
比と率と割合の違いについて
比・・・異なるものを比較(無単位になる場合もあるが)
率・・・比だが時間と比較(単位は/sec /min /hr となる)
割合・・全体と一部(同じもの)を比較(無単位)
以下参考にしてください

第13回 医療統計(U)−比と率と割合(大阪保健医療大学 医療情報学2016)
http://www.medbb.net/education/ohsumedinfo2016/#13

第6,7,8回 記述統計(V)代表値,散布度

到達目標
6−1代表値にどのようなものがあるか説明・計算することが出来る
6−2度数分布表から平均値などの算出が出来る


代表値と散布度があると(構成数nもですが)その集団がどんなものか想像出来る(マラソン実況)
授業で用いるデータ
住民基本台帳に基づく人口、人口動態及び世帯数(総務省)
http://www.soumu.go.jp/main_sosiki/jichi_gyousei/daityo/jinkou_jinkoudoutai-setaisuu.html
人口推計(総務省統計局)
https://www.stat.go.jp/data/jinsui/

代表値

average(その集団を数値一つで表す。excelはaverage関数で算術平均を出すが、まぁ代表値の代表ということだからと解釈しています)

算術平均

mean
関数はaverage
1/n・Σxi
加重平均 それぞれの変数を評価した上での平均
幾何平均(相乗平均) 関数はgeomean
積を求めてn乗根をとったもの
テストの点が10,15,14,13,60
算術平均=22.4
幾何平均=17.5
移動平均 平滑化

中央値

median(別名第2四分位数)
量的変量を順序尺度で処理した代表値
順番に並べたとき真ん中の順位にきた個体の値
個体数が偶数の時は真ん中2つの数値の平均値

最頻値

mode(流行,はやり)
違う意味で数の理論(多数決)の世界
量的変量を名義尺度で処理した代表値
名義尺度でわかることは一緒か違うか
階級毎に度数をカウント
一番多いところの階級値
一位が同点の時は併記(平均をとると えっオレ優勝!?状態になる)


度数分布表から算術平均を計算
Σ(階級値×度数)/構成数

散布度

dispersion

最大値と最小値を使う

最大値と最小値がわかればその集団のバラツキがわかる
最大値maximum excel max関数
最小値minimum excel min関数

範囲

Range
R=最大値−最小値

特徴
 外れ値もひらう
 算出が用意

四分位数を使う

Quartile
小さい順(昇順)に並べて集団を4分割

第1四分位数 First Quartile:Q1 = 25th percentile 25%タイル値
第2四分位数 Second Quartile:Q2 = 50th percentile 50%タイル値 = Median 中央値
第3四分位数 Third Quartile:Q3 = 75th percentile 75%タイル値

四分位範囲

IQR(interquartile range)
IQR=Q3-Q1

四分位偏差

QD(Quartile Deviation)
QD=IQR/2
範囲は個々の値のバラツキをイメージ
偏差はある値からのズレをイメージ

平均値を使う

偏差

Deviation
もともとは標準となる数値からのズレ(偏り)を意味するものだが統計の世界では集団の平均値からのズレを示す
偏差の平均をとれば集団内の各々のズレっぷりがわかる → 合計は常に0 故に平均も常に0

分散

variance
V excel関数はVAR
偏差の二乗したものの平均

標準偏差

Standard Deviation
記号は標本s 母集団σ
s=√V
(故にVはs^2やσ^2で表現する)

変動係数

C.V.=s/xbar バラつきを比較するため平均値を用いて正規化

到達度確認

1)下記の男性15-19歳の集団の測定データ(ダミー)より代表値と散布度をそれぞれ求めよ
15歳〜19歳男性BMIダミーデータ
国民栄養基礎調査(平成29年度の結果を利用)データより正規分布になるものとして機械的に作成しています.(故にデータ的にどうかと思うものも含まれます)
https://www.mhlw.go.jp/bunya/kenkou/kenkou_eiyou_chousa.html

2)20面体のサイコロを作り、不偏分散が母分散の程よい推定になるか検証せよ

授業後補足

第11回 判断分析−感度・特異度・ROC曲線

到達目標
11−1判別特性値の計算が出来る
11−2評価結果よりROC曲線を作成し評価やカットオフ値の検討が出来る

<参考資料>
COVID-19における抗体検査についての基本的考え方(日本臨床検査医学会新型コロナウイルスに関するアドホック委員会)
疾患あり 疾患無し
検査陽性 真陽性 偽陽性
検査陰性 偽陰性 真陰性
検査法の診断的有用性を評価する話
有病率の影響を受ける指標、受けない指標を整理しておくこと
「率」ではあるが実際には割合。時点有病率ともいう(期間有病率は時点有病率に期間中の罹患を加えたもの)
比と率と割合の違いについて
比・・・異なるものを比較(無単位になる場合もあるが)
率・・・比だが時間と比較(単位は/sec /min /hr となる)
割合・・全体と一部(同じもの)を比較(無単位)
以下参考にしてください

第13回 医療統計(U)−比と率と割合(大阪保健医療大学 医療情報学2016)
http://www.medbb.net/education/ohsumedinfo2016/#13

感度と特異度

感度=P(陽性|D)  疾患群における真陽性の割合
偽陽性率=P(陽性|Dc) 非疾患群における偽陽性の割合
特異度=1−偽陽性率 非疾患群における真陰性の割合
予測値
有病率の影響を受ける
 陽性的中率=P(D|陽性)
 陰性的中率=P(Dc|陰性)
検査法の評価指標
 尤度比=感度/偽陽性率 
 オッズ比=教科書参照 検査の有用性
 ROC−AUC=ROC曲線を描いて算出 検査の分別能

何でも陽性と判断する検査は感度も偽陽性率も1になる
(なんでもかんでも、あります!! のノリ)

ROC曲線

判別度の分析

到達度確認

1)次のマンモグラフィの検査結果からROC曲線を描き、AUCを(小数点以下2桁まで求め四捨五入)求め、カットオフ値の検討をせよ
<参考>
森本 忠興,日本の乳癌検診の歴史と課題,日乳癌検診学会誌,18(3)211-231,2009
https://www.jstage.jst.go.jp/article/jjabcs/18/3/18_3_211/_article/references/-char/ja/
異常なし(1) 良性(2) 悪性を否定できない(3) 悪性の疑い(4) 悪性(5)
疾患群 0 4 14 12 10 40
非疾患群 20 20 12 8 0 60
2)以下のデータと1)を比較しどちらの系がより優れているか
異常なし(1) 良性(2) 悪性を否定できない(3) 悪性の疑い(4) 悪性(5)
疾患群 1 5 16 10 8 40
非疾患群 20 16 14 10 0 60

第12回 検定の原理

到達目標
12−1確率がどのような意味合いのものか理解する
12−2仮説検定の論理構成を説明できる


確率

ある事象が起こることが期待される度合い(割合)
試行 サイコロを振って3の目が出る(y or n)
確率 サイコロを振って3の目が出る(1/6)
繰り返し試行を行うと頻度割合はその事象の確率へ収束していく
生物を対象とした場合試行を繰り返せる?→無理な場合が多い→条件を近づけて繰り返したと見做す
条件が近くないと単純に比較できない

試行の結果は事実で正しい。かといってそれが常に正しい(真)とは限らない
次の試行以降で異なる結果がでる可能性を排除できない→永遠に試行を繰り返さないとならず法則が出せない
(故に異なる現象の起こる確率にたいして閾値を定めて、なかったことにして一般性を主張するスタイル)
事象の起こる確率が著しく低くても、実際に起こらないわけではない。

参考
デジタル絵本 かっぱの雨乞い (札幌平岸高校デザインアートコース)

降るまで雨乞いをするので「雨乞いをすれば雨が降る」となってしまう
参考
単語記事: テレ東伝説(ニコニコ大百科(仮))
http://dic.nicovideo.jp/a/%E3%83%86%E3%83%AC%E6%9D%B1%E4%BC%9D%E8%AA%AC

背理法

命題の否定を仮定して話をすすめて、その矛盾を示すことで命題が成り立つとする論法
差のあることを証明するにあたって「差が無いことを」を証明できないことを根拠にする

仮説検定

<大前提>やみくもに検定するのではなく、検定する理由・確信があるから確かめる という感じで
手順1:仮説をたてる(帰無仮説H0および対立仮説H1)
背理法に基づく証明をしている。
(差がない仮説が証明できないので、その対立である差がある仮説を採択する)
手順2:検定統計量を計算する
その事象の起こる確率を計算していることになるが、用いる確率分布によって計算式が異なる。
(実データを確率の世界のスケールに変換) 教科書P50では(3)の前半の部分Z= の部分がそれ

手順3:有意水準を決める
確率的に必然と偶然を切り分けている。一般に5%で分けているが1%の時もある
手順4:有意水準と比較し、仮説を棄却採択する
例)帰無仮説H0を棄却し対立仮説H1採択

有意水準は常に0.05?

有意差は有意水準が一緒でもn=が大きくなると少ない差でも優位と判定されてしまう.

αエラー βエラー


第一種の過誤
αエラーの起こる確率(誤って有意差があると判定)=有意水準
エラーを気にしなければいつの日か、都合の良い結論が得られるかもしれない → 雨乞い
故にやみくもに検定するのではなく、至るまでのストーリーが大切
第二種の過誤(βエラー)・・・誤って一緒と判定する確率
βエラーの起こる確率(誤って有意差が無いと判定)=検出できない=1−検出力(Power)=β
検出力=1−β
サンプル数↑・・・検出力↑・・・β↓
一般に検出力0.8〜0.9で違いを見積もった上でサンプル数を決定する
検出力をが上がるとβエラーの確率は下がるが,統計的有意差と臨床的有意差の話が出てくる.

仮説検定は用法を守り正しく使いましょう

到達度確認

授業中に提示します

授業後補足

t検定のPDFは以下にあります. 医療統計講座(medbb.wiki)
http://www.medbb.net/wiki/index.php?medstat%2F002

第13回 カイ二乗検定

到達目標
13−1周辺度数から期待度数を算出することができる
13−2カイ二乗の検定統計量を求めることが出来る
本来あるべき姿(期待度数)と実際に測定されたデータ(測定度数)がどれだけかけ離れているか、その出現する確率を見ている

手順3の部分の手順

1−観察して度数を記入(観察度数)
2−観察度数より周辺度数を求める(いわゆる合計)
3−周辺度数から期待度数を求める(CTの画像再構成の話を彷彿とさせる)
4−それぞれの観察度数と期待度数の差の二乗を求め、それを期待度数で除する(量的変量の分散の話に似ている・・・偏り)
5−4で求めた値を全部足す(これが検定統計量)

第14回 一標本の検定

14−1一標本のパラメトリック検定ができる
14−2一標本のパラメトリック検定ができる
標準正規分布
平均値が0標準偏差=1(分散も1)になるように値を変換したもの
偏差値は平均値を50、標準偏差=10になるように値を変換したもの

両者の関係
偏差値=50+10×z


t分布
自由度のみできまる確率分布
自由度・・・標本の中で自由に振る舞うことが許されている個体の数
      統計量が母数の推定となると、自由に振る舞えない個体が出てくる(つじつま合わせ)(P73)
標本分散は偏差二乗和を個体の数で除することで求めるが母分散のほどよい推定である不偏分散はn-1(自由度)で除する
正規分布との関係を確認
nmubiostat2018-0401.png(3867 byte)

2群の差の検定

1標本t検定(関連2群)

関連する2群(ペア)・・・一つの群を2回測定している
前後の差を見る
t値(標準化された検定統計量)・・・2群のペアの差の平均を標準誤差で正規化したもの
t=差の平均値/標準誤差
 標準誤差=標準偏差/√n
帰無仮説は前後の差がゼロ
検定統計量と有意水準αのt値を比較する。
例題
ohsustat2020-1401q.png(9077 byte)

一標本Wilcoxon検定

ウィルコクソンの符号付順位和検定
分布型,計測尺度,分散の制約なし
1:ペアのデータの差dを求める
2:dの絶対値よりそれぞれの差(d)の順位(昇順)を求める
  差が0のものは除外
  同順位の場合(絶対値なので+とーもありうる)・・・平均順位を割り当てる
3:検定統計量Tは+,−別に順位を足したもので小さい方
T0=min(T1,T2)
N数が少ないと(空白の部分)判定保留にしかならない
例題
ohsustat2020-1402q.png(7545 byte)
課題は授業で