奈良県立医科大学 保健統計学I2021
(医学部看護学科)
CMCではYouTube Liveによる動画配信を行います. 講義/復習動画閲覧のログインID,パスワードは教務システム(ActiveAcademyAdvance)の授業掲示板をご覧ください.CMC分は復習用の動画を配信後閲覧できるようにします. 授業に関する質問はTeamsのチャットでお願いします. |
講義/復習動画の閲覧はこちらから |
授業メニュー
ハイブリッド形式での授業になります.第01回CMC 記述統計(1)尺度・度数分布・ヒストグラム
第02回CMC 記述統計(2)代表値・散布度・箱ひげ図
第03回FTF 推測統計(1)推定
第04回CMC 推測統計(2)z検定
第05回CMC 推測統計(3)t検定・多群の検定
第06回FTF 推測統計(4)カイ二乗検定
第07回FTF 二変量解析 相関係数・回帰直線
第08回CMC 保健統計調査 人口静態統計・人口動態統計・死因統計
本授業の位置付け
看護学教育モデル・コア・カリキュラム~「学士課程においてコアとなる看護実践能力」の修得を目指した学修目標~の策定について(厚生労働省)https://www.mext.go.jp/b_menu/shingi/chousa/koutou/078/gaiyou/1397885.htm
より以下を引用
B-2 社会システムと健康
B-2-6) 疫学・保健統計
ねらい:
根拠に基づいた看護を実践するための基礎となる疫学と保健統計について学ぶ。
学修目標:
① 人口統計(人口静態、人口動態)、疾病構造、保健・医療・福祉に関する基本的統計や指標について説明できる。
② 健康障害と相対リスクについて説明できる。
③ 疫学的因果関係の推定について説明できる。
④ 情報リテラシーについて説明できる。
⑤ 統計資料をデータベースや文献・図書から検索し活用できる
G-2 看護研究を通した看護実践の探究
G-2-2) 研究成果の活用の方法
ねらい:
研究成果を解釈し、活用していく方法を学ぶ。
学修目標:
① 情報リテラシー、統計リテラシーを獲得できる。
② 研究成果、統計資料、実践報告、有識者の提言等の文献の検索方法を理解し、実践できる。
③ 基本的な研究方法の知識を持ち、文献・統計資料等を読み、支援を受けながら成果を解釈できる。
④ 研究成果には適用可能範囲や限界があることを理解した上で、支援を受けながら、成果を理解できる。
本授業の目的
保健統計学は、保健医療分野における課題を統計的手法により明らかにし解決に資する学問である。ここでは、統計学の基礎から本分野においてどのような統計的手法が用いられてきたのか理解し、データの収集・解析・結果の解釈に必要とされる基礎知識を修得する。本授業の到達目標
0)統計手法など必要に応じて「勉強すれば出来るようになる能力」を獲得する1)データの性質に関して説明できる
2)基本的な統計指標を算出できる
3)統計的推定を理解し実施できる
4)統計的検定を理解し実施できる
5)データを取り扱う上での注意点を説明できる
教科書
1)系統看護学講座 基礎分野 統計学(医学書院)2)公衆衛生がみえる(メディックメディア)
3)国民衛生の動向
参考図書
1)看護学生のための疫学と保健統計(建帛社)2)ナースのための統計学(医学書院)
授業の進め方
電卓使いますのでよろしくお願いします(授業中はスマホでかまいません。試験はどうしようか考え中)
単位認定
授業中に示す課題の提出(30%) 定期試験(70%)課題の提出は教務システムからのみ受け付けます.
授業開講日の翌々日の22時までとします.
提出は手書きで経緯もわかるように記してください.ノートを写真で撮りPDF化して提出してください.(エクセル,ワードなどは禁止します)
課題の提出を以て出席とします.ただし提出の際内容が不十分な場合は減点対象とします.
但し後で指定する期間内に修正した場合減点しません.
また白紙など課題に取り組んだ形跡が見られない場合は欠席および減点とします.
学籍番号氏名がノートに記されていない場合も欠席及び減点とします.
課題について集計したものや学習指導上皆で共有したほうが良いものについてはフィードバックしていこうと考えています.
あと,設問に関係ないけどほのぼのした内容も時々出せたらと思っています.
第01回CMC 記述統計(1)尺度・度数分布・ヒストグラム
到達目標1-1 4つの尺度について説明できる
1-2 度数分布表を作成できる
教科書1)P2-P8,P16-19,P37
統計に用いるデータ
集団から個々のデータをとりまとめて示すので・・・(奈良県立医科大学大学院看護学研究科 地域医療学(分担:データ分析編) より)
データは目的に応じて丸めたり切ったりしてしまう。故に二次利用の場合は注意が必要。
とりあえず収集してデータベース構築をすることが目的ならば、分析は既に二次利用。耐えうるデータを目指さなければ意味が無い
・一次データは情報源からダイレクトに取得するので粒度を目的にあわせてコントロールしている
・二次データは本来の目的と異なるデータ活用となるので、その目的に対してデータの粒度があわない事がある(細かい場合は粗くできるが粗いものは推定するしかない)
医療情報学の分野は二次利用がテーマ
記述統計と推測統計
記述統計とは
・収集したデータを要約してその集団の状況を表す・そこにあるデータは全体(母集団)
・度数(分布)・代表値・散布度・相関係数など
推測統計とは
事象の起こる確率を仮定した上で全体(過去・現在だけではなく未来も含む)を推測する。推定と検定に分類される。推定とは
・収集したデータを基にしてその集団の状況を表す・そこにあるデータは一部(標本)
・点推定・区間推定・モデリング
検定とは
・収集したデータを基にしてその集団の状況を仮定に従ってyes/Noで判断する・そこにあるデータは一部(標本)
・t検定・カイ二乗検定など
母集団と標本
母集団とは
対象としている集団の全体を指し示すときに「母」を最初に付ける。無限母集団と有限母集団からなる。
対象が有限か無限に増殖するかの違い
標本とは
母集団の一部。昆虫標本を思い浮かべると、偏りに注意する必要があることは自明。
参考
標本調査はサンプル抽出が命(The Huffington Post Japan)http://www.huffingtonpost.jp/nissei-kisokenkyujyo/sample-survey_b_5878832.html
変量(データ)の分類
変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。それぞれを尺度と呼び、4つに分類するのが一般的である
1分類尺度(名義尺度)
2順序尺度
3間隔尺度
4比尺度(比例)
1,2を質的変量(定性的)
3,4を量的変量(定量的)
性質としては上位互換性があり
4>3>2>1
教科書は間隔尺度及び比尺度に関して統計処理上区別する意味は無いとなっているが、注意は必要
ポイントは数学的には正しかったとしても意味的に正しいかどうか
度数分布表
それぞれのデータ(変量)の数(出現頻度)をまとめたもの変量が名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数 ・・・出現頻度
相対度数・・・総出現頻度を1(100%)としたときのそのぞれの度数のしめる割合
累積度数・・・上位の変量の度数もあわせた度数
累積相対度数・・・累積度数の相対版
品名 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|
いちご | 15 | |||
みかん | 8 | |||
ぶどう | 7 | |||
計 | 30 | 1.00 | ----- | ----- |
品名 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|
かつ丼 | 90 | |||
カレーライス | 0.3 | 0.75 | ||
ラーメン | ||||
計 | 1.00 | ----- | ----- |
度数分布図
度数分布表をグラフ化したもの縦棒グラフだが量的変量に限っては「ヒストグラム」その棒の部分の面積が度数を示している
<余談>
図にするときには色々なお作法があります
課題
1)都道府県別の新型コロナウイルス感染症に関する指標を探して近畿,もしくは関西の府県について度数分布表を作成せよ.<参考>
地域ごとの感染状況等の公表について(新型コロナウイルス感染症について)(厚生労働省)
https://www.mhlw.go.jp/stf/seisakunitsuite/newpage_00016.html
「関西」と「近畿」 何が違う?(NIKKEI STYLE)
https://style.nikkei.com/article/DGXNASJB2000S_Q1A021C1AA2P00/
補足
課題で気になった部分
変量が名義尺度の時は多い順(お作法として)の部分が出来ていないケースがまぁまぁ見られましたあと,都道府県番号
https://www.mhlw.go.jp/topics/2007/07/dl/tp0727-1d.pdf
のものは意図が理解できるが,そうでもない並びのものも見られた.(昇順の方もいました)
今回の度数分布表は降順(多い順)がわかりやすいという印象でした.
あとは累積相対度数の求め方は,積み上げていくと四捨五入による誤差が出るので,そのような場合は累積度数を全度数で除すること.
同様に相対度数の合計は必ず1.00になります.
辻褄合わせでどこかの数値を操作するのはやめてください.(例 0.5819を0.59とか)
名前学籍番号を記していないものは欠席にしています.再度ご確認ください.
「学籍番号氏名がノートに記されていない場合も欠席及び減点とします.」
都道府県別で作成していない人は減点
pdfで提出しなかった方(jpg)は今回受理していますが,今後はpdfで提出してください
第02回CMC 記述統計(2)代表値・散布度・箱ひげ図
到達目標2-1 代表値の算出及び特性について説明できる
2-2 散布度の算出及び特性について説明できる
教科書1)P24-43
代表値
average(その集団でとりまとめたデータを数値一つで表す。excelはaverage関数で算術平均を出すが、代表値の代表ということだからと解釈しています)算術平均
mean(算術平均以外にも相乗平均(積して累乗根をとる)などもあります)1/n・Σxi
パレートの法則(80-20の法則)
代表値なのに実在しない場合がある → 集団の指標(重心)であって、事象を代表する値そのものを示しているとは限らない
収入の話
民間給与実態統計2015(国税庁)http://www.e-stat.go.jp/SG1/estat/GL08020103.do?_toGL08020103_&listID=000001159883&requestSender=dsearch
第9表 業種別及び給与階級別の給与所得者数・給与額 より ローレンツ曲線
ジニ係数は医療,福祉0.358 不動産業,物品賃貸業0.439 電気・ガス・熱供給・水道業0.230
ちなみに奈良県の医師偏在の話で曲線を描くと(市町村単位)
(データ分析から考える地域医療の課題 より)
もっとも地域別医師数偏在の話が解消されればすべてが解決されるわけでもないですし、範囲を狭めていくほど偏在は生じるわけですから・・・
リソースの地理的な偏りをゼロにすることそのものは目的ではなく解決に近づく手段であって、提供になるべく偏りがでないような配分ができる仕組みとのパッケージと考えております
加重平均
重みづけをした平均1/n・Σmixi
応用 度数分布表を基にした平均値の計算法
Σ(階級値×度数)/観測数
中央値
median(別名第2四分位数)量的変量を順序尺度で処理した代表値
順番に並べたとき真ん中の順位にきた個体の値
個体数が偶数の時は真ん中2つの数値の平均値
最頻値
mode(流行,はやり)違う意味で数の理論(多数決)の世界
量的変量を名義尺度で処理した代表値
名義尺度でわかることは一緒か違うか
階級毎に度数をカウント
一番多いところの階級値
一位が同点の時は併記
散布度
dispersion最大値と最小値を使う
最大値と最小値がわかればその集団のバラツキがわかる最大値maximum excel max関数
最小値minimum excel min関数
範囲
RangeR=最大値-最小値
特徴
外れ値もひらう
算出が用意
四分位数を使う
Quartile小さい順(昇順)に並べて集団を4分割
四分位数の求め方
注意:順序の話とその順位のラベル(数値)をこんがらがってしまわないように例:テストの点 16,5,12,16,13,15,15,18,20,10,20
昇順に並べて順位(カッコ書き)をつける 5(1),10(2),12(3),13(4),15(5),15(6),16(7),16(8),18(9),20(10),20(11)
n数(11)を4で割る
第1四分位数・・・1/4の順位・・・11/4×1=2.75個に分割する場所に相当する数値
第2四分位数・・・2/4の順位・・・11/4×2=5.5個に分割する場所に相当する数値
第3四分位数・・・3/4の順位・・・11/4×3=8.25個に分割する場所に相当する数値
2.75個に分割した場所の出し方
+1/4番目の数値=3番目=12
5.5個に分割した場所の出し方
+2/4番目の数値=6番目=15
8.25個に分割した場所の出し方
+3/4番目の数値=9番目=18
ダンゴ包丁理論(tukeyのヒンジ)
https://medbb.hatenablog.com/entry/2020/12/12/091240
団子を4等分した時にどのダンゴに包丁を入れたか.
箱ひげ図
四分位数を用いて作成するグラフなのでこちらで(P40)四分位範囲
IQR(interquartile range)IQR=Q3-Q1
四分位偏差
QD(Quartile Deviation)QD=IQR/2
範囲は集団を外から見たバラツキをイメージ
偏差は集団の内部のある値からのバラツキをイメージ
平均値を使う
mean偏差
Deviationもともとは標準となる数値からのズレ(偏り)を意味するものだが統計の世界では集団の平均値からのズレを示す
偏差の平均をとれば集団内の各々のズレっぷりがわかる → 合計は常に0 故に平均も常に0
分散
varianceV excel関数はVAR
偏差を二乗したものの平均
標準偏差
Standard Deviation記号は標本標準偏差s 母標準偏差σ
s=√V
(故にVはs^2やσ^2で表現する)
課題
上記のデータの拡張期血圧のデータを用いて
1)平均値を求めよ
2)中央値を求めよ
3)最頻値を求めよ
4)範囲を求めよ
5)四分位範囲を求めよ
6)標準偏差を求めよ
7)度数分布表を作成し,表より平均値を概算せよ
階級 | 階級値 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|---|
70~80 | 75 | ||||
80~90 | 85 | ||||
90~100 | 95 | ||||
100~110 | 105 | ||||
計 | ----- | ----- |
補足
課題について
四分位数の話は高校で習っている話と違うところがありますし,意味合いを理解してくれたらと思っているので,除外して採点しています.ただし,四分位範囲と範囲で四分位範囲が大きい答えをされている方がおられましたが,それは間違い.見直しておいてください
最頻値に階級だけで階級値書いていない方もご注意を
あと,減点しているものは概ね以下のようなパターンです.
度数分布平均求めていない
標準偏差なのに分散
度数分布表間違えている
第03回FTF 推測統計(1)推定
到達目標3-1標準偏差と標準誤差の違いを説明できる
3-2母分散が未知の場合でも母平均を区間推定できる
教科書1)P90-98,P88,P67-70
推定
母集団から抽出した標本を基に母集団の分布を示す値(母数)を推測する点推定と区間推定がある
点推定
一つの値で推定母平均の推定値は標本平均
母分散の推定値は不偏分散
教科書P90-91参照
不偏分散は何故nではなく(n-1)で除するのか
求める対象(標本)が母集団全体だったとすると母分散は(1/n)Σ(xi-xbar)2
しかしながら対象が母集団の一部であれば,母平均(μ)=標本平均(xbar)とは限らないので,
μとxbarの差を考慮して母分散を求める(推定する)必要がある
(1/n)Σ((xi-μ)-(xbar-μ))2
=(1/n)Σ(xi-μ)2-(2/n)Σ(xixbar-xiμ-μxbar+μ2)+(1/n)Σ(xbar-μ)2
=(1/n)Σ(xi-μ)2-2(xbar2-2μxbar+μ2)+(xbar-μ)2
=(1/n)Σ(xi-μ)2-2(xbar-μ)2+(xbar-μ)2
=(1/n)Σ(xi-μ)2-(xbar-μ)2
-----
ここで それぞれ
(1/n)Σ(xi-μ)2=σ2
(xbar-μ)2=σ2/n
(注:詳しくは 「 標準誤差SEはなぜ標準偏差σを√nで除するのか」参照)
とおくと
-----
=σ2-σ2/n
=((n-1)/n)σ2
故に母分散の程よい推定値である不偏分散は
U=n/(n-1)・(1/n)Σ(xi-xbar)2
=(1/n-1)Σ(xi-xbar)2
となる.
区間推定
母数がある確率で入る幅を持った推定値本日の目標はP94の図の意味を理解すること。母平均は一定なのに標本平均は標本毎に異なるので幅を持たせる
標本平均に幅を持たせることで、その枠内に母平均が入る。→平均値のバラつき具合が標準誤差 SE=σ/√n
標準偏差と標準誤差
(教科書P91,92)・標準偏差は標本の分布のバラツキ具合を示したもの
・標準誤差は母集団から抽出した標本の平均値のバラツキ具合
SE=σ/√n
標準誤差SEはなぜ標準偏差σを√nで除するのか
標準誤差は母平均に対する標本平均のバラつき指標(標準偏差)の話対象が母集団全体ならば0だが,母平均(μ)と標本平均(xbar)には差が生じる
ある標本における平均値と母平均の偏差平方は
(xbar-μ)2
=((1/n)Σxi-μ)2
=((1/n)Σxi-(1/n)Σμ)2
=((1/n)Σ(xi-μ))2
=(1/n)(1/n)Σ(xi-μ)2
-----
ここで
(1/n)Σ(xi-μ)2
をσ2とおくと
-----
=σ2/n
故に標準誤差は
SE=σ/√n
中心極限定理
標本の大きさが十分であれば標本平均の分布は正規分布→正しく測定されているのであれば偶然誤差の発生は正規分布に従う
→測定回数を増やせば増やすほど
正規分布
左右対称の釣鐘状分布(教科書P67-70)平均値に近いほど出現率が高く遠ざかるに従って低くなる(ことが多い)
同じ事柄を同じ条件で繰り返すと正規分布になるという話→中心極限定理
「異質な集団の計測値が組み合わさった分布は正規分布とならない」
歪度・・・左右対称
尖度・・・山形
標準正規分布
平均値が0標準偏差=1(分散も1)になるように値を変換したもの偏差値は平均値を50、標準偏差=10になるように値を変換したもの
両者の関係
偏差値=50+10×z
ZスコアはP70参照
真度と精度の話(誤差)に置換えると(P84)
正規分布の話は精度の話。右に行くほど(精度が悪くなるほど)広がる
ただし均等にバラつくはずであっても試行回数が少ないとばらついて見えることもある
0から49999までの乱数でXY座標を発生させプロット1万回分
0から49999までの乱数でXY座標を発生させプロット千回分
0から49999までの乱数でXY座標を発生させプロット百回分
母標準偏差が未知の場合の区間推定(教科書P93-98)
標本が大きい場合
正規分布は母平均値と母標準偏差が分からないと使えない→nが多い場合標本平均と標本標準偏差(不偏標準偏差))で近似できる
標本が小さい場合
正規分布は母平均値と母標準偏差が分からないと使えない→nが少ないので近似できない→t分布(標本の自由度νさえわかっていれば、後は検定統計量を求めれば確率がわかる)
t分布
P73-74
自由度のみできまる確率分布
自由度・・・標本の中で自由に振る舞うことが許されている個体の数
統計量が母数の推定となると、自由に振る舞えない個体が出てくる(つじつま合わせ)
標本分散は偏差二乗和を個体の数で除することで求めるが母分散のほどよい推定である不偏分散はn-1(自由度)で除する
正規分布との関係を確認
本日の課題
ある学年の学生から9人抽出し身長を測定した.
ID 身長(cm)
1 172.2
2 167.9
3 173.6
4 173.9
5 173.5
6 172.0
7 159.0
8 170.2
9 158.0
95%信頼区間で母平均を推定せよ.
補足
推定における正規分布とt分布
母平均を推定するために標本の平均(母平均の推定値)を求め区間は平均値のバラツキである標準誤差(σ/√n)をベースに信頼区間の係数を乗ずる格好で決まります.
標準誤差は母標準偏差を用いて求めるのが第一選択となります.
しかしながら母標準偏差は分からない場合が多いので,その場合は標本より求める標準偏差を用いて母標準偏差を推定します.
その時に標本のデータでそのまま標準偏差を算出したら母平均と標本平均の差が考慮されていないため偏ることから,不偏標準偏差を求めて母標準偏差の程よい推定値とします.
平均値の区間推定にあたりその確率分布は標本数が十分大きくなれば正規分布に従うようになります.
しかしながら標本数が十分大きくない場合は無理やり正規分布で推定しても精度よく区間推定が出来ません.
そこで標本数が小さい時推定の精度が悪く困っていたゴセットさんが精度よく推定できるt分布を世に出しました.
正規分布の係数は標本数によらず一定(95%信頼区間ならば1.96)ですがt分布は標本数(正確には自由度=標本数-1)に依存しtスコア(zスコアに相当)は変化します.
提出後の課題の修正について
修正が必要な方はお時間のある時に早めに修正してください.そのうち期限を設定すると思います.
あと,どこが間違っているのか?という問い合わせが来ますが,ご自身で見直して修正していただくようお願いします.
また,課題は知識の定着を目的としています.誤解されることが無いようお願いします.
(社会人になってみた(頃を客観的に振り返る話) より)
情報と知識の違い
データ:
一次データと二次データの違い。
一次・・・ライブ。対象からダイレクト
二次・・・既に記録されたもの。まとめられたもの
情報:
データに意味を付与したもの
ただし受信者の特性に依存
知識:
情報を体系化したもの。
受信者の知性は当然だが、提供されているデータや情報としての理解の度合いや誤解によって知識構造体に違いが出てくる。
(よりよい医療に貢献する医療情報技師の役割 より)
教科書P80表4-2
表4-2統計量の例 → 推測統計量の例 と読んでください
誤)標本分散=標本の分散=不偏分散
成)標本分散=不偏分散≠標本の分散
教科書P91「母分散の推定」
誤)母分散σ2は標本の各測定値xiから・・・
正)母分散σ2は母集団の各測定値xiから・・・
母分散σ2=の式で出てくるxbarは母平均μそのもののこと
あとnと書いたら標本数のことを示します.Nと書くと母集団の数を示しますのでその部分も修正必要です.
課題について
標準偏差の求め方,正規分布ort分布の二つに集約されてました.
第04回CMC 推測統計(2)z検定
到達目標
4-1確率がどのような意味合いのものか理解する
4-2仮説検定の論理構成を説明できる
教科書1)P104-119
確率
ある事象が起こることが期待される度合い(割合)
試行 サイコロを振って3の目が出る(y or n)
確率 サイコロを振って3の目が出る(1/6)
繰り返し試行を行うと頻度割合はその事象の確率へ収束していく
生物を対象とした場合試行を繰り返せる?→無理な場合が多い→条件を近づけて繰り返したと見做す
試行の結果は事実で正しい。かといってそれが常に正しい(真)とは限らない
次の試行以降で異なる結果がでる可能性を排除できない→永遠に試行を繰り返さないとならず法則が出せない
(故に異なる現象の起こる確率にたいして閾値を定めて、なかったことにして一般性を主張するスタイル)
事象の起こる確率が著しく低くても、実際に起こらないわけではない。
参考
デジタル絵本 かっぱの雨乞い (札幌平岸高校デザインアートコース)
降るまで雨乞いをするので「雨乞いをすれば雨が降る」となってしまう
検定
平均値の差の検定・・・平均値の推定との違いについて理解しておいてください.
推定の時は母平均・・・未知(故に標本から推定する)
検定の時は母平均・・・仮説に基づき設定(標本が仮説の範疇に収まるか否か検定する)
背理法
命題の否定を仮定して話をすすめて、その矛盾を示すことで命題が成り立つとする論法
差のあることを証明するにあたって「差が無いことを」を証明できないことを根拠にする
(差(違い)を定義するにも区間推定で明らかなように,確率一定でも値は変化する)
<注>好きの反対は嫌い ではなく無関心という考え方.
仮説検定
教科書P105-
<大前提>やみくもに検定するのではなく、検定する理由・確信があるから確かめる という感じで
手順1:仮説をたてる(帰無仮説H0および対立仮説H1)
背理法に基づく証明をしている。
(差がない仮説が証明できないので、その対立である差がある仮説を採択する)
手順2:検定統計量を計算する
その事象の起こる確率を計算していることになるが、用いる確率分布によって計算式が異なる。
(実データを確率の世界のスケールに変換)
手順3:有意水準を決める
確率的に必然と偶然を切り分けている。一般に5%で分けているが1%の時もある
手順4:有意水準と比較し、仮説を棄却採択する
例)帰無仮説H0を棄却し対立仮説H1採択
例)判定保留 or(P112参照のこと)
もともと「仮説」ありきなので仮説の無い検定は×
両側検定片側検定
P108
一緒な有意水準で比較した場合 片側は棄却域が存在しないことと,他方は棄却域が大きくなってしまう → 帰無仮説が棄却されやすくなる状況
有意水準は常に0.05?
P109
αエラー βエラー
教科書P215
第一種の過誤
αエラーの起こる確率(誤って有意差があると判定)=有意水準
エラーを気にしなければいつの日か、都合の良い結論が得られるかもしれない → 雨乞い
故にやみくもに検定するのではなく、至るまでのストーリーが大切
第二種の過誤(βエラー)・・・誤って一緒と判定する確率
βエラーの起こる確率(誤って有意差が無いと判定)=検出できない=1-検出力(Power)=β
検出力=1-β
サンプル数↑・・・検出力↑・・・β↓
一般に検出力0.8~0.9で違いを見積もった上でサンプル数を決定する
検出力をが上がるとβエラーの確率は下がるが,統計的有意差と臨床的有意差の話が出てくる.
仮説検定は用法を守り正しく使いましょう
検定結果の表現(P115)について(P94の平均身長)
全国平均158.5cm
標本平均160cm標本標準偏差7cmデータ数100
本日の課題
2017年国民栄養調査によると成人のヘモグロビンA1c(NGSP)(%)の平均値及び標準偏差はそれぞれ,5.80 0.70だった.
糖尿病予防の取り組みを行っている会社の従業員100人を対象に測定し平均を求めたところ5.65だった.
有意に異なるといえるか有意水準5%で両側検定せよ.
<参考>
ヘモグロビンA1c(NGSP)の平均値及び標準偏差 - 年齢階級別、人数、平均値、標準偏差 - 男性・女性、20歳以上〔インスリン注射又は血糖を下げる薬の使用者含む・含まない〕 (国民健康・栄養調査)
https://www.e-stat.go.jp/dbview?sid=0003224190
補足
課題に関する私のコメント抜粋
結論おかしい,比較が両側片側混じっている,対立仮説の立て方がおかしい,t検定している(既に予習をしておられたようで,z検定では不十分とご判断されたのだと思います.ビックリしました.)
再提出を必要としなかったが気になった部分
域の判定について両側検定を統計量で行う場合は絶対値を用いて判断すると表現が楽
帰無仮説,対立仮説がない.
次回の授業
これまでの課題の全体の回答より提出時点での理解度を類推すると
1回目 ◎
2回目 〇
3回目 △→〇
4回目 〇
推測統計は実空間と確率の世界を往来する格好ですが,初回の3回目は戸惑っていた印象.
ただし4回目の回答状況をみると,3回目に理解できなかった部分についてリカバリーして理解が進んでいる印象.
仮説検定のフォーマット例
手順1
帰無仮説H0:μ=100 対立仮説H1:μ≠100
↓
手順2
z=・・・・・
↓
手順3
有意水準 両側5%としz検定を行う
↓
手順4
検定統計量との比較,もしくは確率の比較により,今回の標本が棄却域にあるのか否か(受容域なのか)判定する.
|z|=3.96>1.96 (有意水準両側5%ならば片側2.5%なので)
帰無仮説を棄却し対立仮説を採択する
有意差がある
例2)
|z|=1.45<1.96 (有意水準両側5%ならば片側2.5%なので)
帰無仮説は棄却されない
判定を保留する
有意差があるとは言えない
第05回CMC 推測統計(3)t検定・多群の検定
到達目標
5-1t検定の各手法の違いについて説明できる
5-2多重検定について説明できる
教科書1)P117-118,P123-131
一標本t検定
一群
先週の課題では母平均と母標準偏差が示されていたが,そのようなケースは実際には稀
母標準偏差が不明の場合は区間推定と同じような選択の流れになる
ただしt値とz値の受容域を考えた場合,tα≧Zαとなることから(故に棄却域は同じ有意水準でもz検定のほうが大きくなる).仮説検定においてt検定を用いることでαエラーの発生を抑えることができる.
関連のある(対応のある)二群(関連二群)(P129)
paired-t検定と呼ばれたりする.
P125図5-11参照
それぞれの個体のビフォーとアフターの変化量を算出して,変化量の母集団の平均が0なのか否なのか検定.
(先週の課題の帰無仮説H0:μ=5.80 対立仮説H1:μ≠5.80 だったが,関連2群のt検定は帰無仮説H0:μ1=μ2)
教科書の図5-11の世界観で例題作ってみました.
今回の授業は残りの時間を通常通り,今回の内容に関する質疑応答をまずはします.その後に第3回までの疑問質問についてチャットにお答えする格好とします.
以下は,現在の授業の進行状況を加味して,今回の授業で十分に講義出来ない部分になります.
授業内で十分説明しない限り試験範囲に含めませんので,今後授業内で取り上げない限り試験範囲に含みません.
本来この部分についての理解は必要ですので,その点フォローはします.
二標本t検定
関連のない(対応のない)二群(独立二群)
P125図5-11参照
それぞれの個体の群の平均値を求め,ビフォー群,アフター群それぞれの母集団の平均が異なるか検定.
paired-t検定の場合はそれぞれの前後差から差分のバラツキ具合を求めることが出来たが,こちらの場合は個体が紐づいていない(そもそも違う個体)のでそれぞれの群の不偏分散を求めた上で計算する必要があります.
多重検定
二群間の比較ではなくそれ以上で比較したい場合の話です.
ポイントとしては、それぞれの検定が独立した仮説にもとづいたものと考えて良いか否か。良いのであれば多重検定にならない
一連のものであれば対立仮説を考えたときに有意水準が5%と言いながら5%になっていないのでは?
多重に検定することでどれかあたれば帰無仮説は棄却できるので例えば3群総当たりだと有意水準0.05で多重検定(6通り)すると有意水準が0.265になってしまう。(からよくない)
本日の課題
教科書の図5-11のデータ(対応のある集団)を9人に増やしたものです.
有意水準5%で両側検定を行い結果を示してください.
補足
ノンパラメトリック検定
本授業では取り扱いません.保健統計学IIで取り扱います.帰無仮説,対立仮説を記載されていない方は分かったものとしてあえて書かなかったと判断しています.
間違えとしては
仮説の立て方が間違っているt検定量を求めているものの正規分布表を使って判定している
有意水準5%と検定統計量のt値を比較している
判定が逆
標準偏差の出し方がおかしい(偏差ではなく,前後の差をそのまま計算に使っている)
標本分散(不偏分散)の求め方
前後の差の平均と,前後の差を平方したものの平均がわかれば,偏差を求めなくても不偏分散を求めることが出来ます.分散は分散公式より二乗の平均-平均の二乗で求めることができます.
ただし,ここでは不偏分散を求めるのでn/n-1倍してください。
分散公式は,単純に分散式を展開し整理すると導かれるものなのでお時間のある方は一度やっておいてください.
第06回FTF 推測統計(4)カイ二乗検定
到達目標6-1カイ二乗分布がどのようなものか説明できる
6-2周辺度数より期待値を算出できるようになる
教科書1)P145-148
カイ二乗分布
χ2=ΣZi2平均からのズレの平方をとったものを足し合わせていく→偏差平方和
標準正規分布に従う独立した確率変数が1つの場合
χ2=Z12
<参考>独立した確率変数が二つの場合
χ2=Z12+Z22
カイ二乗分布表(教科書197)
t分布と同じく自由度により確率分布は変化するカイ二乗分布(ν=1)の時のそれぞれの上側確率に相当する正規分布の確率(両側5%(片側2.5%ずつ)は全て上側に集約されてしまう
χ2=((X-μ)/σ)2
χ20.05=((1.96-0)/1)2
例)標準正規分布で有意水準両側5%の場合の境界値はz=1.96.カイ二乗分布表より優位水準上側5%の時のカイ二乗値=3.84
ピアソンのカイ二乗
カイ二乗分布の話(X-μ)を(実際に出現した度数-出現が期待される度数(期待値))に置き換え分散で除することで分子の差分を標準正規分布のN(0,1)にしていたものを,期待値で除して求めたものである.
(ポアソン分布であるとすると平均値=期待値=分散)
カイ二乗値=Σ(観察度数-期待値)2/期待値
検定
適合度の検定
1行n列事象の起こる確率に基づく頻度(=n×p)期待値(度数))と実際に観測された度数(観察度数)の差異について検定.帰無仮説(測定した分布は想定されている分布と等しい)H0:P=(1/6,1/6,1/6,1/6,1/6,1/6)・・・サイコロの場合
<例題> 対象とする集団のABO式血液型の割合はA型40%、O型30%、B型20%、AB型10%なのか?
A型28人 O型22人 B型22人 AB型18人
有意水準5%で検定せよ
血液型Aのカイ二乗値=(28-36)2/36=1.78 O型以降も同様に求め足し合わせる
χ2=1.78+0.93+0.89+9.00=12.59
この集計表の自由度は3・・・χ20.05(3)=7.815
帰無仮説を棄却し対立仮説を採択.つまり適合しない.
独立性の検定
m行n列こちらはそれぞれが独立しているか(関係があるか無いか)を検定
考え方は一緒
事象の起こる確率は実際に観測された度数を基に算出して全体の度数を乗じることで期待値(度数)とする.
期待値は周辺度数より求める格好
喫煙あり×コーヒー好きの期待値=100×90/160=56.25 以降も同様に全ての組み合わせで期待値を求める
喫煙あり×コーヒー好きのカイ二乗値=(75-56.25)2/56.25=6.25 以降も同様に求め足し合わせる
χ2=6.25+10.42+8.04+13.39=38.10
この集計表の自由度は1・・・χ20.05(1)=3.84
帰無仮説を棄却し対立仮説を採択.つまり関連がある.
本日の課題
以下は奈良県令和2年度県民アンケート(http://www.pref.nara.jp/15126.htm)の「問8 将来の奈良県での定住意向」の結果である.性別により意向が異なるのか検定せよ.なお有意水準は5%とする
補足
課題について
カイ二乗値
計算の仕方(小数の取り扱い)によって求めたカイ二乗値は異なるので注意.出来る限り後の工程で端数処理を行うことが望ましい期待値のレベルでの端数処理は結果に影響を与える恐れがある
期待値を整数にしたことに言及した方もおられるが,数式からいきなり整数を算出している方がある程度おられた.計算式もなく整数を書いた方もおられた.端数処理をしたことがわかるように書かないといけない.またどのように導き出したのか書いていないのでどこまで理解しているのかわからない.試験の時は理解していないものと解釈されるので注意のこと.
言及した方の中で度数なので整数化したとあったが,対面授業で期待度数と言いたいが期待値というお話ししたと思う.また授業中の例題についても整数化することなく計算を行っている.誤差が生じることについて再認識願いたい.
間違い
カイ二乗値を期待値のままで計算している,対立仮説を棄却するはおかしい,自由度違う,帰無仮説μ1とμ2・・・・,手書きじゃない,確率分布表を見間違えている第07回FTF 二変量解析 相関係数・回帰直線
到達目標7-1相関係数を説明・計算することが出来る
7-2回帰直線がどのようなものか説明することが出来る
教科書1)P151-155,84-87
相関
correlative相関関係がある・・・関連がある
相関関係が無い・・・関連がない
他方の影響を受けるか受けないか
因果
cause and effect原因と結果
因果関係がある・・・影響がある
因果関係が無い・・・影響がない
普通は関連がある(相関がある)=影響を及ぼす関係(因果関係がある)と考える(考えたくなる)
例
たばこを吸う-肺がん・・・・相関関係○
コーヒーを飲む-肺がん・・・相関関係○
コーヒーと肺がんの相関関係に割り込んでいる(どちらとも相関関係がある)状態=交絡
割り込んでいるそれ=交絡因子・・・たばこ
コーヒーと肺がんに因果関係が無いとしたならその関係は疑似相関
交絡因子について
教科書P86-誤差の話の中で出てくるので確認しておくこと第3回の授業で取り上げた「真度と精度の話(誤差)」も含めて確認しておくこと
相関図
X軸とY軸に一つの対象に与えられるそれぞれの値をプロット(例:身長と体重)とりあえず図にすると関係が直感的にわかる(場合がある)
相関係数
-1から1までの値をとるXが増加すればYも増加する・・・1
Xが増加すればYは減少する・・・-1
Xが増加しようが減少しようがYは関係ない・・・0
X軸で見たときのバラツキ具合とY軸で見たときのバラツキ具合を元に計算してる
バラツキ=散布度・・・分散・・・偏差の二乗の平均
共分散=ある対象のX軸の偏差とY軸の偏差を乗じたものがベース
Xの偏差 | Yの偏差 | 乗じた結果 |
---|---|---|
+ | + | + |
+ | - | - |
- | + | - |
- | - | + |
共分散はX軸Y軸のバラツキ具合が混ざっているのでそのままの数字だと解釈しにくい→XとYの標準偏差で除する(正規化)→相関係数
例題)教科書P151表5-22のデータより相関係数を求めよ
身長の平均=162.285
体重の平均=50.72
Σ身長の偏差平方=901.2855
Σ体重の偏差平方=439.712
Σ(身長の偏差)×(体重の偏差)=409.166
回帰直線
X軸の値とY軸の値を数式(y=ax+b)で示す直線を引いたときにそれぞれの点からの差(残差)の2乗して足したもの(平方和)が最も小さい時の数式が回帰直線
決定係数
相関係数を二乗したもの数式によって説明できる割合を示す。(寄与率とも)
高ければ高いほど数式で説明出来る
課題
以下の年齢と歩幅のデータより相関係数を求めよ補足
相関係数の式について
この教科書では相関係数を求めるにあたって標準偏差Sx,Syではなくについて標本標準偏差sx,syで求めており,共分散Cxyについても同様にn-1で除する数式(sxy)となっていますが,nで除する数式となっているものもあります.ただし,n-1やnなど統一されていたら計算結果に影響が無いのは自明です.
結局n(もしくはn-1)はキャンセルされるのでx,yの偏差平方和とxyの偏差積和で求める式が相関係数を求める式になります.
r=偏差積和/√(xの偏差平方和×yの偏差平方和)
帰無仮説対立仮説の関係
5月20日の授業後,なぜ最初に対立仮説を棄却しちゃだめなのか論議をしましたが,教科書に怪しい記載があるのが原因のようです. P112「検定結果の判定」有意額率が有意水準よりも大きい場合の部分ですが,以下のように修正してください.× 一方,有意確率が有意水準より大きく,対立仮説が採択されなかった場合,帰無仮説を棄却することはできない.
〇 一方,有意確率が有意水準より大きい場合,帰無仮説を棄却することはできない.
この部分を参考にしたと思われる課題の回答については,上記の部分を参考にしたと思われるのでそのような取り扱いとしています
課題について
工夫
計算が楽になるように単位を変えてから計算 → m→cm
単位を変えても結果に影響しないのは自明
気になった部分
相関係数は -1≦r≦1 なのに・・・
計算間違いもあったが,概ね回答に類似のものはOKとしています.
計算の細かいところはご自身で再確認ください.
正解にした範囲
-0.82≦r≦-0.75
第08回CMC 保健統計調査 人口静態統計・人口動態統計・死因統計
到達目標
8-1保健に関する統計資料にアクセスできる
8-2各種指標について計算できる
教科書1)P168-187
静態統計と動態統計
静態統計
ある点(時点,地点)における状態を表わす統計
対象全てのデータを収集
動態統計
ある点(時点,地点)における状態の変化を表わす統計
変化したデータだけを収集
人口に関する指標
静態統計・・・国勢調査(日本に住むすべての人を対象5年毎)
(住民基本台帳は住民票ベース)
動態統計・・・出生届,死亡届,婚姻届,離婚届,死産届
静態統計+動態統計データで推定
関連する用語
年央人口
年の中央なので年単位で考えた場合は7月1日
日本の場合は年度の中央(下半期)を以て年央人口としている
ここから先の話は,保健統計学Ⅱの一回目「保健医療分野で用いられている指標 比と率と割合」で
年齢別人口
5歳階級別などよく用いられる.
人口ピラミッド
年齢別人口(人口ピラミッド)では年次の人口推移を捉えきれない.
年齢階級別出生率でも捉えきれない
(社会人になってみた(頃を客観的に振り返る話) より)
年齢3区分人口
0~15 年少人口
15~65 生産年齢人口
65~ 老年人口
年齢構造指数については教科書(P172)参照
労働力人口
一週間のデータを基に算出している
労働力率・・・労働力人口/15歳以上人口
<参考>
年齢階級別労働力率(独立行政法人労働政策研究・研修機構)
https://www.jil.go.jp/kokunai/statistics/timeseries/html/g0203_02.html
労働力調査 用語の解説(総務省統計局)
https://www.stat.go.jp/data/roudou/definit.html?_fsi=mJPe7Okn
労働力調査に関するQ&A(回答)A.労働力調査とは(総務省統計局)
https://www.stat.go.jp/data/roudou/qa-1.html#Q_A01
世帯構造別人口
単独世帯の上昇と三世代世帯の低下
出生率
出生率と合計特殊出生率
死亡率
粗死亡率と年齢調整死亡率
死因統計
ICD-10
課題
(最終週のため課題の再提出は行わないので注意のこと)
以下の表はある村の年齢3区分人口である.
表より,①年少人口指数,②老年人口指数,③従属人口指数,④老年化指数を求めよ
工夫
計算が楽になるように単位を変えてから計算 → m→cm単位を変えても結果に影響しないのは自明
気になった部分
相関係数は -1≦r≦1 なのに・・・計算間違いもあったが,概ね回答に類似のものはOKとしています.
計算の細かいところはご自身で再確認ください.
正解にした範囲
-0.82≦r≦-0.75
第08回CMC 保健統計調査 人口静態統計・人口動態統計・死因統計
到達目標8-1保健に関する統計資料にアクセスできる
8-2各種指標について計算できる
教科書1)P168-187
静態統計と動態統計
静態統計
ある点(時点,地点)における状態を表わす統計対象全てのデータを収集
動態統計
ある点(時点,地点)における状態の変化を表わす統計変化したデータだけを収集
人口に関する指標
静態統計・・・国勢調査(日本に住むすべての人を対象5年毎)(住民基本台帳は住民票ベース)
動態統計・・・出生届,死亡届,婚姻届,離婚届,死産届
静態統計+動態統計データで推定
関連する用語
年央人口
年の中央なので年単位で考えた場合は7月1日日本の場合は年度の中央(下半期)を以て年央人口としている
ここから先の話は,保健統計学Ⅱの一回目「保健医療分野で用いられている指標 比と率と割合」で
年齢別人口
5歳階級別などよく用いられる.人口ピラミッド
年齢別人口(人口ピラミッド)では年次の人口推移を捉えきれない.年齢階級別出生率でも捉えきれない
(社会人になってみた(頃を客観的に振り返る話) より)
年齢3区分人口
0~15 年少人口15~65 生産年齢人口
65~ 老年人口
年齢構造指数については教科書(P172)参照
労働力人口
一週間のデータを基に算出している労働力率・・・労働力人口/15歳以上人口
<参考>
年齢階級別労働力率(独立行政法人労働政策研究・研修機構)
https://www.jil.go.jp/kokunai/statistics/timeseries/html/g0203_02.html
労働力調査 用語の解説(総務省統計局)
https://www.stat.go.jp/data/roudou/definit.html?_fsi=mJPe7Okn
労働力調査に関するQ&A(回答)A.労働力調査とは(総務省統計局)
https://www.stat.go.jp/data/roudou/qa-1.html#Q_A01
世帯構造別人口
単独世帯の上昇と三世代世帯の低下出生率
出生率と合計特殊出生率死亡率
粗死亡率と年齢調整死亡率死因統計
ICD-10課題
(最終週のため課題の再提出は行わないので注意のこと)以下の表はある村の年齢3区分人口である.
表より,①年少人口指数,②老年人口指数,③従属人口指数,④老年化指数を求めよ
区分 | 人口 |
---|---|
年少人口 | 300 |
生産年齢人口 | 1200 |
老年人口 | 600 |