奈良県立医科大学 保健統計学Ⅱ2024
(医学部看護学科)
課題の提出状況については,出欠システムのところで表示するようにします.
9/10の1時限目 1回目の授業の課題
9/11の1時限目 2回目の授業の課題
評価は問題無しが○ ちょっと問題ありが△ 未提出が×で入力しています.それぞれ(出席)(遅刻)(欠席)と表記されると思いますがご注意ください
授業への出席は開講期間の部分でご確認ください 開講期間外の9月分はあくまでも上記のように課題の提出状況を示していますので勘違いされない様よろしくお願いします
課題提出フォーム
https://forms.gle/q8Fs1Ff9ZURUvE1DA授業メニュー
第01回 PCによるデータの取り扱い(度数分布表)第02回 記述統計
第01回 PCによるデータの取り扱い(度数分布表)
教科書14章A1
EXCELの利用
キーワード
セルセル番地
数式バーとセルの表示
計算式
関数
セルの参照(絶対,相対)
グラフの作成
保存は大切
保存形式はありのままなら標準形式(xlsx),データだけシェアするならcsvが便利
度数分布表
countifs関数問01-1
以下のデータ(血液型)をダウンロードし度数分布表を完成させよnmuhlthstat1_2024-0102.csv
問01-2
以下のデータ(プロ野球 セリーグ及びパリーグの2001年~2023年優勝チームのデータ)をダウンロードしチーム毎の優勝回数の度数分布表を完成させよkmuipt2024-0501sjis.csv
それが出来た方は表の右側にセリーグ優勝回数,パリーグ優勝回数の列を作成し,リーグ別の優勝回数も求めよ
問01-3
以下のデータ(身長)をダウンロードし10歳階級別の度数分布表を完成させよmedbbstat2023-0101.csv
次回ここから(10歳階級の階級値を求めたところまで)
)度数分布図
問01-4 問01-3で作成した度数分布表よりヒストグラムを作成せよ
第02回 記述統計(3)PCによる代表値・散布度
教科書12章D
代表値
平均値
average関数問02-1 問01-3のデータおよび作成した度数分布表を用いてそれぞれから平均値を求めよ)
中央値
median関数もしくはQUARTILE.INC関数問02-2 問01-3のデータから中央値を求めよ
最頻値
mode関数問02-3 問01-3のデータおよび作成した度数分布表を用いてそれぞれから最頻値を求めよ)
散布度
範囲
max関数,min関数問02-4 問01-3のデータより範囲を求めよ
四分位範囲
QUARTILE.INC関数問02-5 問01-3のデータより四分位範囲を求めよ
標準偏差
stdev.?関数問02-6 問01-3のデータより標準偏差を2種の関数ともに求めるとともに関数を使わずに求めた標準偏差と比較せよ
第03回 推測統計(6)推定と検定
教科書13章B1~2,13章C1~4
推定
平均値の区間推定https://medbb.net/education/nmuhlthstat1_2024/#5
課題データ
ocrstat2021-0401.csv
第三週ここから
前回の検証
95%信頼区間の件からt分布と正規分布の違いについて理解できた方と思います
第03回 推測統計 平均値の仮説検定
仮説
仮説検定では確率に基づく判断基準を有意水準として確率で示します.
以降は「新たな知見」に対する話で仮説検定を用いるケースが重要なので有意差検定を前提として話を勧めます
事象としては「同一の結果が得られる」「同一の結果が得られない」の二つにいずれかになります.
同一の結果が得られる仮説を帰無仮説(これまでと違いが無い仮説)H0,同一の結果が得られない仮説を対立仮説(これまでと違いがある仮説)H1と示します.有意水準は対立仮説H1の確率を示します
有意水準は通例5%とされることが多く,両側検定(効果量に違いがあるのか無いか)と片側検定(違いがが正の方向のものなのか,負の方向のものなのか)の二種類があります
差がある仮説の判定(有意差検定)
研究活動は「新たな知見」を見出すことを目的にしてますので,通常この検定になります.
区間推定を思い描いていただいたら,概ね同様な話ですが表現の仕方が帰無仮説/対立仮説の二値化されることと,区間推定と違い帰無仮説に基づく話(例えば差が0としているならばその値が中心,区間推定の場合は標本から求めた平均が中心)になる違いがある程度です.
帰無仮説そのものは「考えられた仮説」ではないので採択された場合の判定は保留になります
帰無仮説が棄却された場合残された仮説は対立仮説のみとなります.こちらは「考えられた仮説」になります
背理法の考え方に基づく論理になりますが,もともと証明したい仮説(差がある)を偽であるとして,矛盾を導く出すことで判定する方法になります
現在はコンピュータにより確率を直接求めることは可能ですし,まどろっこしい流れに映りますが,違い(差)を直接判断しているのではなく「同一の結果が得られる」確率に基づき判定基準を定めているところが科学として重要であるから故と捉えています.
ですので確率そのものは,判定のためのものであって求めた値(統計量や確率)そのものに重きを置く必要はありません.効果量そのものに重きをおく方が知見の社会実装の観点から重要になります
仮説検定(有意差検定 両側検定)のフォーマット例
手順1 帰無仮説,対立仮説をたてる
帰無仮説H0:μ=150 対立仮説H1:μ≠150
手順2 母集団が従うと見做す確率分布を定め,有意水準を決める
(例えば)正規分布に従うと見做し,有意水準両側5%とする
手順3 今回取得したデータをもとに,母集団が従うと見做す確率分布における統計量を求める
(以下はケースX)
ここではよろしくないの承知で,正規分布としました
取得したデータの平均値(標本の平均)と帰無仮説に基づく母集団の平均値(母平均)の差を,確率分布(標準正規分布)における差に変換する
帰無仮説H0がある集団の収縮期血圧μ=150mmhgとしたときに,得られたデータ(サンプルサイズn=36 標本平均xbar=147.3 不偏分散s^2=81)で検定を行う
考え方は区間推定と同じように現実の世界と確率分布の世界を行き来できるようにすること
基本的な考え方を正規分布で整理しましょう.
検定統計量は現実の世界における標本平均と帰無仮説で定めた値の差分xbar-μ,これが標準正規分布の世界でどのような統計量(z)になるのか
1)標準正規分布の世界はμ=0 現実社会でのμ=150 標本平均のμからのズレは147.3-150=-2.7となる
2)-2.7は現実社会(サンプルサイズn=36 標本平均xbar=147.3 不偏分散s^2=81)によるものなのでσ(ここでサンプルは標本平均を求めているので標本平均の標準偏差,すなわち標準誤差SE=√81/√36=1.5の世界 これを 標準正規分布の世界(σ=1)に合わせると -2.7/1.5=-1.8
手順4
検定統計量を用いて有意水準との比較,今回の標本が棄却域にあるのか否か(受容域なのか)判定する.
1)(ケースX)
|z|=1.8 p=0.0359×2(両側検定なので2倍)>0.05
帰無仮説を棄却できないので判定を保留する
2)(ケース1)有意水準よりも小さい場合
|z|=2.96 p=0.015×2(両側検定なので2倍)<0.05
帰無仮説を棄却し対立仮説を採択する 有意差がある
3)(ケース2)有意水準よりも大きい場合
|z|=1.45 p=0.0735×2(両側検定なので2倍)>0.05
帰無仮説を棄却できないので判定を保留する
注)標準正規分布表の場合確率まで求めることが可能だが,t分布表は統計量から確率を求めることはできないので統計量で比較する
例題1 有意差検定において背理法を使わなければならない理由を考えよ(何故,違いがあるという仮説を直接証明しないのか?)
1標本(1群)t検定
世の中(母集団)の基準値など,既に明らかになっている事柄と比較することで世の中の一般的な状況と対象とする集団が異なっていることを明らかにすることを目的
例題2
物騒な話ですが,ある自動販売機に偽造通貨が使われているのではないかという話が私のところに舞い込んできた.
話を聞くともっともらしい仮説が既にあるので検証することにした.
そこで,自販機に入っていた硬貨10円玉10枚を用いてこの仮説について仮説検定を行う
10円玉の硬貨μ=4.50gと比較して異なることが期待される検定
ここでは,とりあえず標準正規分布で検定してみましょう(よくないけど)
10円玉ID | 重量(g) |
---|---|
1 | 4.55 |
2 | 4.53 |
3 | 4.23 |
4 | 4.50 |
5 | 4.51 |
6 | 4.31 |
7 | 4.38 |
8 | 4.54 |
9 | 4.35 |
10 | 4.30 |
確率を求める時は表もしくは
=NORM.S.DIST() を使いこなして
例題3
例題2の結果を先方にお伝えしたところ,適切な統計手法を用いていないとご指摘を受けました.そこで改めてt分布を用いて検定を行ってください =T.DIST.2T() を使いこなして
検定で注意する点
両側検定と片側検定の注意点
一緒な有意水準で比較した場合 片側は棄却域が存在しないことと,他方は棄却域が大きくなってしまう → 帰無仮説が棄却されやすくなる状況paired-t検定
例題4
新開発のシューズを2種類開発した.それぞれ同一被験者に従来型と新型を履いて5km走のタイムを計測し比較を行った.対応のある2群の差の検定を優位水準5%で行え
参考
令和元年度体力・運動能力調査結果の概要及び報告書について(スポーツ庁)
https://www.mext.go.jp/sports/b_menu/toukei/chousa04/tairyoku/kekka/k_detail/1421920_00001.htm
統計的有意性とp値に関するASA声明
<参考>統計的有意性とP値に関するASA声明(日本計量生物学会)http://biometrics.gr.jp/news/all/ASA.pdf
以下の内容が指摘されています
1. p値はデータと特定の統計モデルが矛盾する程度をしめす指標のひとつ
2. p値は、調べている仮説が正しい確率を測るものではない
3. 科学的な結論は、p値がある値を超えたかどうかにのみ基づくべきではない
4. 適正な推測のためには、すべてを報告する透明性が必要
5. p値は、効果の大きさや結果の重要性を意味しない
6. p値は、それだけでは仮説に関するエビデンスのよい指標とはならない
科学的な話
科学が,それ以外の文化と区別される基本的な条件としては,実証性,再現性,客観性などが考えられる
実証性とは,考えられた仮説が観察,実験などによって検討することができるという条件再現性とは,仮説を観察,実験などを通して実証するとき,人や時間や場所を変えて複数回行っても同一の実験条件下では,同一の結果が得られるという条件
客観性とは,実証性や再現性という条件を満足することにより,多くの人々によって承認され,公認されるという条件
実証性
「考えられた仮説」が無いことには始まらない→仮説検証型それでは「考えられていない仮説」とは?
→まだ十分に確固たる仮説として成立していない仮説
仮説検証型と仮説探索型
仮説探索型とは「考えられた仮説」が存在せず(関心ある事象など),得られた結果は「考えられた仮説」になる可能性を有するので「まだ考えられたと言い切れない仮説」再現性
仮説を実証するために得られたデータから複数回,同一の検証結果になること「常に」同一の検証結果になることを求めていないが,それは求められないから
再現性の限界
再現性の条件は「仮説の実証を複数回行っても同一の結果が得られる」ことですが,その回数が無限であるならばその条件は永遠に満たされません.故に有限となりますが,それはある回数(x回)まで同一の結果としても,x+1回目以降同一の結果にならない可能性を含んだものになります.
これは未来において,その仮説が覆される可能性があることを示すもので,反証可能性といわれるものです.
再現性の限界を超える方法
「仮説の実証を∞回行っても同一の結果が得られる」実証で得られたデータについてどのようなものであっても同一な結果が出るように判定基準を定める
例題5 再現性の限界を超える(つまり同一の結果が100%出るような判定基準を定める)ことがよろしくない理由を考えよ
判定基準
「同一の結果」が100%の確率で出現しないことを示しておく必要が出てきます 例えば仮説の実証を行うにあたって検証データに対する判定基準を目標値(目標とする効果量)として設定した場合,達成してもその判定基準が「『同一の結果』が100%の確率で出現しない」ものか分かりません.例えばその目標値が医学的に妥当なものであったとしても,ここでは関係ない話になります
そうなると,確率に基づく基準で判定しないことには,再現性を満たすことが出来ません
故に仮説検定では効果量などで判定せずに確率に基づいて行います
同一の結果が帰無仮説になりますが,従来と異なることが起こったことによって同一の結果が得られなかったという形で証明をしています(背理法)
統計的有意差と臨床的有意差
得られたデータに基づき計算した確率が判定基準を下回った時に統計的有意差があると言います.知見は社会実装することで人類に貢献できますが,医療現場においては臨床的に意味があるとされる量を基準とする臨床的有意差が結果として求められます
無論社会で役立てていく知見としては,統計的有意差よりも臨床的有意差が重要になりますが,「科学的」な観点からは前者が支配的になります.
確率の違いを量で示すとき,その量はサンプルサイズにより変化します.故に臨床的有意差に基づきサンプルサイズを決定することで二つの違いを解消できます
例えば臨床的有意差が統計的有意差よりも大きい場合は再現性については確認できたものの臨床的な観点から確認はできません.統計科学的に良いが,医科学的には?という結果になります
一般にはサンプルサイズが大きいほど,精度の高い結果が得られるので良いという感覚に思いますが,それは区間推定の話で仮説検定において効果量の差を検証する場合は少し状況が異なります
第04回 割合の推定と検定
カイ二乗分布
χ2乗分布・・・母分散を推定できる確率分布χ2=ΣZi2
平均からのズレの平方をとったものを足し合わせていく→偏差平方和
標準正規分布に従う独立した確率変数が1つの場合
χ2=Z12
<参考>独立した確率変数が二つの場合
χ2=Z12+Z22
カイ二乗分布
母分散を推定できる確率分布χ2=ΣZi2
カイ二乗分布表
t分布と同じく自由度により確率分布は変化するカイ二乗分布(ν=1)の時のそれぞれの上側確率に相当する正規分布の確率(両側5%(片側2.5%ずつ)は全て上側に集約されてしまう
χ2=((X-μ)/σ)2
χ20.05=((1.96-0)/1)2
例)標準正規分布で有意水準両側5%の場合の境界値はz=1.96.カイ二乗分布表より有意水準上側5%の時のカイ二乗値=3.84
カイ二乗分布のPDF版はコチラから
ピアソンのカイ二乗
カイ二乗分布の話(X-μ)を(実際に出現した度数-出現が期待される度数(期待値))に置き換え分散で除することで分子の差分を標準正規分布のN(0,1)にしていたものを,期待値で除して求めたものである.
(ポアソン分布であるとすると平均値=期待値=分散)
カイ二乗値=Σ(観察度数-期待値)2/期待値
検定
適合度の検定
1行n列事象の起こる確率に基づく頻度(=n×p)期待値(度数))と実際に観測された度数(観察度数)の差異について検定.帰無仮説(測定した分布は想定されている分布と等しい)H0:P=(1/6,1/6,1/6,1/6,1/6,1/6)・・・サイコロの場合
独立性の検定
m行n列こちらはそれぞれが独立しているか(関係があるか無いか)を検定
考え方は一緒
事象の起こる確率は実際に観測された度数を基に算出して全体の度数を乗じることで期待値(度数)とする.
期待値は周辺度数より求める格好
喫煙あり×コーヒー好きの期待値=100×90/160=56.25 以降も同様に全ての組み合わせで期待値を求める
喫煙あり×コーヒー好きのカイ二乗値=(75-56.25)2/56.25=6.25 以降も同様に求め足し合わせる
χ2=6.25+10.42+8.04+13.39=38.10
この集計表の自由度は1・・・χ20.05(1)=3.84
帰無仮説を棄却し対立仮説を採択.つまり関連がある.
エクセルでは CHISQ.TEST関数でp値を直接出力してくれる
例題1
1.コーヒーの好き嫌いが運動習慣に関連があるのかアンケート調査を行った.有意水準5%で検定を行え
2.上記の各セルの度数を勝手に倍にしてみた.(無論現実にはやってはいけない)同様に検定を行え
例題2
SSDSE-基本素材(SSDSE-E)https://www.nstac.go.jp/sys/files/SSDSE-E-2023.csv
より鳥取県と島根県の転入者数と転出者数の関係を比較せよ
そして,奈良県と和歌山県の転入者数と転出者数の関係を比較せよ