奈良県立医科大学 保健統計学I2023
(医学部看護学科)
もしオンライン開講になる場合は,teamsで実施します.
出欠は対面講義の場合は出欠システム(学生証)で,オンラインの場合は授業内で確認します.
課題の提出状況については,出欠システムのところで表示するようにします.
9/1の1時限目 1回目の授業の課題
9/2の1時限目 2回目の授業の課題
評価は問題無しが○(出席) ちょっと問題ありが△(遅刻) 未提出が×(欠席)
授業への出席は開講期間の部分でご確認ください 開講期間外の9月分はあくまでも上記のように課題の提出状況を示していますので勘違いされない様よろしくお願いします
授業メニュー
対面形式での授業の予定です.配布シラバスを一部変更します.
第01回 記述統計(1)尺度とデータ形式,度数分布,ヒストグラム
第02回 記述統計(2)代表値・散布度・箱ひげ図
第03回 推測統計(1)点推定(平均)
第04回 推測統計(2)点推定(分散),区間推定(正規分布)
第05回 推測統計(3)検定の原理
第06回 推測統計(4)平均値の検定,区間推定(t分布)
第07回 人口統計(1)静態統計,動態統計
第08回 人口統計(2)直接法,間接法
第01回 記述統計(1)尺度・度数分布・ヒストグラム
到達目標1-1 4つの尺度について説明できる
1-2 度数分布表を作成できる
教科書1)P2-P8,P16-23,P37
統計に用いるデータ
集団から個々のデータをとりまとめて示すので・・・(奈良県立医科大学大学院看護学研究科 地域医療学(分担:データ分析編) より)
データは目的に応じて丸めたり切ったりしてしまう。故に二次利用の場合は注意が必要。
とりあえず収集してデータベース構築をすることが目的ならば、分析は既に二次利用。耐えうるデータを目指さなければ意味が無い
・一次データは情報源からダイレクトに取得するので粒度を目的にあわせてコントロールしている
・二次データは本来の目的と異なるデータ活用となるので、その目的に対してデータの粒度があわない事がある(細かい場合は粗くできるが粗いものは推定するしかない)
医療情報学の分野は二次利用がテーマ
記述統計と推測統計
記述統計とは
・収集したデータを要約してその集団の状況を表す・そこにあるデータは全体(母集団)
・度数(分布)・代表値・散布度・相関係数など
推測統計とは
事象の起こる確率を仮定した上で全体(過去・現在だけではなく未来も含む)を推測する。推定と検定に分類される。推定とは
・収集したデータを基にしてその集団の状況を表す・そこにあるデータは一部(標本)
・点推定・区間推定・モデリング
検定とは
・収集したデータを基にしてその集団の状況を仮定に従ってyes/Noで判断する・そこにあるデータは一部(標本)
・t検定・カイ二乗検定など
母集団と標本
母集団とは
対象としている集団の全体を指し示すときに「母」を最初に付ける。無限母集団と有限母集団からなる。
対象が有限か無限に増殖するかの違い
標本とは
母集団の一部。昆虫標本を思い浮かべると、偏りに注意する必要があることは自明。
参考
標本調査はサンプル抽出が命(The Huffington Post Japan)http://www.huffingtonpost.jp/nissei-kisokenkyujyo/sample-survey_b_5878832.html
統計に用いるデータ
基本どのようなデータでも統計処理は出来る出来ないのは,どのようなデータであっても一つしか存在しない時
データについて
レコード
症例,個体,被験者単位でまとめられたデータの塊.表の場合一行にその症例のすべてのデータを記していたらそれがレコード変数(変量)
データの項目名のことデータ
観測値や測定値のこと(数値)だけでなく性別など文字の場合もある.コンピュータ処理するとき,文字だと扱いにくい時があるのでその時は数字に置き換える(→コード変換)
例えば都道府県名であれば 北海道→01 青森県→02 奈良県→29
全国地方公共団体コードの上二桁=都道府県番号
<参考>全国地方公共団体コード(総務省) https://www.soumu.go.jp/denshijiti/code.html |
変量(データ)の分類
変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。それぞれを尺度と呼び、4つに分類するのが一般的である
1分類尺度(名義尺度)
2順序尺度
3間隔尺度
4比尺度(比例)(比率)
1,2を質的変量(定性的)
3,4を量的変量(定量的)
性質としては上位互換性があり
4>3>2>1
統計量
取りまとめたものを「量で」示したもの.質的変数であっても度数(個数,人数など数えるもの)については「量」として示すことが出来る度数
どのようなデータでも度数を示すことは可能度数分布表
それぞれのデータ(変量)の数(出現頻度)をまとめたもの変量が名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数 ・・・出現頻度
相対度数・・・総出現頻度を1(100%)としたときのそのぞれの度数のしめる割合
累積度数・・・上位の変量の度数もあわせた度数
累積相対度数・・・累積度数の相対版
例題
1)以下の店名別のみかんの売り上げデータより度数分布表を作成せよ日付 | 店名 | 数量(箱) |
---|---|---|
9月上期 | 奈良本店 | 1400 |
9月上期 | 大和郡山店 | 850 |
9月上期 | 生駒店 | 1200 |
9月上期 | 大和高田店 | 750 |
9月上期 | 五條店 | 800 |
9月下期 | 奈良本店 | 500 |
9月下期 | 大和郡山店 | 1250 |
9月下期 | 生駒店 | 1000 |
9月下期 | 大和高田店 | 1250 |
9月下期 | 五條店 | 1000 |
店名 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|
1.00 | ||||
計 | 1.00 | ----- | ----- |
量的変数の度数分布表
量的変数の場合はその数値だけで度数を積み上げようにもなかなか上手くいかない場合がある.血圧 163.5mmHg 164.2mmHg 162.5mmHg・・・どれも度数を積み上げられない → 区間を設定する
「A~B」は「A以上B未満」と読む格好と思っていたが,分野などによって違うようです 「A以上B以下」のようにどちらの階級にも属してしまう可能性のある設定はしないように. |
階級 | 階級値 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|---|
130~140 | 135 | ||||
140~150 | 145 | ||||
150~160 | 155 | ||||
160~170 | 165 | ||||
170~180 | 175 | ||||
計 | ----- | ----- |
度数分布図
質的変数・・・縦棒グラフ量的変数・・・ヒストグラム
棒の間隔が無いのは値が連続している状態であるが故
普通の棒グラフは棒の長さが度数を示すが,ヒストグラムは棒の面積が度数を示す
「階級の幅を等しくすること」と説明している場合があるが,それは幅が変わると高さが変わる故で,実際にはそのような区間設定はよくある |
ヒストグラムーなるほど統計学園(総務省統計局) https://www.stat.go.jp/naruhodo/4_graph/shokyu/histogram.html |
課題
次の度数分布表の空欄部を埋めて完成させよ階級 | 階級値 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|---|
130~140 | 135 | 30 | |||
140~150 | 145 | 0.225 | 48 | ||
150~160 | 155 | 0.15 | |||
160~170 | 165 | 0.75 | |||
170~180 | 175 | ||||
計 | ----- | ----- |
授業終了後24時間以内に提出の事
課題解答例
第02回 記述統計(2)代表値・散布度・箱ひげ図
到達目標2-1 代表値の算出及び特性について説明できる
2-2 散布度の算出及び特性について説明できる
教科書1)P24-43
代表値
average(その集団でとりまとめたデータを数値一つで表す。excelはaverage関数で算術平均を出すが、代表値の代表ということだからと解釈しています)平均
算術平均
mean(算術平均以外にも相乗平均などもあります)1/n・Σxi
パレートの法則(80-20の法則)
代表値なのに実在しない場合がある → 集団の指標(重心)であって、事象を代表する値そのものを示しているとは限らない
幾何平均(相乗平均)
全て掛け合わせて累乗根をとる
加重平均
重みづけ平均例えば ミニテストと期末試験の平均をとる → そのままの平均で良いの?
度数分布表を用いた平均もこの方法・・・Σ(階級値×階級の度数)/n
先週の度数分布表より平均を求めると・・・150,25
中央値
median(別名第2四分位数)量的変量を順序尺度で処理した代表値
順番に並べたとき真ん中の順位にきた個体の値
個体数が偶数の時は真ん中2つの数値の平均値
最頻値
mode(流行,はやり)違う意味で数の理論(多数決)の世界
量的変量を名義尺度で処理した代表値
名義尺度でわかることは一緒か違うか
階級毎に度数をカウント
一番多いところの階級値
一位が同点の時は併記
平均値と中央値の考え方の違い 平均値(14.55) こちらは分布なんて関係なく中央値(15) データの分布に依存する(パラメトリック)=平均値 と データの分布に依存しない(ノンパラメトリック)=中央値,最頻値の関係がわかるかなと思います 例えば5が0に変わってしまうと平均値は大きく変わりますが,中央値は変わりません パラメトリック・・・数値に依存する(数値の分布によって値が影響を受ける)というとイメージしやすいのかな? |
散布度
dispersion最大値と最小値を使う
最大値と最小値がわかればその集団のバラツキがわかる最大値maximum excel max関数
最小値minimum excel min関数
範囲
RangeR=最大値-最小値
特徴
外れ値もひらう
算出が用意
四分位範囲
小さい順(昇順)に並べて集団を4分割分割する所の値を小さい方から第1四分位数(Q1),第2四分位数(Q2)=中央値,第3四分位数(Q3) 四分位範囲IQR(interquartile range)=Q3-Q1
四分位数の話
四分位数は出し方が何種類かありますが,基本的な考え方はtukeyの上ヒンジ 下ヒンジの話が一番理解しやすいのかなと思います.(高校で習っているものとは違いますが)箱ひげ図
四分位範囲をグラフ化平均値を使う
mean偏差
Deviationもともとは標準となる数値からのズレ(偏り)を意味するものだが統計の世界では集団の平均値からのズレを示す
偏差の平均をとれば集団内の各々のズレっぷりがわかる → 合計は常に0 故に平均も常に0
分散
varianceV excel関数はVAR
偏差を二乗したものの平均
標準偏差
Standard Deviation記号は標本標準偏差s 母標準偏差σ
s=√V
(故にVはs^2やσ^2で表現する)
記述統計と推測統計
対象としている集団が全体の一部だった時,全体を推測しなければ全体の事は語れない平均値は全体を推測する際にそのまま用いても良いのだが,標準偏差はそのようなわけにいかない
課題
上記のデータの拡張期血圧のデータを用いて
1)平均値を求めよ
2)中央値を求めよ
3)標準偏差を求めよ
4)度数分布表を作成し,表より平均値を求めよ
階級 | 階級値 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|---|
70~80 | 75 | ||||
80~90 | 85 | ||||
90~100 | 95 | ||||
100~110 | 105 | ||||
計 | ----- | ----- |
授業終了後24時間以内に提出の事
課題解答例
課題誤答
問1
平均値の計算間違い・・・74.97無回答
問2
無回答問3
分散のみを記載分散から求めた標準偏差からさらに平方根をとっている
偏差平方和の平方根を取ってからnで割っている
計算間違 9.359 9.975
問4
誤答ではないです・・・度数分布表の階級を「以上未満」ではなく「超えて以下」のものがあった.→平均値も変わります(その場合は90)以下は誤答
無回答
度数分布表は良いが,平均値を求めていない
度数分布表の累積相対度数が間違っている
平均を求める数式が間違っている
>第03回 推測統計(1)点推定(平均)
到達目標3-1 なぜ標本より求めた平均をそのまま母平均の推定値として良いのか説明できる
教科書1)P29,67,88,91,195(付表1)
推定
母集団から抽出した標本を基に母集団の分布を示す値(母数)を推測する点推定と区間推定がある
説明用データ
excelのRANDBETWEEN(110,140)をベースに一部調整したデータになります.母集団は20000人からなり収縮期血圧を整数だけで記録される血圧計を用いた という想定です
母数(母集団の統計量)ですが母平均は125.0 母分散は80.97になりました
このデータはサイコロの目が均等にでるのと同様に以下のように収縮期血圧データは110から140まで均等に出現しています. ただし,実際にある集団に対して収縮期血圧を測定するとその血圧データの分布はそのような形になりません 諸々の事情(説明を理解しやすく)を含めて設定したのですが実際とは異なる振る舞いをしているであろうことだけ承知しておいてください. 日本人の健康・栄養状態のモニタリングを目的とした国民健康・栄養調査のあり方に関する研究(厚生労働科学研究成果データベース)(https://mhlw-grants.niph.go.jp/project/23935)を加工して作成 <参考>日本人の健康・栄養状態のモニタリングを目的とした国民健康・栄養調査のあり方に関する研究(厚生労働科学研究成果データベース) https://mhlw-grants.niph.go.jp/project/23935 の平成24年度~26年度 総合研究報告書のP108図1の部分を取り出して加工したものが上記になります https://mhlw-grants.niph.go.jp/system/files/2014/143031/201412017B/201412017B0006.pdf |
点推定とは
一つの数値(点)で推定値を示すこと欠点:推定値と真の値がどの程度ズレているのかよくわからない
利点:区間推定よりも簡単に算出できる
推定をしても必ず一致するわけでもない→せめて偏りなくバラついてほしい→母数の期待値と推定値の期待値が一緒=不偏推定量
母平均の点推定
標本から求めた平均値は母集団の平均値の不偏推定量か?以下は20000のデータから標本数10の平均値を求めたもの(標本数2000)をヒストグラムにしたもの
標本平均の平均 125.0 =(本来知らないハズの)母平均
125.0未満の標本平均になった標本の数 1000(50.0%)
標本平均が125.0になった標本数 22(1.1%)
125.0を超えた標本平均になった標本の数978(48.9%)
中心極限定理
標本の大きさが十分であれば標本平均の分布は正規分布→正しく測定されているのであれば偶然誤差の発生は正規分布に従う
→測定回数を増やせば増やすほど
正規分布
左右対称の釣鐘状分布平均値に近いほど出現率が高く遠ざかるに従って低くなる(ことが多い)
同じ事柄を同じ条件で繰り返すと正規分布になるという話→中心極限定理
「異質な集団の計測値が組み合わさった分布は正規分布とならない」(教科書P33)
正規分布っぽい形状の判断→P28 歪度 尖度を参照
標準正規分布
平均値が0標準偏差=1(分散も1)になるように値を変換したもの偏差値は平均値を50、標準偏差=10になるように値を変換したもの
両者の関係
偏差値=50+10×z
標準正規分布表
標準正規分布表のPDF版はコチラから
課題
課題はteamsのチャット機能で提出すること.評価の対象とする.ノートなどで解き写真を貼り付けること.授業終了後24時間以内に提出の事
テストの点が正規分布に従うとして
10000人でテストを行い平均点60点,標準偏差16の試験で84点(偏差値は65 ZスコアはZ=1.5)を取っていたのであれば,その順位は668番目となる
では,96点では?
補足
課題の評価について
誤答および以下については減点していますチャットに文字を直打ちした方は減点しています(指示に従っていないので)
提出期限内に提出されなかった方についても同様に減点しています
課題の誤答例
ともに標準正規分布表の読み方について理解されていなかったように思います.勝手にz値を小数点一桁にして計算
Z値2.2と2.3の平均値をとって算出
課題に関する学生からの質問と回答
偏差値は計算できるがZ値の求め方がわからない
質問文は:「偏差値を出すときに公式で出したが公式を使わないときの考え方が分からない」となっていましたが,提出物を見ると偏差値を自分で求めたあとにZ値を公式に当てはめ逆算しているように見えたので,その内容に合わせた返信をしていますzスコアが2.25になったので2.2と2.3の間を取ったのですが、小数第2位のように正規分布に書かれたいない値の場合は
先の誤答例に含まれますが,当該学生は具体的に妙なところに疑問を持ち質問しているので減点していません.第04回 推測統計(2)点推定(分散)),区間推定(正規分布)
到達目標4-1 なぜ標本より求めた分散をそのまま母分散の推定値としたらダメなのか説明できる
教科書1)91,195(付表1)
母分散の点推定
標本から求めた分散は母集団の分散の不偏推定量となるのか?標本の平均値から求めた分散
以下は20000のデータから標本毎に求めた平均(標本平均)を用いて分散を求めたもの(標本数2000)をヒストグラムにしたもの母分散の値よりも低く出る標本が多い→偏っている
標本より求めた分散の期待値(平均)72.96 ≠ 80.97(本来知らないハズの)母分散
母平均から求めた分散
それでは母平均を用いて標本ごとの分散を求めると以下のようになる母平均より求めた分散の期待値(平均)80.97 = 80.97(本来知らないハズの)母分散
偏っていない推定が出来るが,そもそも母平均を用いることが出来るのであれば・・・
不偏分散(標本の平均を用いて母分散の推定を行う)
標本の平均を用いて計算すると,どうしても分散は小さくなる(母平均を用いたものと比較して))
<参考>不偏分散は何故nではなく(n-1)で除するのか(生物統計学2018奈良医大) https://medbb.net/education/nmubiostat2018/index.html#VAR |
ということで,標本平均を用いて母分散の推定を行うには,少し値を大きくしないといけない
上記の<参考は>母平均を用いた式を標本平均に置き換えて式を変化させた話 → 結論は偏差平方和を標本数nではなくn-1で除すると良い
標本より求めた統計量(一部)
区間推定
点推定に幅をもたせたもの.幅の定義は確率(どの程度あたるものか)
∴100%あたる推定に意味は無い→確実に当たる幅を設定したら達成できるので
一般的に95%の確率で当たる区間(95%の信頼区間)で幅を決めている
例題
10000人でテストを行ったところ点数の分布は正規分布に従っており平均点60点,標準偏差16だった.全体の95%(上位2.5%,下位2.5%を除いた)を抽出するには何点以上 何点未満にすれば良いか
(下限の値)≦μ≦(上限の値)
平均値の区間推定
平均値の区間推定については標準誤差を基準に計算する
標準偏差と標準誤差
・標準偏差は標本の分布のバラツキ具合を示したもの
・標準誤差は母集団から抽出した標本の平均値のバラツキ具合
SE=σ/√n
標準誤差SEはなぜ標準偏差σを√nで除するのか
標準誤差は母平均に対する標本平均のバラつき指標(標準偏差)の話
対象が母集団全体ならば0だが,母平均(μ)と標本平均(xbar)には差が生じる
ある標本における平均値と母平均の偏差平方は
(xbar-μ)2
=((1/n)Σxi-μ)2
=((1/n)Σxi-(1/n)Σμ)2
=((1/n)Σ(xi-μ))2
=(1/n)(1/n)Σ(xi-μ)2
-----
ここで
(1/n)Σ(xi-μ)2
をσ2とおくと
-----
=σ2/n
故に標準誤差は
SE=σ/√n
課題
課題はteamsのチャット機能で提出すること.評価の対象とする.ノートなどで解き写真を貼り付けること.
授業終了後24時間以内に提出の事
また,答えに至る過程が記されていないものは減点対象とする.
EXCEL等の計算ソフトの関数は用いないこと.
計算過程を明らかにすること.
それぞれの標本から求めた母平均と既知の母分散(80.97)を用いて95%の信頼区間を求めよ
補足
課題の評価について
授業を欠席されていた方
課題も未提出として取り扱っています.
(公欠の場合は課題についても公欠の取り扱いをしていますので届け出をしてください)
誤答および以下については減点しています
標準誤差を用いていない
標準偏差のまま
分散を√nで除している
その他
範囲上限,下限の意味を理解していないような区間
標準偏差がいきなり出現している
区間推定の際に95%の信頼区間ではなく63%の信頼区間で求めている
あきらかな計算間違え
評価とは関係ないところで
「保健統計学」なのに「保険統計学」と書いてくる人がいる
課題提出の際に写真だけ貼り付けてくる人もおられますが,大半は課題の提出の旨など要件や氏名,ご挨拶など書かれる方が多いです.
その部分のお作法については一律学校で教える内容でも無いのですが,そのことで上手く処理できたケースもあったりします.
みなさん既に成人なので,それも含めての自己責任なわけですから自身で判断し行動していただけたらと思います
で,タイトルの件ですが残念でもあり注意喚起の機会にもなり,当の本人にとって有益なのでシェアしておきます
皆さんが学んでいる看護学科ですが看護学部に設置されるケースだけではなく本学のように医学部に設置されるケースもあります.また保健学部というケースもあります.
ただし「保険」を含む名称は私は聞いたことがありません.ですので,あまりよろしくない間違いなのでお気を付けください.
計算間違えてる気がしたので・・・
数名おられました.お一人だけですが正しい答えなのに,区間推定の範囲内に母平均が含まれていないことを疑問に思っている方がおられました.
疑問を持つことは良いことで,今回の場合は100%含まれることは無いということを実感してもらうためですので.
課題の回答例
第05回 推測統計(3)検定の原理
到達目標
5-1確率がどのような意味合いのものか理解する
5-2仮説検定の論理構成を説明できる
教科書P104-119
確率
ある事象が起こることが期待される度合い(割合)
試行 サイコロを振って3の目が出る(y or n)
確率 サイコロを振って3の目が出る(1/6)
繰り返し試行を行うと頻度割合はその事象の確率へ収束していく
生物を対象とした場合試行を繰り返せる?→無理な場合が多い→条件を近づけて繰り返したと見做す
検定
試行の結果は事実で正しい。かといってそれが常に正しい(真)とは限らない
次の試行以降で異なる結果がでる可能性を排除できない→永遠に試行を繰り返さないとならず法則が出せない
(故に異なる現象の起こる確率にたいして閾値を定めて、なかったことにして一般性を主張するスタイル)
事象の起こる確率が著しく低くても、実際に起こらないわけではない。
平均値の差の検定・・・平均値の推定との違いについて理解しておいてください.
推定の時は母平均・・・未知(故に標本から推定する)
検定の時は母平均・・・仮説に基づき設定(標本が仮説の範疇に収まるか否か検定する)
区間推定との違い
母数を推定したいという話が推定
検定は母数と異なることを検証(新しい手法が確かにこれまでの状況を変えたのか)
背理法
命題の否定を仮定して話をすすめて、その矛盾を示すことで命題が成り立つとする論法
差のあることを証明するにあたって「差が無いことを」を証明できないことを根拠にする
(差(違い)を定義するにも区間推定で明らかなように,確率一定でも値は変化する)
<注>好きの反対は嫌い ではなく無関心という考え方.
仮説検定
教科書P105-
<大前提>やみくもに検定するのではなく、検定する理由・確信があるから確かめる という感じで
手順1:仮説をたてる(帰無仮説H0および対立仮説H1)
背理法に基づく証明をしている。
(差がない仮説が証明できないので、その対立である差がある仮説を採択する)
手順2:検定統計量を計算する
その事象の起こる確率を計算していることになるが、用いる確率分布によって計算式が異なる。
(実データを確率の世界のスケールに変換)
手順3:有意水準を決める
確率的に必然と偶然を切り分けている。一般に5%で分けているが1%の時もある
手順4:有意水準と比較し、仮説を棄却採択する
例)帰無仮説H0を棄却し対立仮説H1採択
例)判定保留 or(P112参照のこと)
もともと「仮説」ありきなので仮説の無い検定は×
両側検定片側検定
P108
一緒な有意水準で比較した場合 片側は棄却域が存在しないことと,他方は棄却域が大きくなってしまう → 帰無仮説が棄却されやすくなる状況
有意水準は常に0.05?
P109
αエラー βエラー
教科書P215
第一種の過誤
αエラーの起こる確率(誤って有意差があると判定)=有意水準
エラーを気にしなければいつの日か、都合の良い結論が得られるかもしれない → 雨乞い
故にやみくもに検定するのではなく、至るまでのストーリーが大切
第二種の過誤(βエラー)・・・誤って一緒と判定する確率
βエラーの起こる確率(誤って有意差が無いと判定)=検出できない=1-検出力(Power)=β
検出力=1-β
サンプル数↑・・・検出力↑・・・β↓
一般に検出力0.8~0.9で違いを見積もった上でサンプル数を決定する
検出力をが上がるとβエラーの確率は下がるが,統計的有意差と臨床的有意差の話が出てくる.
平均値の差の検定に用いる確率分布の話
推定の場合と同様に正規分布・t分布の話
母平均と母分散が既知
P116
正規分布
母分散が未知
P117
t分布
1群の場合 帰無仮説・・・母平均に対して標本の平均は一緒
2群の場合 帰無仮説・・・二つの群の平均は一緒・・・データの差の平均 μ=0
対応のない集団
P126
それぞれの群の平均の差
対応のある集団
P129
個体の前後差をそれぞれ求めて,その差の平均
paired t検定
集団それぞれの個体の前後の差を求めて検定
本日の課題(提出不要)
2017年国民栄養基礎調査によると成人のヘモグロビンA1c(NGSP)(%)の平均値及び標準偏差はそれぞれ,5.80 0.70だった.
糖尿病予防の取り組みを行っている会社の従業員100人を対象に測定し平均を求めたところ5.65だった.
有意に異なるといえるか有意水準5%で両側検定せよ.
補足
仮説検定のフォーマット例
手順1
帰無仮説H0:μ=100 対立仮説H1:μ≠100
↓
手順2
検定統計量(ex.z t)=・・・・・
↓
手順3
有意水準 両側5%としz検定を行う
↓
手順4
検定統計量との比較,もしくは確率の比較により,今回の標本が棄却域にあるのか否か(受容域なのか)判定する.
|z|=3.96>1.96 (有意水準両側5%ならば片側2.5%なので)
帰無仮説を棄却し対立仮説を採択する
有意差がある
例2)
|z|=1.45<1.96 (有意水準両側5%ならば片側2.5%なので)
帰無仮説は棄却されない
判定を保留する
有意差があるとは言えない
第06回 推測統計(4)平均値の検定,区間推定(t分布)
到達目標
6-1t分布と標準正規分布の違いを説明できる
6-2t分布を用いた検定,推定を行うことが出来る
教科書
P96-98
P123-128,196
標準正規分布とt分布
母集団の状況などわからないことの方が多い
母標準偏差が既知の場合の区間推定
95%の区間推定ならば標本から求めた平均値=母平均の点推定±1.96σ/√n
母標準偏差が未知の場合の区間推定
正規分布は母平均値と母標準偏差が分からないと使えない
nが少ない場合は近似できない→t分布(標本の自由度νさえわかっていれば、後は検定統計量を求めれば確率がわかる)
nが多い場合標本平均と標本標準偏差(不偏標準偏差))で近似できるが
t分布
2群の平均値の推定や検定において,標準正規分布を使うと上手くいかない・・・特に標本数が少ないと
困っていたゴセットさんが標本数によって平均値の出現する確率が変化する分布を示しました.
諸々の理由でt分布と呼ばれています.
酒井 弘憲,ギネスビールと統計家ペンネーム スチューデント,ファルマシア51巻12号,2015 https://www.jstage.jst.go.jp/article/faruawpsj/51/12/51_1168/_article/-char/ja |
故に標本数が多くなるとt分布は正規分布に近似されていく.
t分布のPDF版はコチラから
「自由度」νが出てきますが,以下考え方
標本の中で自由に振る舞うことが許されている値の数例えば標本から平均を求めたとき,その平均が母数の推定値としたら、自由に振る舞えない値が出てくる(つじつま合わせ)
検定統計量
母平均の推定,検定の場合なので標準偏差を標準誤差に置き換えていますz=(xbar-μ0)/(σ0/√n)
t=(xbar-μ0)/(s/√n)
※(sは標本より求めた不偏分散に基づく母標準偏差の推定値)
例題
それぞれの標本から母平均の95%の信頼区間を求めよ(母標準偏差は未知とします)回答例
パラメトリックとノンパラメトリック
教科書P124
分布の形状(母数)に依存する統計量(平均値 標準偏差・・・量的変量)分布の形状(母数)に依存しない統計量(順位 中央値 パーセント値・・・質的変量)
パラメトリック検定・・・計測値の分布を仮定
ノンパラメトリック検定・・・計測値の分布によらない
2群の差の検定
この講義では2標本t検定(関連2群)のみ研鑽については取り扱います. 但し独立2群との違い(何を行っているのか)については講義の範囲に含みます2標本t検定(関連2群)
paired-tと呼ばれますが. 教科書によって1標本t検定と書いているケースもあります私としては同一の標本を対象に2回データを取得してそれぞれの差をとるので一標本t検定のほうがしっくりきますが,ここでは採用している教科書の表記に合わせます
2標本t検定(独立2群)
こちらの場合は、教科書的にはF検定で等分散を確認してからの手順になる。最初からウェルチのt検定でというのが適当というのが私の解釈
関連2群との違いは,それぞれの標本の分散が異なるので合成する必要があること
課題(提出不要)
以下のデータについて介入による影響があったか否か有意水準5%で両側検定を行え回答例
第07回 人口統計(1)静態統計,動態統計
到達目標7-1静態統計,動態統計の違いを説明できる
7-2率を求めることが出来る
教科書 P168-179
静態統計と動態統計
静態統計
ある時点での対象の状況そのものを調査動態統計
ある期間での対象の状況の変化を調査人口静態統計調査について
5年毎(10年毎の大規模調査と簡易調査)人口動態統計調査について
毎年(期間=1年)人口静態
126,146,099人(令和2年国勢調査)奈良県は1,324,473人(同上)
(奈良県の医療を取り巻く状況について より)
年齢3区分
年少人口 ・・・0~14歳生産年齢人口・・・15~64歳
老年人口 ・・・65歳以上
扶養負担の指標
年少人口指数・・・年少人口/生産年齢人口×100 老年人口指数・・・老年人口/生産年齢人口×100 従属人口指数・・・(年少人口+老年人口)/生産年齢人口×100高齢化進行状況の指標
老年化指数 ・・・老年人口/年少人口×100人口ピラミッド
年次毎の出生数がベースとなり持ち上がっていく格好ただし人口ピラミッドが人口増減の要因について全てカバーできるわけでもない
(社会人になってみた(頃を客観的に振り返る話) より)
出生
再生産率の3指標
出生率
期間合計特殊出生率=Σ(対象年次における年齢別出生数/女子人口) 年齢は15歳~49歳(算出は年次毎)コーホート合計特殊出生率=Σ(対象世代の年齢別出生数/女子人口) 年齢は15歳~49歳(算出に期間(49歳になるまで)を要する)
総再生産率(出生女児を対象)
総再生産率=Σ(対象年次における年齢別女児出生数/女子人口) 年齢は15歳~49歳(算出は年次毎)純再生産率(出生女児のうち母親の年齢まで生存する女児を対象)
純再生産率=Σ{(対象年次における年齢別女児出生数/女子人口)× (年齢別女子生命表の定常人口/10万人) 年齢は15歳~49歳(算出は年次毎)}比と率と割合(比率)と
ここら辺の理解について整理しておいてくださいごちゃごちゃに整理される原因は割合=比率という整理になっているところだと思います
比
ratio異なるもので割ったもの・・・単位は無次元の場合もある
例)BMI(Body Mass Index)
身長の二乗(m^2)に対する体重(kg)の比
身長170cmで体重70kgの人のBMI・・・70/(1.7^2)≒24.2
検査表の見方(日本人間ドック学会)
http://www.ningen-dock.jp/public/method
率
rate時間に対する何かの量の比・・・単位は無次元の場合もある
変化を表す指標
例)時速
マラソン(42.195km)を2時間6分で走った場合の時速・・・42.195/2.1≒20.1km/h
100m走を10秒で走った場合の時速・・・0.1/(10/3600)=36km/h
無次元の例としては稼働率
稼働率(JIT基本用語集)
http://www.lean-manufacturing-japan.jp/jit/cat241/post-74.html
時間を時間で割るので無次元
割合(比率)
proportion全体に対してその一部がどの程度占めるか割ったもの・・・単位は無次元になる
0~1の間の値をとるpercentで表示したりする。100%を超えるのは本来おかしい
例)日本人の血液型の割合
A型 約40%
B型 約20%
O型 約30%
AB型 約10%
人年法
一人の人を一年観察したとき1人年人年に対する何かの量の比・・・率になる
例)5人の患者を1年間観察していた時に二人死亡
Aさん 1年後生存
Bさん 3ヶ月後に死亡
Cさん 9ヶ月後に死亡
Dさん 1年後生存
Eさん 1年後生存
本来の死亡率算出
観察人年=1+0.25+0.75+1+1=4人年その間の死亡数が2なので
2/4=0.5 「死亡率(1人年あたり)0.5」
2/4*1000=500「死亡率(1000人年あたり)500」
年央人口を用いる方法
6ヶ月経過の時点での生存者4人1年経過後の集団の死亡数が2なので
2/4=0.5 「1人年対0.5の死亡率」
参考資料
厚生労働統計に用いる主な比率及び用語の解説(厚生労働省)http://www.mhlw.go.jp/toukei/kaisetu/index-hw.html
人年法の計算と利用方法,青木伸雄,日本循環器管理研究協議会雑誌 26(1),64-66,1991
https://www.jstage.jst.go.jp/article/jjcdp1974/26/1/26_1_64/_article/-char/ja/
本日の課題(提出不要)
国勢調査のデータより,全国,奈良県,橿原市,野迫川村の年少人口指数,老年人口指数,従属人口指数,老年化指数を求めよ
第08回 人口統計(2)直接法,間接法
到達目標8-1SMRの計算ができる
8-2直接法と間接法の違いを説明できる
教科書P180-182
集団間の比較において年齢構成による影響をを除く話
年齢調整死亡率
年齢によって死亡率が変わるのは自明年齢で区切って死亡率を評価する
直接法
モデル人口を用意して観察集団の年齢階級別(粗)死亡率をモデル人口における対象とする年齢階級の割合を乗ずる方法例題 A市
年齢階級 | 死亡率(人口10万対) |
---|---|
年少人口(~15) | 60 |
生産年齢人口(15~65) | 250 |
老年人口(65~) | 3000 |
年齢階級 | 死亡率(人口10万対) |
---|---|
年少人口(~15) | 50 |
生産年齢人口(15~65) | 200 |
老年人口(65~) | 4500 |
年齢階級 | 人口 |
---|---|
年少人口(~15) | 25,015,000 |
生産年齢人口(15~65) | 82,654,000 |
老年人口(65~) | 12,618,000 |
総人口 | 120,287,000 |
昭和60年モデル資料
平成29年度人口動態統計特殊報告 平成27年都道府県別年齢調整死亡率の概況(厚生労働省)https://www.mhlw.go.jp/toukei/saikin/hw/jinkou/other/15sibou/index.html
「1.年齢調整死亡率について」を参照
間接法
モデル人口を用意してモデル人口における年齢階級別死亡率を観察集団の年齢階級別人口を乗ずる全年齢の死亡数を求め積算したもので,観察集団の死亡数を除する.
例題 C市
年齢階級 | 人口構成 | 死亡期待数 | 実際の死亡数 | SMR |
---|---|---|---|---|
年少人口(~15) | 130,000 | ----- | ----- | |
生産年齢人口(15~65) | 700,000 | ----- | ----- | |
老年人口(65~) | 200,000 | ----- | ----- | |
計 | 1,030,000 | 9,000 |
年齢階級 | 人口構成 | 死亡期待数 | 実際の死亡数 | SMR |
---|---|---|---|---|
年少人口(~15) | 200,000 | ----- | ----- | |
生産年齢人口(15~65) | 500,000 | ----- | ----- | |
老年人口(65~) | 330,000 | ----- | ----- | |
計 | 1,030,000 | 9,000 |
年齢階級 | 人口10万対 |
---|---|
年少人口(~15) | 40 |
生産年齢人口(15~65) | 200 |
老年人口(65~) | 3,000 |
課題(提出不要)
1)例題のA市B市の年齢調整死亡率を算出・比較し,直接法の利点・欠点について考察せよ2)例題のC市D市のSMRを算出・比較し,間接法の利点・欠点について考察せよ