奈良県立医科大学 保健統計学I2023
(医学部看護学科)

もしオンライン開講になる場合は,teamsで実施します.
出欠は対面講義の場合は出欠システム(学生証)で,オンラインの場合は授業内で確認します.
課題の提出状況については,出欠システムのところで表示するようにします.
9/1の1時限目 1回目の授業の課題
9/2の1時限目 2回目の授業の課題

評価は問題無しが○(出席) ちょっと問題ありが△(遅刻) 未提出が×(欠席) 
授業への出席は開講期間の部分でご確認ください 開講期間外の9月分はあくまでも上記のように課題の提出状況を示していますので勘違いされない様よろしくお願いします

授業メニュー

対面形式での授業の予定です.
配布シラバスを一部変更します.
第01回 記述統計(1)尺度とデータ形式,度数分布,ヒストグラム

第02回 記述統計(2)代表値・散布度・箱ひげ図

第03回 推測統計(1)点推定(平均)

第04回 推測統計(2)点推定(分散),区間推定(正規分布)

第05回 推測統計(3)検定の原理

第06回 推測統計(4)平均値の検定,区間推定(t分布)

第07回 人口統計(1)静態統計,動態統計

第08回 人口統計(2)直接法,間接法

第01回 記述統計(1)尺度・度数分布・ヒストグラム

到達目標
1-1 4つの尺度について説明できる
1-2 度数分布表を作成できる

教科書1)P2-P8,P16-23,P37

統計に用いるデータ

集団から個々のデータをとりまとめて示すので・・・
nmucommed2017-01.png(276444 byte)
奈良県立医科大学大学院看護学研究科 地域医療学(分担:データ分析編) より)
データは目的に応じて丸めたり切ったりしてしまう。故に二次利用の場合は注意が必要。
とりあえず収集してデータベース構築をすることが目的ならば、分析は既に二次利用。耐えうるデータを目指さなければ意味が無い
・一次データは情報源からダイレクトに取得するので粒度を目的にあわせてコントロールしている
・二次データは本来の目的と異なるデータ活用となるので、その目的に対してデータの粒度があわない事がある(細かい場合は粗くできるが粗いものは推定するしかない)
医療情報学の分野は二次利用がテーマ

記述統計と推測統計

記述統計とは

・収集したデータを要約してその集団の状況を表す
・そこにあるデータは全体(母集団)
・度数(分布)・代表値・散布度・相関係数など

推測統計とは

事象の起こる確率を仮定した上で全体(過去・現在だけではなく未来も含む)を推測する。推定と検定に分類される。
推定とは
・収集したデータを基にしてその集団の状況を表す
・そこにあるデータは一部(標本)
・点推定・区間推定・モデリング
検定とは
・収集したデータを基にしてその集団の状況を仮定に従ってyes/Noで判断する
・そこにあるデータは一部(標本)
・t検定・カイ二乗検定など

母集団と標本

母集団とは

対象としている集団の全体を指し示すときに「母」を最初に付ける。
無限母集団と有限母集団からなる。
対象が有限か無限に増殖するかの違い

標本とは

母集団の一部。
昆虫標本を思い浮かべると、偏りに注意する必要があることは自明。
参考
標本調査はサンプル抽出が命(The Huffington Post Japan)
http://www.huffingtonpost.jp/nissei-kisokenkyujyo/sample-survey_b_5878832.html

統計に用いるデータ

基本どのようなデータでも統計処理は出来る
出来ないのは,どのようなデータであっても一つしか存在しない時

データについて

レコード
症例,個体,被験者単位でまとめられたデータの塊.表の場合一行にその症例のすべてのデータを記していたらそれがレコード
変数(変量)
データの項目名のこと
データ
観測値や測定値のこと(数値)だけでなく性別など文字の場合もある.
コンピュータ処理するとき,文字だと扱いにくい時があるのでその時は数字に置き換える(→コード変換)
例えば都道府県名であれば 北海道→01 青森県→02 奈良県→29
全国地方公共団体コードの上二桁=都道府県番号
<参考>全国地方公共団体コード(総務省)
https://www.soumu.go.jp/denshijiti/code.html
都道府県番号に順列は存在しない.一方,文字で順列の存在するもの(松 竹 梅)はその法則にしたがった番号を振ることがあるので注意

変量(データ)の分類

変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。
それぞれを尺度と呼び、4つに分類するのが一般的である
1分類尺度(名義尺度)
2順序尺度
3間隔尺度
4比尺度(比例)(比率)

1,2を質的変量(定性的)
3,4を量的変量(定量的)
性質としては上位互換性があり
4>3>2>1

統計量

取りまとめたものを「量で」示したもの.質的変数であっても度数(個数,人数など数えるもの)については「量」として示すことが出来る

度数

どのようなデータでも度数を示すことは可能
度数分布表
それぞれのデータ(変量)の数(出現頻度)をまとめたもの
変量が名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数  ・・・出現頻度
相対度数・・・総出現頻度を1(100%)としたときのそのぞれの度数のしめる割合
累積度数・・・上位の変量の度数もあわせた度数
累積相対度数・・・累積度数の相対版
例題
1)以下の店名別のみかんの売り上げデータより度数分布表を作成せよ
日付 店名 数量(箱)
9月上期 奈良本店 1400
9月上期 大和郡山店 850
9月上期 生駒店 1200
9月上期 大和高田店 750
9月上期 五條店 800
9月下期 奈良本店 500
9月下期 大和郡山店 1250
9月下期 生駒店 1000
9月下期 大和高田店 1250
9月下期 五條店 1000

店名 度数 相対度数 累積度数 累積相対度数
 
 
 
 
  1.00
1.00 ----- -----
2)9月上期と下期を比較するための度数分布表を作成する場合,どのような配慮があると見易くなるか
量的変数の度数分布表
量的変数の場合はその数値だけで度数を積み上げようにもなかなか上手くいかない場合がある.
血圧 163.5mmHg 164.2mmHg 162.5mmHg・・・どれも度数を積み上げられない → 区間を設定する
「A~B」は「A以上B未満」と読む格好と思っていたが,分野などによって違うようです
「A以上B以下」のようにどちらの階級にも属してしまう可能性のある設定はしないように.
階級 階級値 度数 相対度数 累積度数 累積相対度数
130~140 135
140~150 145
150~160 155
160~170 165
170~180 175
----- -----
度数分布図
質的変数・・・縦棒グラフ
nmuhimstat2021-01.png(3771 byte)
量的変数・・・ヒストグラム
nmuhimstat2021-02.png(3656 byte)
棒の間隔が無いのは値が連続している状態であるが故
普通の棒グラフは棒の長さが度数を示すが,ヒストグラムは棒の面積が度数を示す
「階級の幅を等しくすること」と説明している場合があるが,それは幅が変わると高さが変わる故で,実際にはそのような区間設定はよくある
以下の参考資料に区間幅の異なるヒストグラムについても説明なされているのでよろしければごらんください
ヒストグラムーなるほど統計学園(総務省統計局)
https://www.stat.go.jp/naruhodo/4_graph/shokyu/histogram.html
課題
次の度数分布表の空欄部を埋めて完成させよ
階級 階級値 度数 相対度数 累積度数 累積相対度数
130~140 135 30
140~150 145 0.225 48
150~160 155 0.15
160~170 165 0.75
170~180 175
----- -----
課題はteamsのチャット機能で提出した場合は加点対象とする.ノートなどで解き写真を貼り付けること.
授業終了後24時間以内に提出の事
課題解答例
nmuhlthstat1_2023-0101.png(6792 byte)

第02回 記述統計(2)代表値・散布度・箱ひげ図

到達目標
2-1 代表値の算出及び特性について説明できる
2-2 散布度の算出及び特性について説明できる

教科書1)P24-43

代表値

average(その集団でとりまとめたデータを数値一つで表す。excelはaverage関数で算術平均を出すが、代表値の代表ということだからと解釈しています)

平均

算術平均
mean(算術平均以外にも相乗平均などもあります)
1/n・Σxi
パレートの法則(80-20の法則)
代表値なのに実在しない場合がある → 集団の指標(重心)であって、事象を代表する値そのものを示しているとは限らない
幾何平均(相乗平均)

全て掛け合わせて累乗根をとる
加重平均
重みづけ平均
例えば ミニテストと期末試験の平均をとる → そのままの平均で良いの?
度数分布表を用いた平均もこの方法・・・Σ(階級値×階級の度数)/n
先週の度数分布表より平均を求めると・・・150,25

中央値

median(別名第2四分位数)
量的変量を順序尺度で処理した代表値
順番に並べたとき真ん中の順位にきた個体の値
個体数が偶数の時は真ん中2つの数値の平均値

最頻値

mode(流行,はやり)
違う意味で数の理論(多数決)の世界
量的変量を名義尺度で処理した代表値
名義尺度でわかることは一緒か違うか
階級毎に度数をカウント
一番多いところの階級値
一位が同点の時は併記
平均値と中央値の考え方の違い
nmuhimstat2021-11.png(10453 byte)
平均値(14.55)
nmuhlthstat202102-01.png(21147 byte)
こちらは分布なんて関係なく中央値(15) データの分布に依存する(パラメトリック)=平均値 と データの分布に依存しない(ノンパラメトリック)=中央値,最頻値の関係がわかるかなと思います
例えば5が0に変わってしまうと平均値は大きく変わりますが,中央値は変わりません
パラメトリック・・・数値に依存する(数値の分布によって値が影響を受ける)というとイメージしやすいのかな?

散布度

dispersion

最大値と最小値を使う

最大値と最小値がわかればその集団のバラツキがわかる
最大値maximum excel max関数
最小値minimum excel min関数
範囲
Range
R=最大値-最小値

特徴
 外れ値もひらう
 算出が用意

四分位範囲

小さい順(昇順)に並べて集団を4分割
分割する所の値を小さい方から第1四分位数(Q1),第2四分位数(Q2)=中央値,第3四分位数(Q3) 四分位範囲IQR(interquartile range)=Q3-Q1
四分位数の話
四分位数は出し方が何種類かありますが,基本的な考え方はtukeyの上ヒンジ 下ヒンジの話が一番理解しやすいのかなと思います.(高校で習っているものとは違いますが)

箱ひげ図

四分位範囲をグラフ化
nmuhimstat2021-09.png(8898 byte)

平均値を使う

mean
偏差
Deviation
もともとは標準となる数値からのズレ(偏り)を意味するものだが統計の世界では集団の平均値からのズレを示す
偏差の平均をとれば集団内の各々のズレっぷりがわかる → 合計は常に0 故に平均も常に0

分散
variance
V excel関数はVAR
偏差を二乗したものの平均
標準偏差
Standard Deviation
記号は標本標準偏差s 母標準偏差σ
s=√V
(故にVはs^2やσ^2で表現する)
nmubiostat2016-0302.png(3064 byte)

記述統計と推測統計

対象としている集団が全体の一部だった時,全体を推測しなければ全体の事は語れない
平均値は全体を推測する際にそのまま用いても良いのだが,標準偏差はそのようなわけにいかない nmuhlthstat1_2023-0201.png(18729 byte)

課題

nmubiostat202102-01.png(7088 byte)
上記のデータの拡張期血圧のデータを用いて
1)平均値を求めよ
2)中央値を求めよ
3)標準偏差を求めよ
4)度数分布表を作成し,表より平均値を求めよ
階級 階級値 度数 相対度数 累積度数 累積相対度数
70~80 75
80~90 85
90~100 95
100~110 105
----- -----
課題はteamsのチャット機能で提出した場合は加点対象とする.ノートなどで解き写真を貼り付けること.
授業終了後24時間以内に提出の事

課題解答例

nmuhlthstat1_2023-0202.png(14007 byte)

課題誤答

問1
平均値の計算間違い・・・74.97
無回答
問2
無回答
問3
分散のみを記載
分散から求めた標準偏差からさらに平方根をとっている
偏差平方和の平方根を取ってからnで割っている
計算間違 9.359 9.975
問4
誤答ではないです・・・度数分布表の階級を「以上未満」ではなく「超えて以下」のものがあった.→平均値も変わります(その場合は90)
以下は誤答
無回答
度数分布表は良いが,平均値を求めていない
度数分布表の累積相対度数が間違っている
平均を求める数式が間違っている

>第03回 推測統計(1)点推定(平均)

到達目標
3-1 なぜ標本より求めた平均をそのまま母平均の推定値として良いのか説明できる

教科書1)P29,67,88,91,195(付表1)

推定

母集団から抽出した標本を基に母集団の分布を示す値(母数)を推測する
点推定と区間推定がある

説明用データ

excelのRANDBETWEEN(110,140)をベースに一部調整したデータになります.
母集団は20000人からなり収縮期血圧を整数だけで記録される血圧計を用いた という想定です
母数(母集団の統計量)ですが母平均は125.0 母分散は80.97になりました
このデータはサイコロの目が均等にでるのと同様に以下のように収縮期血圧データは110から140まで均等に出現しています.
medbbstat2022-0207.png(5259 byte)
ただし,実際にある集団に対して収縮期血圧を測定するとその血圧データの分布はそのような形になりません
諸々の事情(説明を理解しやすく)を含めて設定したのですが実際とは異なる振る舞いをしているであろうことだけ承知しておいてください.
medbbstat2022-0208.png(122886 byte)
日本人の健康・栄養状態のモニタリングを目的とした国民健康・栄養調査のあり方に関する研究(厚生労働科学研究成果データベース)(https://mhlw-grants.niph.go.jp/project/23935)を加工して作成

<参考>日本人の健康・栄養状態のモニタリングを目的とした国民健康・栄養調査のあり方に関する研究(厚生労働科学研究成果データベース)
https://mhlw-grants.niph.go.jp/project/23935
の平成24年度~26年度 総合研究報告書のP108図1の部分を取り出して加工したものが上記になります
https://mhlw-grants.niph.go.jp/system/files/2014/143031/201412017B/201412017B0006.pdf

点推定とは

一つの数値(点)で推定値を示すこと
欠点:推定値と真の値がどの程度ズレているのかよくわからない
利点:区間推定よりも簡単に算出できる
推定をしても必ず一致するわけでもない→せめて偏りなくバラついてほしい→母数の期待値と推定値の期待値が一緒=不偏推定量

母平均の点推定

標本から求めた平均値は母集団の平均値の不偏推定量か?
以下は20000のデータから標本数10の平均値を求めたもの(標本数2000)をヒストグラムにしたもの
medbbstat2022-0202.png(96791 byte)
標本平均の平均 125.0 =(本来知らないハズの)母平均
125.0未満の標本平均になった標本の数 1000(50.0%)
標本平均が125.0になった標本数 22(1.1%)
125.0を超えた標本平均になった標本の数978(48.9%)

中心極限定理

標本の大きさが十分であれば標本平均の分布は正規分布
 →正しく測定されているのであれば偶然誤差の発生は正規分布に従う
 →測定回数を増やせば増やすほど

正規分布

左右対称の釣鐘状分布
平均値に近いほど出現率が高く遠ざかるに従って低くなる(ことが多い)
同じ事柄を同じ条件で繰り返すと正規分布になるという話→中心極限定理
「異質な集団の計測値が組み合わさった分布は正規分布とならない」(教科書P33)
正規分布っぽい形状の判断→P28 歪度 尖度を参照
標準正規分布
平均値が0標準偏差=1(分散も1)になるように値を変換したもの
偏差値は平均値を50、標準偏差=10になるように値を変換したもの
両者の関係
偏差値=50+10×z
標準正規分布表
kuswepi2021-01.png(339177 byte)
標準正規分布表のPDF版はコチラから

課題
課題はteamsのチャット機能で提出すること.評価の対象とする.ノートなどで解き写真を貼り付けること.
授業終了後24時間以内に提出の事
テストの点が正規分布に従うとして
10000人でテストを行い平均点60点,標準偏差16の試験で84点(偏差値は65 ZスコアはZ=1.5)を取っていたのであれば,その順位は668番目となる
では,96点では?

補足

課題の評価について

誤答および以下については減点しています

チャットに文字を直打ちした方は減点しています(指示に従っていないので)

提出期限内に提出されなかった方についても同様に減点しています

課題の誤答例

ともに標準正規分布表の読み方について理解されていなかったように思います.

勝手にz値を小数点一桁にして計算

Z値2.2と2.3の平均値をとって算出

課題に関する学生からの質問と回答

偏差値は計算できるがZ値の求め方がわからない

質問文は:「偏差値を出すときに公式で出したが公式を使わないときの考え方が分からない」となっていましたが,提出物を見ると偏差値を自分で求めたあとにZ値を公式に当てはめ逆算しているように見えたので,その内容に合わせた返信をしています
nmuhlthstat1_2023-0301.png(178429 byte)

zスコアが2.25になったので2.2と2.3の間を取ったのですが、小数第2位のように正規分布に書かれたいない値の場合は

先の誤答例に含まれますが,当該学生は具体的に妙なところに疑問を持ち質問しているので減点していません.
nmuhlthstat1_2023-0302.png(121741 byte)

第04回 推測統計(2)点推定(分散)),区間推定(正規分布)

到達目標
4-1 なぜ標本より求めた分散をそのまま母分散の推定値としたらダメなのか説明できる

教科書1)91,195(付表1)

母分散の点推定

標本から求めた分散は母集団の分散の不偏推定量となるのか?

標本の平均値から求めた分散

以下は20000のデータから標本毎に求めた平均(標本平均)を用いて分散を求めたもの(標本数2000)をヒストグラムにしたもの
medbbstat2022-0203.png(135831 byte)
母分散の値よりも低く出る標本が多い→偏っている
標本より求めた分散の期待値(平均)72.96 ≠ 80.97(本来知らないハズの)母分散

母平均から求めた分散

それでは母平均を用いて標本ごとの分散を求めると以下のようになる
medbbstat2022-0204.png(137439 byte)
母平均より求めた分散の期待値(平均)80.97 = 80.97(本来知らないハズの)母分散
偏っていない推定が出来るが,そもそも母平均を用いることが出来るのであれば・・・

不偏分散(標本の平均を用いて母分散の推定を行う)

標本の平均を用いて計算すると,どうしても分散は小さくなる(母平均を用いたものと比較して))
<参考>不偏分散は何故nではなく(n-1)で除するのか(生物統計学2018奈良医大)
https://medbb.net/education/nmubiostat2018/index.html#VAR
不偏分散の期待値(平均)81.06 ≒ 80.97(本来知らないハズの)母分散
ということで,標本平均を用いて母分散の推定を行うには,少し値を大きくしないといけない
上記の<参考は>母平均を用いた式を標本平均に置き換えて式を変化させた話 → 結論は偏差平方和を標本数nではなくn-1で除すると良い
medbbstat2022-0205.png(146106 byte)

標本より求めた統計量(一部)

medbbstat2022-0201.png(148003 byte)

区間推定

点推定に幅をもたせたもの.
幅の定義は確率(どの程度あたるものか)
∴100%あたる推定に意味は無い→確実に当たる幅を設定したら達成できるので
一般的に95%の確率で当たる区間(95%の信頼区間)で幅を決めている
例題
10000人でテストを行ったところ点数の分布は正規分布に従っており平均点60点,標準偏差16だった.
全体の95%(上位2.5%,下位2.5%を除いた)を抽出するには何点以上 何点未満にすれば良いか
(下限の値)≦μ≦(上限の値)

平均値の区間推定

平均値の区間推定については標準誤差を基準に計算する

標準偏差と標準誤差

・標準偏差は標本の分布のバラツキ具合を示したもの
・標準誤差は母集団から抽出した標本の平均値のバラツキ具合
SE=σ/√n
標準誤差SEはなぜ標準偏差σを√nで除するのか
標準誤差は母平均に対する標本平均のバラつき指標(標準偏差)の話
対象が母集団全体ならば0だが,母平均(μ)と標本平均(xbar)には差が生じる
ある標本における平均値と母平均の偏差平方は
(xbar-μ)
=((1/n)Σx-μ)
=((1/n)Σx-(1/n)Σμ)
=((1/n)Σ(x-μ))
=(1/n)(1/n)Σ(x-μ)
 -----
 ここで
 (1/n)Σ(x-μ)
 をσとおくと
 -----
=σ/n
故に標準誤差は
SE=σ/√n

課題
課題はteamsのチャット機能で提出すること.評価の対象とする.ノートなどで解き写真を貼り付けること.
授業終了後24時間以内に提出の事
また,答えに至る過程が記されていないものは減点対象とする. EXCEL等の計算ソフトの関数は用いないこと.
計算過程を明らかにすること.
それぞれの標本から求めた母平均と既知の母分散(80.97)を用いて95%の信頼区間を求めよ
nmuhlthstat1_2023-0401.png(10936 byte)
補足

課題の評価について

授業を欠席されていた方

課題も未提出として取り扱っています.
(公欠の場合は課題についても公欠の取り扱いをしていますので届け出をしてください)

誤答および以下については減点しています

標準誤差を用いていない
標準偏差のまま
分散を√nで除している
その他
範囲上限,下限の意味を理解していないような区間
標準偏差がいきなり出現している
区間推定の際に95%の信頼区間ではなく63%の信頼区間で求めている
あきらかな計算間違え

評価とは関係ないところで

「保健統計学」なのに「保険統計学」と書いてくる人がいる
 課題提出の際に写真だけ貼り付けてくる人もおられますが,大半は課題の提出の旨など要件や氏名,ご挨拶など書かれる方が多いです.
その部分のお作法については一律学校で教える内容でも無いのですが,そのことで上手く処理できたケースもあったりします.
みなさん既に成人なので,それも含めての自己責任なわけですから自身で判断し行動していただけたらと思います

で,タイトルの件ですが残念でもあり注意喚起の機会にもなり,当の本人にとって有益なのでシェアしておきます
皆さんが学んでいる看護学科ですが看護学部に設置されるケースだけではなく本学のように医学部に設置されるケースもあります.また保健学部というケースもあります.
ただし「保険」を含む名称は私は聞いたことがありません.ですので,あまりよろしくない間違いなのでお気を付けください.
計算間違えてる気がしたので・・・
数名おられました.お一人だけですが正しい答えなのに,区間推定の範囲内に母平均が含まれていないことを疑問に思っている方がおられました.
疑問を持つことは良いことで,今回の場合は100%含まれることは無いということを実感してもらうためですので.

課題の回答例

nmuhlthstat1_2023-0402.png(23400 byte)

第05回 推測統計(3)検定の原理

到達目標
5-1確率がどのような意味合いのものか理解する
5-2仮説検定の論理構成を説明できる

教科書P104-119

確率

ある事象が起こることが期待される度合い(割合)
試行 サイコロを振って3の目が出る(y or n)
確率 サイコロを振って3の目が出る(1/6)
繰り返し試行を行うと頻度割合はその事象の確率へ収束していく
生物を対象とした場合試行を繰り返せる?→無理な場合が多い→条件を近づけて繰り返したと見做す

検定

試行の結果は事実で正しい。かといってそれが常に正しい(真)とは限らない
次の試行以降で異なる結果がでる可能性を排除できない→永遠に試行を繰り返さないとならず法則が出せない
(故に異なる現象の起こる確率にたいして閾値を定めて、なかったことにして一般性を主張するスタイル)
事象の起こる確率が著しく低くても、実際に起こらないわけではない。

orcstat2020-0603.png(12754 byte)
平均値の差の検定・・・平均値の推定との違いについて理解しておいてください.
推定の時は母平均・・・未知(故に標本から推定する)
検定の時は母平均・・・仮説に基づき設定(標本が仮説の範疇に収まるか否か検定する)

区間推定との違い

母数を推定したいという話が推定
検定は母数と異なることを検証(新しい手法が確かにこれまでの状況を変えたのか)
orcstat2020-0602.png(17719 byte)

背理法

命題の否定を仮定して話をすすめて、その矛盾を示すことで命題が成り立つとする論法
差のあることを証明するにあたって「差が無いことを」を証明できないことを根拠にする
(差(違い)を定義するにも区間推定で明らかなように,確率一定でも値は変化する)
<注>好きの反対は嫌い ではなく無関心という考え方.

仮説検定

教科書P105-
<大前提>やみくもに検定するのではなく、検定する理由・確信があるから確かめる という感じで

手順1:仮説をたてる(帰無仮説H0および対立仮説H1)

背理法に基づく証明をしている。
(差がない仮説が証明できないので、その対立である差がある仮説を採択する)

手順2:検定統計量を計算する

その事象の起こる確率を計算していることになるが、用いる確率分布によって計算式が異なる。
(実データを確率の世界のスケールに変換)

手順3:有意水準を決める

確率的に必然と偶然を切り分けている。一般に5%で分けているが1%の時もある

手順4:有意水準と比較し、仮説を棄却採択する

例)帰無仮説H0を棄却し対立仮説H1採択
例)判定保留 or(P112参照のこと)
もともと「仮説」ありきなので仮説の無い検定は×


両側検定片側検定

P108
一緒な有意水準で比較した場合 片側は棄却域が存在しないことと,他方は棄却域が大きくなってしまう → 帰無仮説が棄却されやすくなる状況

有意水準は常に0.05?

P109

αエラー βエラー

教科書P215

第一種の過誤
αエラーの起こる確率(誤って有意差があると判定)=有意水準
エラーを気にしなければいつの日か、都合の良い結論が得られるかもしれない → 雨乞い
故にやみくもに検定するのではなく、至るまでのストーリーが大切
第二種の過誤(βエラー)・・・誤って一緒と判定する確率
βエラーの起こる確率(誤って有意差が無いと判定)=検出できない=1-検出力(Power)=β
検出力=1-β
サンプル数↑・・・検出力↑・・・β↓
一般に検出力0.8~0.9で違いを見積もった上でサンプル数を決定する
検出力をが上がるとβエラーの確率は下がるが,統計的有意差と臨床的有意差の話が出てくる.

平均値の差の検定に用いる確率分布の話

推定の場合と同様に正規分布・t分布の話

母平均と母分散が既知

P116
正規分布

母分散が未知

P117
t分布
1群の場合 帰無仮説・・・母平均に対して標本の平均は一緒
2群の場合 帰無仮説・・・二つの群の平均は一緒・・・データの差の平均 μ=0
対応のない集団
P126
それぞれの群の平均の差
対応のある集団
P129
個体の前後差をそれぞれ求めて,その差の平均
paired t検定
集団それぞれの個体の前後の差を求めて検定

本日の課題(提出不要)

2017年国民栄養基礎調査によると成人のヘモグロビンA1c(NGSP)(%)の平均値及び標準偏差はそれぞれ,5.80 0.70だった.
糖尿病予防の取り組みを行っている会社の従業員100人を対象に測定し平均を求めたところ5.65だった.
有意に異なるといえるか有意水準5%で両側検定せよ.

補足

仮説検定のフォーマット例

手順1
帰無仮説H:μ=100 対立仮説H:μ≠100

手順2
検定統計量(ex.z t)=・・・・・ ↓
手順3
有意水準 両側5%としz検定を行う

手順4
検定統計量との比較,もしくは確率の比較により,今回の標本が棄却域にあるのか否か(受容域なのか)判定する.
|z|=3.96>1.96 (有意水準両側5%ならば片側2.5%なので)
帰無仮説を棄却し対立仮説を採択する
 有意差がある
例2)
|z|=1.45<1.96 (有意水準両側5%ならば片側2.5%なので)
帰無仮説は棄却されない
 判定を保留する
 有意差があるとは言えない

第06回 推測統計(4)平均値の検定,区間推定(t分布)

到達目標
6-1t分布と標準正規分布の違いを説明できる
6-2t分布を用いた検定,推定を行うことが出来る

教科書

P96-98 P123-128,196

標準正規分布とt分布

母集団の状況などわからないことの方が多い

母標準偏差が既知の場合の区間推定

95%の区間推定ならば標本から求めた平均値=母平均の点推定±1.96σ/√n

母標準偏差が未知の場合の区間推定

正規分布は母平均値と母標準偏差が分からないと使えない
nが少ない場合は近似できない→t分布(標本の自由度νさえわかっていれば、後は検定統計量を求めれば確率がわかる)
nが多い場合標本平均と標本標準偏差(不偏標準偏差))で近似できるが

t分布

2群の平均値の推定や検定において,標準正規分布を使うと上手くいかない・・・特に標本数が少ないと
困っていたゴセットさんが標本数によって平均値の出現する確率が変化する分布を示しました.
諸々の理由でt分布と呼ばれています.
酒井 弘憲,ギネスビールと統計家ペンネーム スチューデント,ファルマシア51巻12号,2015
https://www.jstage.jst.go.jp/article/faruawpsj/51/12/51_1168/_article/-char/ja
正規分布は母集団の分散(標準偏差)が必要で変化しないが,t分布は標本より求めた不偏分散を用いるが,標本の自由度(標本数より求める)によって変化する.
故に標本数が多くなるとt分布は正規分布に近似されていく.
nmuhims2022-01.png(169858 byte)
t分布のPDF版はコチラから

「自由度」νが出てきますが,以下考え方

標本の中で自由に振る舞うことが許されている値の数
例えば標本から平均を求めたとき,その平均が母数の推定値としたら、自由に振る舞えない値が出てくる(つじつま合わせ)

検定統計量

母平均の推定,検定の場合なので標準偏差を標準誤差に置き換えています
z=(xbar-μ0)/(σ0/√n)

t=(xbar-μ0)/(s/√n)
※(sは標本より求めた不偏分散に基づく母標準偏差の推定値)

例題

それぞれの標本から母平均の95%の信頼区間を求めよ(母標準偏差は未知とします)
nmuhlthstat1_2023-0602.png(4197 byte)

回答例

nmuhlthstat1_2023-0603.png(26372 byte)

パラメトリックとノンパラメトリック

教科書P124

分布の形状(母数)に依存する統計量(平均値 標準偏差・・・量的変量)
分布の形状(母数)に依存しない統計量(順位 中央値 パーセント値・・・質的変量)
パラメトリック検定・・・計測値の分布を仮定
ノンパラメトリック検定・・・計測値の分布によらない

2群の差の検定

この講義では2標本t検定(関連2群)のみ研鑽については取り扱います. 但し独立2群との違い(何を行っているのか)については講義の範囲に含みます

2標本t検定(関連2群)

paired-tと呼ばれますが. 教科書によって1標本t検定と書いているケースもあります
私としては同一の標本を対象に2回データを取得してそれぞれの差をとるので一標本t検定のほうがしっくりきますが,ここでは採用している教科書の表記に合わせます

2標本t検定(独立2群)

こちらの場合は、教科書的にはF検定で等分散を確認してからの手順になる。
最初からウェルチのt検定でというのが適当というのが私の解釈
関連2群との違いは,それぞれの標本の分散が異なるので合成する必要があること
課題(提出不要)
以下のデータについて介入による影響があったか否か有意水準5%で両側検定を行え
nmuhlthstat1_2023-0601.png(8057 byte)

回答例

nmuhlthstat1_2023-0604.png(4714 byte)

第07回 人口統計(1)静態統計,動態統計

到達目標
7-1静態統計,動態統計の違いを説明できる
7-2率を求めることが出来る

教科書 P168-179

静態統計と動態統計

静態統計

ある時点での対象の状況そのものを調査

動態統計

ある期間での対象の状況の変化を調査

人口静態統計調査について

5年毎(10年毎の大規模調査と簡易調査)

人口動態統計調査について

毎年(期間=1年)

人口静態

126,146,099人(令和2年国勢調査)
奈良県は1,324,473人(同上)
naracommed20190313-03.png(255001 byte)
奈良県の医療を取り巻く状況について より)

年齢3区分

年少人口  ・・・0~14歳
生産年齢人口・・・15~64歳
老年人口  ・・・65歳以上
扶養負担の指標
年少人口指数・・・年少人口/生産年齢人口×100 老年人口指数・・・老年人口/生産年齢人口×100 従属人口指数・・・(年少人口+老年人口)/生産年齢人口×100
高齢化進行状況の指標
老年化指数 ・・・老年人口/年少人口×100

人口ピラミッド

年次毎の出生数がベースとなり持ち上がっていく格好
ただし人口ピラミッドが人口増減の要因について全てカバーできるわけでもない
ynct20201002-05.png(275744 byte)
社会人になってみた(頃を客観的に振り返る話) より)

出生

再生産率の3指標

出生率
期間合計特殊出生率=Σ(対象年次における年齢別出生数/女子人口) 年齢は15歳~49歳(算出は年次毎)
コーホート合計特殊出生率=Σ(対象世代の年齢別出生数/女子人口) 年齢は15歳~49歳(算出に期間(49歳になるまで)を要する)
総再生産率(出生女児を対象)
総再生産率=Σ(対象年次における年齢別女児出生数/女子人口) 年齢は15歳~49歳(算出は年次毎)
純再生産率(出生女児のうち母親の年齢まで生存する女児を対象)
純再生産率=Σ{(対象年次における年齢別女児出生数/女子人口)× (年齢別女子生命表の定常人口/10万人) 年齢は15歳~49歳(算出は年次毎)}

比と率と割合(比率)と

ここら辺の理解について整理しておいてください
ごちゃごちゃに整理される原因は割合=比率という整理になっているところだと思います

ratio
異なるもので割ったもの・・・単位は無次元の場合もある
例)BMI(Body Mass Index)
身長の二乗(m^2)に対する体重(kg)の比
身長170cmで体重70kgの人のBMI・・・70/(1.7^2)≒24.2
検査表の見方(日本人間ドック学会)
http://www.ningen-dock.jp/public/method

rate
時間に対する何かの量の比・・・単位は無次元の場合もある
変化を表す指標
例)時速
マラソン(42.195km)を2時間6分で走った場合の時速・・・42.195/2.1≒20.1km/h
100m走を10秒で走った場合の時速・・・0.1/(10/3600)=36km/h

無次元の例としては稼働率
稼働率(JIT基本用語集)
http://www.lean-manufacturing-japan.jp/jit/cat241/post-74.html
時間を時間で割るので無次元

割合(比率)

proportion
全体に対してその一部がどの程度占めるか割ったもの・・・単位は無次元になる
0~1の間の値をとるpercentで表示したりする。100%を超えるのは本来おかしい
例)日本人の血液型の割合
A型 約40%
B型 約20%
O型 約30%
AB型 約10%

人年法

一人の人を一年観察したとき1人年
人年に対する何かの量の比・・・率になる
例)5人の患者を1年間観察していた時に二人死亡
Aさん 1年後生存
Bさん 3ヶ月後に死亡
Cさん 9ヶ月後に死亡
Dさん 1年後生存
Eさん 1年後生存

本来の死亡率算出

観察人年=1+0.25+0.75+1+1=4人年
その間の死亡数が2なので
2/4=0.5 「死亡率(1人年あたり)0.5」
2/4*1000=500「死亡率(1000人年あたり)500」

年央人口を用いる方法

6ヶ月経過の時点での生存者4人
1年経過後の集団の死亡数が2なので
2/4=0.5 「1人年対0.5の死亡率」

参考資料
厚生労働統計に用いる主な比率及び用語の解説(厚生労働省)
http://www.mhlw.go.jp/toukei/kaisetu/index-hw.html
人年法の計算と利用方法,青木伸雄,日本循環器管理研究協議会雑誌 26(1),64-66,1991
https://www.jstage.jst.go.jp/article/jjcdp1974/26/1/26_1_64/_article/-char/ja/

本日の課題(提出不要)
国勢調査のデータより,全国,奈良県,橿原市,野迫川村の
年少人口指数,老年人口指数,従属人口指数,老年化指数を求めよ
nmuhlthstat1_2022-0501.png(19957 byte)

第08回 人口統計(2)直接法,間接法

到達目標
8-1SMRの計算ができる
8-2直接法と間接法の違いを説明できる

教科書P180-182
集団間の比較において年齢構成による影響をを除く話

年齢調整死亡率

年齢によって死亡率が変わるのは自明
年齢で区切って死亡率を評価する

直接法

モデル人口を用意して観察集団の年齢階級別(粗)死亡率をモデル人口における対象とする年齢階級の割合を乗ずる方法
例題 A市
年齢階級 死亡率(人口10万対)
年少人口(~15) 60
生産年齢人口(15~65) 250
老年人口(65~) 3000
B市
年齢階級 死亡率(人口10万対)
年少人口(~15) 50
生産年齢人口(15~65) 200
老年人口(65~) 4500
基準集団(昭和60年モデル)
年齢階級 人口
年少人口(~15) 25,015,000
生産年齢人口(15~65) 82,654,000
老年人口(65~) 12,618,000
総人口 120,287,000
昭和60年モデル資料
平成29年度人口動態統計特殊報告 平成27年都道府県別年齢調整死亡率の概況(厚生労働省)
https://www.mhlw.go.jp/toukei/saikin/hw/jinkou/other/15sibou/index.html
「1.年齢調整死亡率について」を参照

間接法

モデル人口を用意してモデル人口における年齢階級別死亡率を観察集団の年齢階級別人口を乗ずる
全年齢の死亡数を求め積算したもので,観察集団の死亡数を除する.
例題 C市
年齢階級 人口構成 死亡期待数 実際の死亡数 SMR
年少人口(~15) 130,000 ----- -----
生産年齢人口(15~65) 700,000 ----- -----
老年人口(65~) 200,000 ----- -----
1,030,000 9,000
D市
年齢階級 人口構成 死亡期待数 実際の死亡数 SMR
年少人口(~15) 200,000 ----- -----
生産年齢人口(15~65) 500,000 ----- -----
老年人口(65~) 330,000 ----- -----
1,030,000 9,000
基準死亡率
年齢階級 人口10万対
年少人口(~15) 40
生産年齢人口(15~65) 200
老年人口(65~) 3,000
課題(提出不要)
1)例題のA市B市の年齢調整死亡率を算出・比較し,直接法の利点・欠点について考察せよ
2)例題のC市D市のSMRを算出・比較し,間接法の利点・欠点について考察せよ