大阪保健医療大学 統計学2025(保健医療学部 リハビリテーション科)
2025年度開講にあたって
https://medbb.net/education/2025init/
授業メニュー
第01回 データの取得(1)第02回 データの取得(2)
第03回 記述統計(Ⅰ)尺度と度数
第04回 記述統計(Ⅱ)度数分布表,度数分布図
第05回 記述統計(Ⅲ)代表値
第06回 記述統計(Ⅳ)散布度
第07回 推定(Ⅰ)大数の法則と中心極限定理
第08回 推定(Ⅱ)正規分布
第09回 推定(Ⅲ)母数の推定(点推定)
第10回 推定(Ⅳ)母平均の区間推定
第11回 検定(Ⅰ)2群の差の検定(パラメトリック)
第12回 検定(Ⅲ)カイ二乗検定
第13回 判断分析(Ⅰ)感度・特異度
第14回 判断分析(Ⅱ)ROC曲線
第01回 データの取得(1)
EXCELの利用
本授業ではMS-EXCELで 起動してみましょう.

キーワード
セルセル番地
数式バーとセルの表示
計算式
関数
セルの参照(絶対,相対)
グラフの作成
保存は大切
保存形式はありのままなら,標準形式(xlsx),データだけならcsvが便利
CSV形式

演習1-1
示すファイルを用いてアプリケーションや文字コードによってデータがどのように表示されるか確認せよxlsx形式(Excel標準)のファイル
csv形式(文字コードはwindows標準のShift-JIS形式)
csv形式(文字コードは世界中で使われるUTF-8形式)




<参考>UTF-8:Tech Basics/Keyword(@IT ITmedia Inc.)
https://atmarkit.itmedia.co.jp/ait/articles/1603/28/news035.html
データ形式(Excel)

演習1-2

演算と関数
四則演算 +-×÷ → + - * /セルの参照
極力手打ちでデータを入力しないように.(人は間違える)エクセルに,どのセルの値なのか場所を教えてあげる
演習1-3

演習1-3の結果より合計金額と平均金額を算出する
よく使う計算は関数が用意されている.
合計はsum関数 平均はaverage関数

演習1-4
以下のファイルをダウンロードし空欄部分を計算してくださいkmuipt2024-0201.csv
演習1-5
以下の成績より理科と数学について2倍の重みづけをして平均を求めよ
ID | 国語 | 英語 | 数学 | 社会 | 理科 |
---|---|---|---|---|---|
1 | 57 | 96 | 55 | 65 | 56 |
2 | 99 | 99 | 83 | 98 | 85 |
3 | 50 | 73 | 95 | 91 | 95 |
4 | 96 | 75 | 89 | 57 | 80 |
5 | 84 | 96 | 84 | 58 | 67 |
6 | 93 | 82 | 57 | 83 | 99 |
7 | 88 | 99 | 55 | 52 | 87 |
8 | 79 | 52 | 99 | 65 | 59 |
第02回 データの取得(2)
奈良県立医科大学大学院医学研究科 医の共通科目(分担:研究におけるデータ収集と統計処理について)よりデータ取得に関する部分抜粋
【二次利用】実態は事実かもしれないし,私たちの想定を超える事実が含まれたものかもしれない
人口動態に関する指標 出生であったり死亡などは年間の集計値を教えてもらった時,12や365で除することで月平均,一日平均を計算するのではないかと思います例えば,年間を通してデータを取っているものに出生数があります
人間は周年繁殖動物とされているので一年の中で本来季節の影響は少ないように思います
しかしながらデータを見ると生活空間においてはなにかしら季節の影響を受けている事,それに加えて社会の仕組みが影響を与えていることも見て取れると思います

<参考>
ヒトの“繁殖期”は10~11月?(日経メディカル)
https://medical.nikkeibp.co.jp/leaf/mem/pub/hotnews/int/200711/504694.html
カンニング竹山 誕生日4月2日も「本当に生まれた」日を告白 戸籍上ずらす行為「今やると罪になる」(Yahooニュース)
https://news.yahoo.co.jp/articles/1f8bff31191b583a93909f74cc271b04698cbfd1
【二次利用】質問紙調査が事実を示すことの限界
研究においてアンケート調査を行うときも同様ですが,自身で取得した場合は分析過程で状況を把握できるように思いますが,二次利用の場合は特にご注意ください下記のものからAge Heapingを確認できるかと思います.

インドネシアの人口ピラミッドと Age Heaping(インドネシア中央統計庁(BPS)に対する技術協力 総務省統計局)
https://www.stat.go.jp/info/meetings/develop/pdf/ind_pyra.pdf
https://www.stat.go.jp/info/meetings/develop/indones.html
統計でみる市区町村のすがた
https://www.stat.go.jp/data/s-sugata/index.htmlを用いてデータを用いる際の注意点など理解しながら進めましょう
演習2-1 人口・世帯のデータより47都道府県のデータのみ抽出したテーブルを作成せよ
演習2-2 人口・世帯のデータより奈良県の市町村のみ抽出したテーブルを作成せよ
本日ここまで
演習2-3 人口・世帯のデータより奈良県の保健医療圏別でテーブルを作成せよ
演習2-4 47都道府県の総人口に中学,高校の数と商業従業者数を加えたテーブルを作成せよ
<参考>
二次医療圏(e-govポータル)
https://data.e-gov.go.jp/data/dataset/mhlw_20150115_0041
第03回 記述統計(Ⅰ)尺度と度数
尺度
ものさし の 話ではなく 対象とするデータの特性について分類したものデータ
一般にはデータ,情報,知識などまとめて「情報」と呼ばれるケースが多い
データに意味を付与することで情報となるが,騙されたりして不適切な意味を付与してしまうと大変なことになる
情報が知識構造体に取り込まれれば,そのものが大きく複雑なものになっていく.
無論知識においても,不適切な意味を付与された情報が基となっているとややこしいことになる.
4つの尺度
世の中のデータを4つの種類で説明できる1名義尺度
2順序尺度
3間隔尺度
4比尺度(比例)(比率)
1,2を質的変量(定性的)ともいう
3,4を量的変量(定量的)ともいう
性質としては上位互換性があり
4>3>2>1
間隔尺度と比尺度との見分け方
データ自身が負の値をとることが想定されるものは間隔尺度(引き算などで便宜上マイナスになるものはデータ自身によるものではない)天気予報での摂氏温度(℃)の話をどのようにされているのか(過去に一回だけビックリしたことがあるけど)

演習3-1)
以下の文章中の下線部の尺度を示せ折角の(1)日曜日【月曜日,火曜日】,天気も(2)晴【曇,雨】なので車に乗って(3)奈良駅【郡山駅,畝傍駅】までドライブ.
昼食はハンバーガーチェーン店でチーズバーガーとポテトを購入,ドリンクは(4)Lサイズ【Mサイズ,Sサイズ】を選ぶ
昼食後車を走らせるがガソリンが少ないので(5)35リットル【20リットル,5リットル】ほど給油.
無事目的地に到着し駐車場から外に出るとなにやら(6)少し寒い【温かい,熱い】,確かに気温を見ると(7)12℃【10℃,8℃】と先程よりも低い
なので上着を買って帰ることにした.丁度バーゲンセールをやっている.値段は(8)3980円【2980円1980円】,(9)凄く良い【まぁまぁ良い,少し残念な】ものを買うことが出来ました.
度数
どのようなデータであっても度数を求めることができるしかも求めた度数は,対象としたデータの尺度に関係なく比尺度として取り扱うことができる
(度数は絶対的な原点を持っているので+-×÷全てOK)
演習3-2)
以下の40名の血液型データについて度数を求めよ(countif)
上記のCSV形式ファイル(nmuhlthstat1_2024-0102.csv)
演習3-3)
以下の20名の身長データについて度数を求めよ(そのままのデータと整数と10cm単位で)(countifと何かしらの工夫)
上記のCSV形式ファイル(medbbstat2023-0101.csv)
第04回 記述統計(Ⅱ)度数分布表,度数分布図,代表値
度数分布表
質的変量の度数分布表
この授業では量的変量の度数分布表を作成する場合 A~B は A以上B未満として取り扱うそれぞれのデータ(変量)の数(出現頻度)をまとめたもの
変量が名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数 ・・・出現頻度
相対度数・・・総出現頻度を1(100%)としたときのそのぞれの度数のしめる割合
累積度数・・・上位の変量の度数もあわせた度数
累積相対度数・・・累積度数の相対版
店名 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|
1.00 | ||||
計 | 1.00 | ----- | ----- |
演習4-1
演習3-2のデータより度数分布表を作成せよ(累積度数,累積相対度数も)
量的変量の度数分布表
例えば身長を0.1cm単位で測定して度数分布表を作成しようとしたとき,全て度数は1で全体の状況の把握が出来ないケースがあるその場合ある程度の区間を設けて度数を求める
量的変数の場合はその数値だけで度数を積み上げようにもなかなか上手くいかない場合がある.
「A~B」は「A以上B未満」と読む格好がスタンダードと思っていますが,分野などによって違うようです 「A以上B以下」のようにどちらの階級にも属してしまう可能性のある設定はしないように. |
階級 | 階級値 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|---|
130~140 | 135 | ||||
140~150 | 145 | ||||
150~160 | 155 | ||||
160~170 | 165 | ||||
170~180 | 175 | ||||
計 |
演習4-2
演習3-3のデータより度数分布表を作成せよ(累積度数,累積相対度数も)
度数分布図
度数分布表を棒グラフにしたもの質的変数
縦棒グラフ
量的変数
ヒストグラム
棒の間隔が無いのは値が連続している状態であるが故
普通の棒グラフは棒の長さが度数を示すが,ヒストグラムは棒の面積が度数を示す
「階級の幅を等しくすること」と説明している場合があるが,それは幅が変わると高さが変わる故で,実際にはそのような区間設定はよくある |
ヒストグラムーなるほど統計学園(総務省統計局) https://www.stat.go.jp/naruhodo/4_graph/shokyu/histogram.html |
演習4-3
演習4-1の度数分布表より度数分布図を作成せよ
演習4-4
演習4-2の度数分布表より度数分布図を作成せよ
第05回 記述統計(Ⅲ)代表値
第06回 記述統計(Ⅳ)散布度
演習5-1
以下のデータより合計と算術平均を求めよ
kmuipt2024-0301sjis.csv
なお合計は【sum】関数,算術平均は【average】関数を用いること
それぞれA事業所の算出に用いた数式をそのままB事業所,C事業所の欄にコピーして計算の事
幾何平均(相乗平均)
全て掛け合わせて累乗根をとる例えば1と2と4の平均
算術平均 (1+2+4)/3=2.3333
幾何平均 3√(1×2×4)=2
演習5-2
2,4,8,16,32 の算術平均と幾何平均を求めよ
加重平均
重みづけ平均例えば ミニテストと期末試験の平均をとる → そのままの平均で良いの?
ミニテスト30%期末試験70%
それぞれ40点,70点の場合
40×0.3+70×0.7=12+49=61
演習5-3
演習4-2の度数分布表より階級値を用いて平均を求めよ
またどの程度個票のデータから求めた平均値と異なるか検証し,今回の度数分布表では最大でどの程度の差異が生じるのか考えよ
【代表値】中央値
median(別名第2四分位数)
量的変量を順序尺度の性質で処理した代表値
順番に並べたとき真ん中の順位にきた個体の値
個体数が偶数の時は真ん中2つの数値の平均値
【代表値】最頻値
mode(流行,はやり)
違う意味で数の理論(多数決)の世界
量的変量を名義尺度の性質で処理した代表値
名義尺度でわかることは一緒か違うか
階級毎に度数をカウント
一番多いところの階級値
一位が同点の時は併記
演習5-4
演習1-5のデータより科目別の平均値【AVERAGE】,中央値【MEDIAN】最頻値【MODE.SNGL】を求めよ
平均値と中央値の考え方の違い

平均値(14.55)

こちらは分布なんて関係なく中央値(15)
データの分布に依存する(パラメトリック)=平均値 と データの分布に依存しない(ノンパラメトリック)=中央値,最頻値の関係がわかるかなと思います
例えば5が0に変わってしまうと平均値は大きく変わりますが,中央値は変わりません
パラメトリック・・・数値に依存する(数値の分布によって値が影響を受ける)というとイメージしやすいのかな?
【散布度】範囲
ある値~ある値までの広さ
範囲
Range
R=最大値-最小値
特徴
外れ値もひらう
算出が用意
最大値と最小値がわかればその集団のバラツキがわかる
最大値maximum excel 【max】関数
最小値minimum excel 【min】関数
【散布度】四分位範囲
小さい順(昇順)に並べて集団を4分割
分割する所の値を小さい方から第1四分位数(Q1),第2四分位数(Q2)=中央値,第3四分位数(Q3)
四分位範囲IQR(interquartile range)=Q3-Q1
四分位数の話
四分位数は出し方が何種類かあります.近年は高校で教育されていますがその方法も従来のものと異なるので細かい話はやめておきます
【QUARTILE.INC】関数で第一四分位数(Q1),第三四分位数(Q3)求められます
【散布度】偏差
Deviation
ある基準とする値からのズレ
それぞれのズレの平均を求めたら良いのだろう・・・

演習5-5
何故偏差の算術平均は0になるのか証明せよ
分散 標準偏差
variance
excel関数は【VAR】【STDEV.P】
偏差の平均
表の右に偏差を列を設けて計算します
偏差の平均を求めると・・・
偏差平方和の平均=分散
偏差の和が0になるので平方するとバラツキ状況が示せる
【VAR.P】だがいろいろ出てくる
標準偏差=分散の正の平方根
標準偏差が出せます.
関数を使うと一発で出せますのでご確認を
二種類の関数でも出してください【STDEV.P】
記述統計と推測統計(概要)
対象としている集団が全体の一部だった時,全体を推測しなければ全体の事は語れない
平均値は全体を推測する際にそのまま用いても良いのだが,標準偏差はそのようなわけにはいかないので関数も用意されている

演習5-6
演習1-5のデータより科目別の範囲,四分位範囲,標準偏差を求めよ(標準偏差は関数を用い無い方法と用いる方法両方で)
第07回 推定(Ⅰ)大数の法則と中心極限定理
第08回 推定(Ⅱ)正規分布
大数の法則
サンプルサイズが大きくなるとその平均値は期待値に収束する.
一様分布の場合
randbetween関数を用いて作成できる


演習5-1
身長140.0cm~160cmのダミーデータをrandbetween関数を用いて作成し(サンプルサイズ10000)),ヒストグラムで分布を確認し大数の法則を確認せよ
中心極限定理
サンプル数が多ければその標本の平均の分布は正規分布になる
→正しく測定されているのであれば偶然誤差の発生は正規分布に従う
→測定回数を増やせば増やすほど
注)普段の実験などでは,数回測定を行いその平均値を結果とするだけ(のはずなので)ピンとこない
演習5-2
演習5-1のダミーデータからサンプルサイズ10で1000サンプルを作りそれぞれ平均値を求めヒストグラムを作成せよ
演習5-3
演習5-1のダミーデータからサンプルサイズ100で100サンプルを作りそれぞれ平均値を求めヒストグラムを作成せよ
正規分布
偶然誤差の分布と呼ばれる(精度の善し悪し→偶然誤差大きいか小さいか)
精度を向上させるには測定回数を増やしその平均をとれば良い(誤差は小さくなる)
標準正規分布
平均値が0標準偏差=1(分散も1)になるように値を変換したもの
それをZ値という・・・標準正規分布表の行と列から求める値の事
偏差値は平均値を50、標準偏差=10になるように値を変換したもの
それを偏差値という
演習5-4
平均値が75点の集団がある.標準偏差は5点だった.
そこで82点を取った人がいる.その時のZ値および偏差値を求めよ
標準正規分布表
正規分布を平均値が0標準偏差=1(分散も1)になるように値を変換したもの
それをZ値という・・・標準正規分布表の行と列から求める値の事

標準正規分布表のPDF版はコチラから
演習5-4
平均値が75点の集団がある.標準偏差は5点だった.
そこで82点を取った人がいる.点数の分布が正規分布に従うと仮定して受験者が10000人だった場合上位何番目に相当するか,標準正規分布表から求めよ

演習5-5
平均値が75点の集団がある.標準偏差は5点だった.
そこで82点を取った人がいる.点数の分布が正規分布に従うと仮定して受験者が10000人だった場合上位何番目に相当するか,NORM.DIST関数を使って求めよ
正規分布の乱数発生
rand関数はMIcrosoftの説明によると0以上1未満の乱数を発生するので確率と見做してNORM.INV関数で正規分布に変換する
ちなみに何回か試したところ 1.15822E-05~0.999990932 のように 0を超え1未満の数値しか返さないが 小数点下適当(4桁レベル)で四捨五入すれば0以上1以下の形になる


演習5-6
身長の分布は正規分布であるといわれる.そこでrand関数,NORM.INV関数を用いて20歳成人男性のダミーデータを10000人分作成し,ヒストグラムで分布を確認し大数の法則を確認せよ.
なお,データ生成においては国民健康・栄養調査の資料を参考に令和5年の年齢及び性別をそれぞれ自分で決めた上で作成のこと
国民健康・栄養調査(厚生労働省)
https://www.mhlw.go.jp/bunya/kenkou/kenkou_eiyou_chousa.html
第09回 推定(Ⅲ)母数の推定(点推定)
母平均の推定
標本の平均→母平均の偏りのない推定値
演習9-1
演習5-1のダミーデータ全体の平均値(=母平均)と演習5-2で求めたサンプルサイズ10の平均値(=標本平均=母平均の推定値)を比較し偏りがないことを確認せよ
母分散の推定
演習9-2
演習5-1のダミーデータ全体の分散(=母分散)とサンプルサイズ10の分散を求めてヒストグラムを描き偏りが無いか検討せよ
関数はvar.pを使ってよい
<参考資料>
第11回 統計基礎(Ⅲ)-推測統計(点推定)(大阪保健医療大学 医療情報学2024)
https://medbb.net/education/ohsumedinfo2024/#11
演習9-3
演習5-1のダミーデータ全体の分散(=母分散)とサンプルサイズ10の分散を求めてヒストグラムを描き偏りが無いか検討せよ
関数はvar.pを使うこと
演習9-4
演習5-1のダミーデータ全体の分散(=母分散)とサンプルサイズ10の分散を求めてヒストグラムを描き偏りが無いか検討せよ
関数はvar.sを使うこと
第10回 推定(Ⅳ)母平均の区間推定
区間推定
点推定に幅をもたせたもの.
幅の定義は確率(どの程度あたるものか)
∴100%あたる推定に意味は無い→確実に当たる幅を設定したら達成できるので
一般的に95%の確率で当たる区間(95%の信頼区間)で幅を決めている
平均値の区間推定
母平均の点推定値を中心に散布度(標準偏差)をベースにして±の幅を持たせる.
問題点1
標準偏差をベースとは言うものの,サンプルサイズが大きくなると標本平均のバラツキは小さくなるという話があった・・・
標本平均のバラツキ具合はサンプルサイズが大きくなると小さくなるという話.
サンプルサイズ10の時(母集団から2000の標本が作成できる)の標本平均のヒストグラム

サンプルサイズ100の時の(母集団から200の標本が作成できる)の標本平均のヒストグラム

標準誤差
・標準偏差は標本の分布のバラツキ具合を示したもの
・標準誤差は母集団から抽出した標本の平均値のバラツキ具合
SE=σ/√n
演習10-1
サンプルサイズ10の時の平均値(標本数2000)の不偏分散を求めたところ8.02でした.
それより求めた標準偏差(つまり標準誤差)は2.83になります
それをサンプルサイズを100とした時,不偏分散,それより求めた標準偏差(つまり標準誤差),はどの程度の値になるでしょうか?
(ちなみにサンプルサイズ100の時の平均値(標本数200)を実際に求めたところ,不偏分散は0.84標準偏差(つまり標準誤差)は0.92になりました)
問題点2
点推定±標準誤差で区間を定めると,区間を推定していることになるが100%の確率で当たらない ということしかわからない.
何%の確率で当たるのだろう?
中心極限定理(再掲)
標本の大きさが十分であれば標本平均の分布は正規分布
→実験の時に複数回測定してその平均をとりましょう・・・・測定の精度が上がると言われた記憶
→測定回数を増やせば増やすほど
→正しく何回も測定されたのであれば偶然誤差の発生は正規分布に従う
誤差の話は二つの要因

正規分布
左右対称の釣鐘状分布
平均値に近いほど出現率が高く遠ざかるに従って低くなる(ことが多い)
今更ながらだが,標本平均のヒストグラムって正規分布の形ですよね
標準正規分布
平均値が0標準偏差=1(分散も1)になるように値を変換したもの
偏差値は平均値を50、標準偏差=10になるように値を変換したもの
標準正規分布表

標準正規分布表のPDF版はコチラから
標準正規分布の世界は平均値が0標準偏差が1の世界→95%の確率で含まれる区間(信頼区間)は 0±(1×1.96) になります.
分布表から調べなくても1.96は見つけることが出来ます ← EXCEL[=NORM.S.INV(0.975)]
この関数は分布表と同じく上側の面積(=確率)を返してくれる変数ですので[=NORM.S.INV(1-0.025)]としたほうが解釈しやすいかなと思います.
例題4-2
ある試験の受験者100人から点を教えてもらったところ平均値(点推定)=65点 標準偏差(点推定)=18点であった.
受験全員(=母集団)の平均値の区間推定を信頼区間95%で示せ
第11回 検定(Ⅰ)2群の差の検定(パラメトリック)
仮説検定とは,ある論拠に基づく仮説が実証できるのかデータを取得し判定を行う作業
推定は標本を基に母集団を推定すること
検定は標本を基にある論拠に基づく仮説を示す状況であるか判定すること
特に検定の場合は「新たな知見」であることを証明する際に使われることが多いので,これまでの常識を覆す(つまりこれまでの結果にならない)ことを期待して行う
推定

検定

差がある仮説の判定(有意差検定)
事象としては「同一の結果が得られる」「同一の結果が得られない」の二つにいずれかになります.
同一の結果が得られる仮説を帰無仮説(これまでと違いが無い仮説)H0,同一の結果が得られない仮説を対立仮説(これまでと違いがある仮説)H1と示します.有意水準は対立仮説H1の確率を示します
有意水準は通例5%とされることが多く,両側検定(効果量に違いがあるのか無いか)と片側検定(違いがが正の方向のものなのか,負の方向のものなのか)の二種類がある
背理法の考え方に基づく論理で証明.もともと証明したい仮説(差がある)を偽であるとして,矛盾を導く出すことで判定する方法
現在はコンピュータにより確率を直接求めることは可能ですし,まどろっこしい流れに映りますが,違い(差)を直接判断しているのではなく「同一の結果が得られる」確率に基づき判定基準を定めているところが科学として重要であるから故と捉えています.
ですので確率そのものは,判定のためのものであって求めた値(統計量や確率)そのものに重きを置く必要はありません.効果量そのものに重きをおく方が知見の社会実装の観点から重要になります
区間推定と仮説検定の相反する部分
区間推定は区間内に求めているものがある(含まれている ことを祈っている)
仮説検定は区間外に求めているものがある(含まれていないことを祈っている)
仮説検定(有意差検定 両側検定)のフォーマット例
手順1 帰無仮説,対立仮説をたてる
帰無仮説H0:μ=150 対立仮説H1:μ≠150
手順2 母集団が従うと見做す確率分布を定め,有意水準を決める
(例えば)正規分布に従うと見做し,有意水準両側5%とする
手順3 今回取得したデータをもとに,母集団が従うと見做す確率分布における統計量を求める
例
帰無仮説H0がある集団の収縮期血圧μ=150mmhgとしたときに,これまでにない高血圧防止体操を行った集団から得られたデータ(サンプルサイズn=36 標本平均xbar=147.3 不偏分散s^2=81)で検定を行う
1)手順1 帰無仮説,対立仮説をたてる
帰無仮説H0:μ=150 対立仮説H1:μ≠150
手順2 母集団が従うと見做す確率分布を定め,有意水準を決める
正規分布に従うと見做し,有意水準両側5%とする
手順3 今回取得したデータをもとに,母集団が従うと見做す確率分布における統計量を求める
-2.7異なる,これを(標準正規分布の)検定統計量に変換すると-1.8
手順4
検定統計量を用いて有意水準との比較,今回の標本が棄却域にあるのか否か(受容域なのか)判定する.
1)(ケースX)
|z|=1.8 p=0.0359×2(両側検定なので2倍)>0.05
帰無仮説を棄却できないので判定を保留する
2)(ケース1)有意水準よりも小さい場合
|z|=2.96 p=0.015×2(両側検定なので2倍)<0.05
帰無仮説を棄却し対立仮説を採択する 有意差がある
3)(ケース2)有意水準よりも大きい場合
|z|=1.45 p=0.0735×2(両側検定なので2倍)>0.05
帰無仮説を棄却できないので判定を保留する
1標本(関連2群)t検定
T.TEST()
関連する2群・・・一つの対象集団を2回測定して標本を二つ作る.それぞれの標本から同一IDを確定できるのでその前後の差をとって検定する
演習11-1
新開発のシューズを2種類開発した.それぞれ同一被験者に従来型と新型を履いて5km走のタイムを計測し比較を行った.
有意水準5%両側検定を行い効果があるのか検証せよ
2標本(独立2群)t検定
T.TEST()
関連の無い2群・・・二つの条件が異なる集団を1回測定し標本を二つ作る.それぞれの標本が同じ分散であることが前提となる(等分散・・証明できない場合でも行える手法はある(というより最初からその手法使ったらよいという考え方もある))
分散も合成する必要が出てくる
演習11-2
バセドウ患者12人に協力いただきそれぞれ6人ずつ従来の薬剤を当投与した群と新薬を投与した群に分けて脈拍数を測定した.
新薬に効果があるのか検証せよ
演習1-5のデータより科目別の平均値【AVERAGE】,中央値【MEDIAN】最頻値【MODE.SNGL】を求めよ

平均値(14.55)

こちらは分布なんて関係なく中央値(15) データの分布に依存する(パラメトリック)=平均値 と データの分布に依存しない(ノンパラメトリック)=中央値,最頻値の関係がわかるかなと思います
例えば5が0に変わってしまうと平均値は大きく変わりますが,中央値は変わりません
パラメトリック・・・数値に依存する(数値の分布によって値が影響を受ける)というとイメージしやすいのかな?
何故偏差の算術平均は0になるのか証明せよ
演習1-5のデータより科目別の範囲,四分位範囲,標準偏差を求めよ(標準偏差は関数を用い無い方法と用いる方法両方で)
身長140.0cm~160cmのダミーデータをrandbetween関数を用いて作成し(サンプルサイズ10000)),ヒストグラムで分布を確認し大数の法則を確認せよ
演習5-1のダミーデータからサンプルサイズ10で1000サンプルを作りそれぞれ平均値を求めヒストグラムを作成せよ
演習5-1のダミーデータからサンプルサイズ100で100サンプルを作りそれぞれ平均値を求めヒストグラムを作成せよ
平均値が75点の集団がある.標準偏差は5点だった.
そこで82点を取った人がいる.その時のZ値および偏差値を求めよ
平均値が75点の集団がある.標準偏差は5点だった.
そこで82点を取った人がいる.点数の分布が正規分布に従うと仮定して受験者が10000人だった場合上位何番目に相当するか,標準正規分布表から求めよ
平均値が75点の集団がある.標準偏差は5点だった.
そこで82点を取った人がいる.点数の分布が正規分布に従うと仮定して受験者が10000人だった場合上位何番目に相当するか,NORM.DIST関数を使って求めよ
身長の分布は正規分布であるといわれる.そこでrand関数,NORM.INV関数を用いて20歳成人男性のダミーデータを10000人分作成し,ヒストグラムで分布を確認し大数の法則を確認せよ. なお,データ生成においては国民健康・栄養調査の資料を参考に令和5年の年齢及び性別をそれぞれ自分で決めた上で作成のこと
https://www.mhlw.go.jp/bunya/kenkou/kenkou_eiyou_chousa.html
演習5-1のダミーデータ全体の平均値(=母平均)と演習5-2で求めたサンプルサイズ10の平均値(=標本平均=母平均の推定値)を比較し偏りがないことを確認せよ
演習5-1のダミーデータ全体の分散(=母分散)とサンプルサイズ10の分散を求めてヒストグラムを描き偏りが無いか検討せよ 関数はvar.pを使ってよい
第11回 統計基礎(Ⅲ)-推測統計(点推定)(大阪保健医療大学 医療情報学2024) https://medbb.net/education/ohsumedinfo2024/#11
演習5-1のダミーデータ全体の分散(=母分散)とサンプルサイズ10の分散を求めてヒストグラムを描き偏りが無いか検討せよ 関数はvar.pを使うこと
演習5-1のダミーデータ全体の分散(=母分散)とサンプルサイズ10の分散を求めてヒストグラムを描き偏りが無いか検討せよ 関数はvar.sを使うこと
サンプルサイズ10の時の平均値(標本数2000)の不偏分散を求めたところ8.02でした.
それより求めた標準偏差(つまり標準誤差)は2.83になります
それをサンプルサイズを100とした時,不偏分散,それより求めた標準偏差(つまり標準誤差),はどの程度の値になるでしょうか?
(ちなみにサンプルサイズ100の時の平均値(標本数200)を実際に求めたところ,不偏分散は0.84標準偏差(つまり標準誤差)は0.92になりました)


新開発のシューズを2種類開発した.それぞれ同一被験者に従来型と新型を履いて5km走のタイムを計測し比較を行った.
有意水準5%両側検定を行い効果があるのか検証せよ

バセドウ患者12人に協力いただきそれぞれ6人ずつ従来の薬剤を当投与した群と新薬を投与した群に分けて脈拍数を測定した.
新薬に効果があるのか検証せよ
ID | 対照群(従来群) | 比較群(新薬群) |
---|---|---|
1 | 98 | 86 |
2 | 88 | 73 |
3 | 100 | 95 |
4 | 96 | 92 |
5 | 107 | 99 |
6 | 114 | 116 |
演習11-3
ストップウォッチを用いて自分の感覚で「10秒」が何秒なのか測定する
次にストップウォッチの秒数を確認後もう一回「10秒」を測定する
第12回 検定(Ⅲ)カイ二乗検定
カイ二乗分布
χ2乗分布・・・母分散を推定できる確率分布
χ2=ΣZi2
平均からのズレの平方をとったものを足し合わせていく→偏差平方和
標準正規分布に従う独立した確率変数が1つの場合
χ2=Z12
<参考>独立した確率変数が二つの場合
χ2=Z12+Z22
カイ二乗分布
母分散を推定できる確率分布
χ2=ΣZi2
カイ二乗分布表
t分布と同じく自由度により確率分布は変化する
カイ二乗分布(ν=1)の時のそれぞれの上側確率に相当する正規分布の確率(両側5%(片側2.5%ずつ)は全て上側に集約されてしまう
χ2=((X-μ)/σ)2
χ20.05=((1.96-0)/1)2
例)標準正規分布で有意水準両側5%の場合の境界値はz=1.96.カイ二乗分布表より有意水準上側5%の時のカイ二乗値=3.84

カイ二乗分布のPDF版はコチラから
ピアソンのカイ二乗
カイ二乗分布の話(X-μ)を(実際に出現した度数-出現が期待される度数(期待値))に置き換え
分散で除することで分子の差分を標準正規分布のN(0,1)にしていたものを,期待値で除して求めたものである.
(ポアソン分布であるとすると平均値=期待値=分散)
カイ二乗値=Σ(観察度数-期待値)2/期待値
検定
適合度の検定
1行n列
事象の起こる確率に基づく頻度(=n×p)期待値(度数))と実際に観測された度数(観察度数)の差異について検定.帰無仮説(測定した分布は想定されている分布と等しい)H0:P=(1/6,1/6,1/6,1/6,1/6,1/6)・・・サイコロの場合
独立性の検定
m行n列
こちらはそれぞれが独立しているか(関係があるか無いか)を検定
考え方は一緒
事象の起こる確率は実際に観測された度数を基に算出して全体の度数を乗じることで期待値(度数)とする.

期待値は周辺度数より求める格好

この集計表の自由度は1・・・χ20.05(1)=3.84
帰無仮説を棄却し対立仮説を採択.つまり関連がある.
演習12-1
1.コーヒーの好き嫌いが運動習慣に関連があるのかアンケート調査を行った.有意水準5%で検定を行え

2.上記の各セルの度数を勝手に倍にしてみた.(無論現実にはやってはいけない)同様に検定を行え

演習12-2
SSDSE-基本素材(SSDSE-E)
https://www.nstac.go.jp/sys/files/SSDSE-E-2023.csv
より奈良と近畿の他府県の転入者数と転出者数の関係を比較せよ
第13回 判断分析(Ⅰ)感度・特異度
検査法の診断的有用性を評価する話

疾患あり | 疾患なし | 指標 | |
---|---|---|---|
検査陽性 | 真陽性 a |
偽陽性 b |
陽性的中率 a/(a+b) |
検査陰性 | 偽陰性 c |
真陰性 d |
陰性的中率 d/(c+d) |
指標 | 感度 a/(a+c) |
特異度 d/(b+d) |
有病率 (a+c)/(a+b+c+d) |
予測値
有病率の影響を受ける陽性的中率=P(D|陽性)
陰性的中率=P(Dc|陰性)
感度と特異度
感度=P(陽性|D) 疾患群における真陽性の割合偽陽性率=P(陽性|Dc) 非疾患群における偽陽性の割合
特異度=1-偽陽性率 非疾患群における真陰性の割合


検査法の評価指標
AUC=ROC曲線を描いて算出 検査の分別能第14回 判断分析(Ⅱ)ROC曲線
ROC曲線
判別度の分析感度と偽陽性率(1-特異度)を用いて曲線を描く

カーブが左上に行くほど検査特性が優れている.(=AUCが大きくなる)
判断基準は諸々の要素が入るが1,0と0,1の対角線と曲線の交わる部分が目安.あとは検査の目的などによって変わってくる
尤度比



オッズ比
オッズ・・・値が高いほど感度が高いオッズ比は疾患無しのオッズに比べ疾患有のオッズがどの程度高くなるのかの比
演習14-1
2種類の検査法A,Bを施行したところ以下の結果を得た.AUCを求めどちらの検査が優れているか評価せよ
A法
疾患群 | 14.3 | 15.2 | 13.8 | 14.1 | 13.9 | 12.6 | 14.2 | 14.6 | 13.1 | 13.7 |
非疾患群 | 13.2 | 14.1 | 13.8 | 13.6 | 12.9 | 12.4 | 12.1 | 12.3 | 12.3 | 12.8 |
疾患群 | 14.3 | 15.2 | 13.8 | 14.1 | 13.9 | 12.6 | 14.2 | 14.6 | 13.1 | 13.7 |
非疾患群 | 13.2 | 14.3 | 13.8 | 12.9 | 14.4 | 14.4 | 12.1 | 15.3 | 12.3 | 12.8 |
演習14-2
以下の個票データよりどちらの検査が優れているか検証せよC法 ohsustat2023-1401.csv
D法 ohsustat2023-1402.csv