奈良県立医科大学 保健統計学Ⅱ2025
(医学部看護学科)
課題提出
課題提出のフォームはコチラから
提出期限は授業日の翌日の午前9時59分59秒迄とする
メールアドレスは所属機関で付与されているものを記入のこと(課題の内容は当該メール宛にコピーが送信されます)
特に指定が無ければ以下の設問とします
本日の授業を受講したうえで,以下の2つの質問
1.理解できた内容,理解できなかった内容について
2.本日の授業の内容に関する質問(内容が概ね理解できているのであれば空欄でも可です)
(2コマ連続の場合は日単位なので取りまとめて提出してください 3~4回目の時は 3回目として)
講義後記はコチラをクリックしてください
2025年度開講にあたって
https://medbb.net/education/2025init/
授業メニュー
第01回 PCの基本操作(1)代表値と散布度第02回 PCの基本操作(2)度数
第03回 推定と検定(1)点推定(大数の法則)
第04回 推定と検定(2)点推定値に基づく標本の生成
第05回 推定と検定(3)区間推定
第06回 推定と検定(4)検定
第07回 既存の統計資料の入手と活用
第08回 まとめ
第01回 PCの基本操作(1)代表値と散布度
教科書12章D,13章C
EXCELの利用
起動してみましょう.

キーワード
セルセル番地
数式バーとセルの表示
計算式
関数
セルの参照(絶対,相対)
グラフの作成
保存は大切
保存形式はありのままなら,標準形式(xlsx),データだけならcsvが便利
注意点
デジタルの世界はアナログと違って自在に複写や移動が出来るので,表現する内容(素材)を最初に作ってそこからデザインを考える方が無難全体の出来上がりイメージを持つのもいいが,変わるケースが多い
演習1-1
EXCELを起動し,二種類の図形を描きそれぞれに自分の好きな色(上位ふたつ)塗って下さいCSV形式

演習1-2
示すファイルを用いてアプリケーションや文字コードによってデータがどのように表示されるか確認せよ
xlsx形式(Excel標準)のファイル
csv形式(文字コードはwindows標準のShift-JIS形式)
csv形式(文字コードは世界中で使われるUTF-8形式)




<参考>UTF-8:Tech Basics/Keyword(@IT ITmedia Inc.)
https://atmarkit.itmedia.co.jp/ait/articles/1603/28/news035.html
データ形式(Excel)

演習1-3

演算と関数
四則演算 +-×÷ → + - * /
セルの参照
極力手打ちでデータを入力しないように.(人は間違える)
エクセルに,どのセルの値なのか場所を教えてあげる
演習1-4

【代表値】平均
average(その集団でとりまとめたデータを数値一つで表す。excelはaverage関数で算術平均を出すが、代表値の代表ということだからと解釈しています)
算術平均
mean
excel関数【average】
1/n・Σxi
パレートの法則(80-20の法則)
代表値なのに実在しない場合がある → 集団の指標(重心)であって、事象を代表する値そのものを示しているとは限らない
演習1-5
演習1-4の結果より合計金額と平均金額を算出する
よく使う計算は関数が用意されている場合が多い.
合計はsum関数 平均はaverage関数

演習1-6
以下のデータより合計と算術平均を求めよ
kmuipt2024-0301sjis.csv
なお合計は【sum】関数,算術平均は【average】関数を用いること
それぞれA事業所の算出に用いた数式をそのままB事業所,C事業所の欄にコピーして計算の事
幾何平均(相乗平均)
全て掛け合わせて累乗根をとる
例えば1と2と4の平均
算術平均 (1+2+4)/3=2.3333
幾何平均 3√(1×2×4)=2
演習1-7
2,4,8,16,32 の算術平均と幾何平均を求めよ
加重平均
重みづけ平均
例えば ミニテストと期末試験の平均をとる → そのままの平均で良いの?
ミニテスト30%期末試験70%
それぞれ40点,70点の場合
40×0.3+70×0.7=12+49=61
演習1-8
以下の成績より理科と数学について2倍の重みづけをして平均を求めよ
またそれぞれの順位を【RANK.EQ】関数を使って求めよ


演習1-4の結果より合計金額と平均金額を算出する
よく使う計算は関数が用意されている場合が多い.
合計はsum関数 平均はaverage関数

以下のデータより合計と算術平均を求めよ
kmuipt2024-0301sjis.csv
なお合計は【sum】関数,算術平均は【average】関数を用いること
それぞれA事業所の算出に用いた数式をそのままB事業所,C事業所の欄にコピーして計算の事
2,4,8,16,32 の算術平均と幾何平均を求めよ
以下の成績より理科と数学について2倍の重みづけをして平均を求めよ
またそれぞれの順位を【RANK.EQ】関数を使って求めよ
ID | 国語 | 英語 | 数学 | 社会 | 理科 |
---|---|---|---|---|---|
1 | 57 | 96 | 55 | 65 | 56 |
2 | 99 | 99 | 83 | 98 | 85 |
3 | 50 | 73 | 95 | 91 | 95 |
4 | 96 | 75 | 89 | 57 | 80 |
5 | 84 | 96 | 84 | 58 | 67 |
6 | 93 | 82 | 57 | 83 | 99 |
7 | 88 | 99 | 55 | 52 | 87 |
8 | 79 | 52 | 99 | 65 | 59 |
【代表値】中央値
median(別名第2四分位数)量的変量を順序尺度の性質で処理した代表値
順番に並べたとき真ん中の順位にきた個体の値
個体数が偶数の時は真ん中2つの数値の平均値
【代表値】最頻値
mode(流行,はやり)違う意味で数の理論(多数決)の世界
量的変量を名義尺度の性質で処理した代表値
名義尺度でわかることは一緒か違うか
階級毎に度数をカウント
一番多いところの階級値
一位が同点の時は併記
演習1-9
演習1-8のデータより科目別の平均値【AVERAGE】,中央値【MEDIAN】最頻値【MODE.SNGL】を求めよ
平均値と中央値の考え方の違い

平均値(14.55)

こちらは分布なんて関係なく中央値(15)
データの分布に依存する(パラメトリック)=平均値 と データの分布に依存しない(ノンパラメトリック)=中央値,最頻値の関係がわかるかなと思います
例えば5が0に変わってしまうと平均値は大きく変わりますが,中央値は変わりません
パラメトリック・・・数値に依存する(数値の分布によって値が影響を受ける)というとイメージしやすいのかな?
【散布度】範囲
ある値~ある値までの広さ範囲
RangeR=最大値-最小値
特徴
外れ値もひらう
算出が用意
最大値と最小値がわかればその集団のバラツキがわかる
最大値maximum excel 【max】関数
最小値minimum excel 【min】関数
【散布度】四分位範囲
小さい順(昇順)に並べて集団を4分割分割する所の値を小さい方から第1四分位数(Q1),第2四分位数(Q2)=中央値,第3四分位数(Q3) 四分位範囲IQR(interquartile range)=Q3-Q1
四分位数の話
四分位数は出し方が何種類かあります.近年は高校で教育されていますがその方法も従来のものと異なるので細かい話はやめておきます【QUARTILE.INC】関数で第一四分位数(Q1),第三四分位数(Q3)求められます
【散布度】偏差
Deviation分散 標準偏差
varianceexcel関数は【VAR】【STDEV.P】
演習1-10
演習1-8のデータより科目別の範囲,四分位範囲,標準偏差を求めよ
第02回 PCの基本操作(2)度数
教科書12章D,13章C,14章A,B
使うexcel関数・・・countifもしくはcountifs
度数は質的データでも量的データでも求めることができる
質的データの度数分布表の作成
度数分布表
この授業では量的変量の度数分布表を作成する場合 A~B は A以上B未満として取り扱うそれぞれのデータ(変量)の数(出現頻度)をまとめたもの
変量が名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数 ・・・出現頻度
相対度数・・・総出現頻度を1(100%)としたときのそのぞれの度数のしめる割合
累積度数・・・上位の変量の度数もあわせた度数
累積相対度数・・・累積度数の相対版
店名 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|
1.00 | ||||
計 | 1.00 | ----- | ----- |

上記のCSV形式ファイル(nmuhlthstat1_2024-0102.csv)
演習2-1
上記のデータより度数分布表を作成せよ(累積度数,累積相対度数も)
1-2回目ここまで 但し演習2-1は累積度数,累積相対度数の説明をしていないのでそこから
量的変量の度数分布表
例えば身長を0.1cm単位で測定して度数分布表を作成しようとしたとき,全て度数は1で全体の状況の把握が出来ないケースがあるその場合ある程度の区間を設けて度数を求める
量的変数の場合はその数値だけで度数を積み上げようにもなかなか上手くいかない場合がある.
「A~B」は「A以上B未満」と読む格好がスタンダードと思っていますが,分野などによって違うようです 「A以上B以下」のようにどちらの階級にも属してしまう可能性のある設定はしないように. |
階級 | 階級値 | 度数 | 相対度数 |
---|---|---|---|
130~140 | 135 | ||
140~150 | 145 | ||
150~160 | 155 | ||
160~170 | 165 | ||
170~180 | 175 | ||
計 |
演習2-2
以下のデータの度数分布表を作成せよ

上記のCSV形式ファイル(medbbstat2023-0101.csv)
例題の出来上がりイメージ

演習2-3 例題2-2よりの度数分布表より求めた平均値と個票データから直接求めた平均値をもとめ,その違いを比較して差が生じる原因を考えよ
第03回 推定と検定(1)点推定(大数の法則)
第04回 推定と検定(2)点推定値に基づく標本の生成
教科書13章B1
点推定
大数の法則
サンプルサイズが大きくなるとその平均値は期待値に収束する.一様分布の場合
randbetween関数を用いると簡単に作成できる

正規分布の場合
rand関数はMIcrosoftの説明によると0以上1未満の乱数を発生するので確率と見做してNORM.INV関数で正規分布に変換するちなみに何回か試したところ 1.15822E-05~0.999990932 のように 0を超え1未満の数値しか返さないが 小数点下適当(4桁レベル)で四捨五入すれば0以上1以下の形になる


演習3-1
身長140.0cm~160cmのダミーデータをrandbetween関数を用いて作成し(サンプルサイズ10000)),ヒストグラムで分布を確認し大数の法則を確認せよ
演習3-2
身長の分布は正規分布であるといわれる.そこでrand関数,NORM.INV関数を用いて20歳成人男性のダミーデータを10000人分作成し,ヒストグラムで分布を確認し大数の法則を確認せよ.
なお,データ生成においては国民健康・栄養調査の資料を参考に令和5年の年齢及び性別をそれぞれ自分で決めた上で作成のこと
国民健康・栄養調査(厚生労働省)
https://www.mhlw.go.jp/bunya/kenkou/kenkou_eiyou_chousa.html
第05回 推定と検定(3)区間推定
教科書13章B5
演習5-1
=norm.inv()
ある試験の受験者100人から点を教えてもらったところ平均値(点推定)=65点 標準偏差(点推定)=18点であった.
受験生の得点の分布は正規分布と仮定出来るとして,得点の区間推定を信頼区間95%で示せ
演習5-2
=norm.inv()
ある試験の受験者100人から点を教えてもらったところ平均値(点推定)=65点 標準偏差(点推定)=18点であった.
受験全員(=母集団)の平均値の区間推定を信頼区間95%で示せ
演習5-3
自身で作成した演習3-2のデータからサンプルを100および1000抽出し,それぞれ母集団の平均の95%信頼区間を求めよ
講義後記
演習5-1:100人中95人が29.7~100.28の間に含まれる演習5-2:母集団の平均の95%信頼区間は61.5~68.5
演習5-3:人によって異なります


第06回 推定と検定(4)検定
教科書13章B5,B6
コンピュータを用いると直接確率を求めることができる
1標本(1群)Z(正規分布)検定
演習6-1
物騒な話ですが,ある自動販売機に偽造通貨が使われているのではないかという話が私のところに舞い込んできた.
話を聞くともっともらしい仮説が既にあるので検証することにした.
NORM.DIST 関数を用いて行うこと
10円玉ID | 重量(g) |
---|---|
1 | 4.55 |
2 | 4.53 |
3 | 4.23 |
4 | 4.50 |
5 | 4.51 |
6 | 4.31 |
7 | 4.38 |
8 | 4.54 |
9 | 4.35 |
10 | 4.30 |
1標本(関連2群)t検定
T.TEST()関連する2群・・・一つの対象集団を2回測定して標本を二つ作る.それぞれの標本から同一IDを確定できるのでその前後の差をとって検定する
演習6-2
新開発のシューズを2種類開発した.それぞれ同一被験者に従来型と新型を履いて5km走のタイムを計測し比較を行った.
有意水準5%両側検定を行い効果があるのか検証せよ
2標本(独立2群)t検定
T.TEST()関連の無い2群・・・二つの条件が異なる集団を1回測定し標本を二つ作る.それぞれの標本が同じ分散であることが前提となる(等分散・・証明できない場合でも行える手法はある(というより最初からその手法使ったらよいという考え方もある)) 分散も合成する必要が出てくる
例題6-3
バセドウ患者12人に協力いただきそれぞれ6人ずつ従来の薬剤を当投与した群と新薬を投与した群に分けて脈拍数を測定した.
新薬に効果があるのか検証せよ
ID | 対照群(従来群) | 比較群(新薬群) |
---|---|---|
1 | 98 | 86 |
2 | 88 | 73 |
3 | 100 | 95 |
4 | 96 | 92 |
5 | 107 | 99 |
6 | 114 | 116 |
講義後記
> 検定の話は,そもそもの話なのでしたので保健統計学Ⅰの範囲でもありますそちらの復習もしておいてください
本科目においても試験の範囲になります(PC使っているところは意味合いを含めて各自取り組んでおいてください)
演習6-1:NORMDISTより0.0166(片側)→有意水準両側5%だと帰無仮説を棄却 対立仮説を採択
演習6-2:t.testより0.0479(両側)→有意水準両側5%だと帰無仮説を棄却 対立仮説を採択
演習6-3:t.testより0.33798(両側)→有意水準両側5%だと判定保留

第07回 既存の統計資料の入手と活用
第08回 まとめ
教科書教科書1)第10章
教科書2)P81他
キーワード:悉皆調査,標本調査,動態調査,静態調査
厚生労働統計(医療)
医療は「2.保健衛生」の中で3項目からなっている.https://www.mhlw.go.jp/toukei/itiran/index.html#anc-02
衛生行政報告例
https://www.mhlw.go.jp/toukei/list/36-19.htmle-stat上のデータはcsv形式