大阪保健医療大学　統計学２０２３（保健医療学部リハビリテーション科）

授業メニュー

第1回　尺度，データ形式

第2～6回　データの取り込み，整理（１）～（５）

第7～11回　推定（１）～（５）

第12回　t検定

第13回　カイ二乗検定

第14回　判断分析－感度・特異度・ROC曲線（１）～（２）

第1回　尺度，データ形式

到達目標
１－１　４つの尺度について説明できる
１－２　ネットワーク上で取り扱うデータ形式について説明できる

統計とは

教科書による統計学

『統計学はあくまで「確率で真の結論を推測する」だけ』

私の考える統計学

『気づかせてくれるもの。うすうす気づいていることを確認するもの』

私の考える医療統計学（2015）

『ある事象のなかで一般化出来るもの（法則性）を見いだすことは、その個別の事例にとどまらず広く利用できる知見をもたらす。そのためには複数の事例を集めて検討する統計処理が必要になる。
　それゆえ、統計処理は個別の事情を発生頻度などある条件に従って排除する主義に基づく。
　私達の周りで起こる様々な事象は自然現象によるものだけではなく人間活動などの人工的な要因の影響を受けるものも多く、そのため法則性を見いだすにはそれぞれの領域の目的に応じた統計処理が必要となる。
　医療統計学は、単に生物としてだけではなく活動状況も多様な集団である人に対して、提供する医療が及ぼす影響やその要因に関する法則性を見いだす方法を探求する学問分野である。』
（複雑なため確定的な事象はなく確率的に取り扱う必要がある）

統計の分類

記述統計と推測統計に分類される

記述統計とは

・収集したデータを要約してその集団の状況を表す
・そこにあるデータは全体（母集団）
・度数（分布）・代表値・散布度など

変量(データ)の分類・・・測定尺度

変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。
それぞれを尺度と呼び、4つに分類するのが一般的である（P5）
１名義尺度
２順序尺度
３間隔尺度
４比例尺度

１，２を質的データ（変量）（定性的）
３，４を量的データ（変量）（定量的）
性質としては上位互換性があり
４＞３＞２＞１

ネットワーク上で取り扱うデータ形式について

ネットワーク上で取り扱えるデータは全て0,1の何れかの数値の羅列．
皆さんがスマホやＰＣで見ている各種データは人にわかるように表示している
ohsustat2020-0107.png(352827 byte)

拡張子によって人はデータの形式を知ることができる
ohsustat2020-0108.png(321674 byte)

ＣＳＶはシンプルな形式なので，様々なソフトで取り扱うことができます

本日の課題

１　４つの尺度（名義尺度，順序尺度，間隔尺度，比例尺度）の例を挙げよ．　　但し以下に例示したものを除く．
　　名義尺度・・・動物の名前
　　順序尺度・・・順位（特等　一等　二等　三等・・・）
　　間隔尺度・・・摂氏温度（℃）
　　比例尺度・・・絶対温度（゜K）
２　拡張子・・・使ったことのあるファイルの拡張子を５つ程度

第2～6回　データの取り込み，整理（１）～（５）

到達目標
２－１　ネットワーク上にあるデータを探すことができる
２－２　ネットワーク上のデータを取り込むことができる

厚生労働統計一覧

https://www.mhlw.go.jp/toukei/itiran/index.html
医療従事者に関するところを中心に

課題

令和３年医療施設（動態）調査

都道府県別の病院数と病床数をまとめよ

病床機能報告

令和３年度病床機能報告の結果を用いて，大阪府内の一般病院に勤務している常勤のPT,OTの人数と施設数をまとめよ

第3回　データの取り込み，整理（２）

前回の振り返りと，知ってて役に立ちそうなエクセルの使い方など

参考資料

セルの絶対参照，相対参照（エクセル）(Medbb's blog)
https://medbb.hatenablog.com/entry/2022/07/18/120000

出来上がりサンプル

第4回　データの取り込み，整理（３）

年齢区分別（年少人口（０～14歳）生産年齢人口（15～64歳）老年人口（65歳～））の無医地区と準無医地区の住民の合計についてその割合を都道府県別に求めよ

用いるデータ

無医地区等調査（厚生労働省）

令和元年度無医地区等調査　第５表　年齢階級別・男女別、人口
https://www.mhlw.go.jp/toukei/list/76-16.html

人口推計 / 各年10月1日現在人口（e-stat総務省統計局）

https://www.e-stat.go.jp/stat-search/files?page=1&layout=datalist&toukei=00200524&tstat=000000090001&cycle=7&year=20190&month=0&tclass1=000001011679

出来上がりサンプル

第5回　データの取り込み，整理（４）

新型コロナウイルス感染症

用いるデータ

データからわかる－新型コロナウイルス感染症情報－（厚生労働省）

https://covid19.mhlw.go.jp/
年代別新規陽性者数（週別）
https://covid19.mhlw.go.jp/public/opendata/newly_confirmed_cases_detail_weekly.csv

人口推計の結果の概要（総務省統計局）

https://www.stat.go.jp/data/jinsui/2.html
人口推計（2022年（令和4年）10月1日現在）
https://www.stat.go.jp/data/jinsui/2022np/index.html

出来上がりサンプル

以下のものを全国と大阪府と奈良県の３パターンで出来ればと考えています

東京都年齢階級別新型コロナウイルスの新規陽性患者数（7日移動平均人口10万対）3月24日～10月24日． pic.twitter.com/oYriGiJReK
— めどぶぶ (@medbb) October 25, 2020

全国

大阪府

奈良県

参考

セルの絶対参照，相対参照（エクセル）（Medbb's blog）
https://medbb.hatenablog.com/entry/2022/07/18/120000

第6回　データの取り込み，整理（５）

文字データの解析

解析例

「コンソーシアム実習」地域医療学概論（分担：奈良県の地域医療）（奈良県立医科大学医学部医学科・早稲田大学）
https://medbb.net/education/wasedanmucom2021/
保健医療分野におけるフューチャー・デザインの可能性
https://medbb.net/education/futuremed20190406

形態素解析器

Web茶まめ
https://chamame.ninjal.ac.jp/

参考

tf-idf（term frequency - inverse document frequency）とは？（ITmedia）
https://atmarkit.itmedia.co.jp/ait/articles/2112/23/news028.html#:~:text=%E8%87%AA%E7%84%B6%E8%A8%80%E8%AA%9E%E5%87%A6%E7%90%86%EF%BC%8F%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92,%E6%96%87%E6%9B%B8%E4%B8%AD%E3%80%8D%E3%81%A7%E3%80%8C%E3%81%82%E3%82%8B%E5%8D%98%E8%AA%9E

用いるデータ

まちづくりアンケート調査など（高山市）
https://www.city.takayama.lg.jp/shisei/1004958/1006854.html

第7～8回　推定（１）～（２）

到達目標
７－１　点推定をすることができる
７－２　平均値の区間推定を出来る

記述統計量（代表値）

代表値と散布度からなる．←駅伝やマラソンの実況中継はこれらを利用しているから状況がわかる

平均（Mean）

算術平均
average
いわゆる割り勘．xbar=1/n(x1+x2+･･･+xn)
欠点：外れ値があると平均値は分布の中心位置を示さない（←それって代表的な値？？）
　→　対処法：外れ値を取り除くか中央値を使うか
幾何平均（相乗平均）
全て掛け合わせて累乗根をとる
加重平均
重みづけ平均
例えば　ミニテストと期末試験の平均をとる　→　そのままの平均で良いの？
度数分布表を用いた平均もこの方法・・・Σ（階級値×階級の度数）／ｎ

中央値

median
昇順に並べたときに，真ん中の順番のデータ（変数）の値
データの数が偶数だと真ん中のデータは二つになるのでそれらの平均値

最頻値

mode
最も個数が多いデータの値
最頻値は複数存在する場合がある→二峰性

平均値と中央値の考え方の違い
nmuhimstat2021-11.png(10453 byte)

平均値（14.55）
nmuhlthstat202102-01.png(21147 byte)

こちらは分布なんて関係なく中央値（15）データの分布に依存する（パラメトリック）＝平均値　と　データの分布に依存しない（ノンパラメトリック）＝中央値，最頻値の関係がわかるかなと思います
例えば５が０に変わってしまうと平均値は大きく変わりますが，中央値は変わりません
パラメトリック・・・数値に依存する（数値の分布によって値が影響を受ける）というとイメージしやすいのかな？

記述統計量（散布度）

範囲

最大値と最小値の差 max,min

四分位範囲

quartile
IQR＝第３四分位数（75%点）-第１四分位数（25%点）（参考：中央値=第２四分位数（50%点））
第３四分位数（75%点）の算出方法は数多くありまして・・・

一番わかりやすい四分位数の出し方は以下参照ください
実際には何種類か出し方があります．
ダンゴ包丁理論（tukeyのヒンジ） https://medbb.hatenablog.com/entry/2020/12/12/091240

分散　標準偏差

var
範囲を用いた散布度と違い，平均値からのバラツキ（差＝偏差）の平均を求めようというもの
ただし偏差の平均をとれば集団内の各々のズレっぷりがわかると思って計算しても　→　合計は常に０　故に平均も常に０
そこで偏差を二乗したものの平均を取っている　→　分散
ohsustat2023-0701.png(55457 byte)

標準偏差は分散の正の平方根をとったもの
nmubiostat2016-0302.png(3064 byte)

例題

以下の身長のデータより，算術平均，中央値，最頻値，範囲，分散，標準偏差を求めよ
medbbstat2022-0102.png(5335 byte)

csvファイルはコチラをクリック

点推定

一つの数値（点）で推定値を示すこと
欠点：推定値と真の値がどの程度ズレているのかよくわからない
利点：区間推定よりも簡単に算出できる
推定をしても必ず一致するわけでもない→せめて偏りなくバラついてほしい→不偏推定量

平均値

標本から求めた平均値は母集団の平均値の不偏推定量か？
以下は20000のデータから標本数10の平均値を求めたもの（標本数2000）をヒストグラムにしたもの
medbbstat2022-0202.png(96791 byte)

125.0未満の標本平均になった標本の数 1000(50.0%)
標本平均が125.0になった標本数 22(1.1%)
125.0を超えた標本平均になった標本の数978(48.9%)

分散

標本から求めた分散は母集団の分散の不偏推定量か？

標本の分散

以下は20000のデータから標本毎に求めた平均（標本平均）を用いて分散を求めたもの（標本数2000）をヒストグラムにしたもの
medbbstat2022-0203.png(135831 byte)

母分散の値よりも低く出る標本が多い→偏っている

母平均を用いた標本の分散

それでは母平均を用いて標本ごとの分散を求めると以下のようになる
medbbstat2022-0204.png(137439 byte)

偏っていない推定が出来るが，そもそも母平均を用いることが出来るわけもなく・・・

不偏分散（標本の平均を用いて母分散の推定を行う）

＜参考＞不偏分散は何故nではなく（n-1）で除するのか（生物統計学2018奈良医大）
https://medbb.net/education/nmubiostat2018/index.html#VAR

考え方としては標本の平均を用いた分散と母平均を用いた分散を比較すると，標本の平均を用いた分散≦母平均を用いた分散になる．
今回のデータで検証すると
標本の平均を用いた分散＜母平均を用いた分散　1978
標本の平均を用いた分散＝母平均を用いた分散　22
標本の平均を用いた分散＞母平均を用いた分散　0
ということで，標本平均を用いて母分散の推定を行うには，少し値を大きくしないといけない
上記の＜参考は＞母平均を用いた式を標本平均に置き換えて式を変化させた話　→　結論は偏差平方和を標本数nではなくn-1で除すると良い
medbbstat2022-0205.png(146106 byte)

課題

１

以下の3つの標本の個票データよりそれぞれの標本から母平均と母分散，標準偏差を点推定せよ
medbbstat2022-0206.png(9215 byte)

２

var.p（分散）とvar.s（不偏分散）の関係を示せ

区間推定

点推定に幅をもたせたもの．
幅の定義は確率（どの程度あたるものか）
∴100%あたる推定に意味は無い→確実に当たる幅を設定したら達成できるので
一般的に95%の確率で当たる区間（95%の信頼区間）で幅を決めている
平均値の区間推定については標準誤差を基準に計算する

標本平均の標準偏差＝標準誤差

・標準偏差は標本の中でのそれぞれの値の分布のバラツキ具合を示したもの
・標準誤差は標本の平均は標本ごとに異なるのでそのバラツキ具合を示したもの
2000の標本(n=10)より求めた平均値から分散を求めると8.01396
((((ID1~10の平均値)-125)^2)/10+(((ID11~20の平均値)-125)^2)/10+・・・+(((ID19991~20000の平均値)-125)^2)/10)/2000=8.01396
標本数は10，母分散は80.97なので母分散／標本数≒標本平均の分散
∴母標準偏差／√標本数≒標本平均の標準偏差
という関係があるように見える　→　数式を展開するとそのような関係が導ける．以下参照

＜参考＞標準誤差SEはなぜ標準偏差σを√nで除するのか（生物統計学2018奈良医大）
https://medbb.net/education/nmubiostat2018/index.html#SE

正規分布

人など生物の成長に関わるものなどは、正規分布に近いとされている
平均値に近い事象ほど多く起こり，平均値から離れていくほど少なくなっていく（どこまで離れていってもその事象は起こる）

標準正規分布表

正規分布は平均値を０とし，正規分布の広がりは分散に依存するので分散＝1　つまり　標準偏差＝1としたときに，平均値離れて行く程（Ｚがプラス方向に大きく　マイナス方向に小さく）ズレることで出現確率が低下することを表わしたもの
曲線下の面積＝１（100%）
kuswepi2021-01.png(339177 byte)

標準正規分布表のPDF版はコチラから

中心極限定理

血圧のデータは先に示した通り単純に乱数で発生させただけなので，サイコロと同様にどの血圧値も均等に出現しております．
なので母集団のデータの分布は正規分布ではないのですが，母集団の分布によらず、抽出した標本の平均値は表本数が大きくなるほど近似的に正規分布に従うという性質があります．

課題（授業内）

確率（面積）とZ値の関係の確認を行う
例：95%の信頼区間を求める時のZ値は？

課題１

母集団20000人からなる収縮期血圧を整数だけで記録される血圧計を用いて測定したデータの件
20000のデータから標本数10の平均値を求めたもの（標本数2000）が，正規分布と同じような状況になっているか検証せよ
medbbstat2022-0209.png(226155 byte)

度数分布表は以下
それぞれの階級の出現確率を求めて検証すること
medbbstat2022-0201FDT.csv
偏差値は平均点を５０として，1標準偏差分良い点悪い点を取っていたら偏差値を±１０として求める．
Z値は平均値を０として1標準偏差分高い値，低い値であったら±１として求める

標本平均を用いた母平均の区間推定

いわゆる一般に行われる区間推定の話になります．
検証したのはどなたも知るはずがない母数（母集団の平均値や母分散）を用いましたが，実際に標本からデータを取り平均値を推定する際に求めることが出来るのは，一つの標本から標本平均を求めることと不偏分散を求めるところまでです
そのため推定は標本のデータおよび正規分布を用いて95%の信頼区間を求めることで20回標本を抽出すれば19回は含まれるであろう区間推定を行うことになります．
medbbstat2022-0212.png(208429 byte)

課題２

以下のデータセットからサンプル数10毎に平均を求め95%信頼区間で母平均の推定を行え．
medbbstat2022-0201b301_500.csv

回答例（t分布による推定付き）

medbbstat2022-0201b301_500A.xlsx

第12回　t検定

到達目標
１２－１t分布を説明できる
１２－２検定の多重性について説明できる

t分布

2群の平均値の推定や検定において，標準正規分布を使うと上手くいかない・・・特に標本数が少ないと
困っていたゴセットさんが標本数によって平均値の出現する確率が変化する分布を示しました．
諸々の理由でt分布と呼ばれています．

酒井弘憲，ギネスビールと統計家ペンネーム　スチューデント，ファルマシア51巻12号,2015
https://www.jstage.jst.go.jp/article/faruawpsj/51/12/51_1168/_article/-char/ja

正規分布は母集団の分散（標準偏差）が必要で変化しないが，t分布は標本より求めた不偏分散を用いるが，標本の自由度（標本数より求める）によって変化する．
故に標本数が多くなるとｔ分布は正規分布に近似されていく．
nmuhims2022-01.png(169858 byte)

t分布のPDF版はコチラから

「自由度」νが出てきますが，以下考え方

標本の中で自由に振る舞うことが許されている値の数
例えば標本から平均を求めたとき,その平均が母数の推定値としたら、自由に振る舞えない値が出てくる（つじつま合わせ）

検定

二つの仮説（本当に証明したい仮説=H₁対立仮説と，H₀帰無仮説）を基準とする確率（有意水準α）に基づきいずれかを採択する．
流れは帰無仮説を棄却するかしないか→棄却した場合は対立仮説
H₀　μ＝０
H₁　μ≠０
という感じで検定する人は帰無仮説は世の中的に想定内　対立仮説は想定外　という恰好で帰無仮説を棄却して対立仮説を採択することを祈っている（と思う）

仮説検定を行う理由は，既に仮説があって立証する形をとっているからです．
「後出しじゃんけん」だと偶然出た結果であってもなんでも言えるわけで，本当なの？となってしまいます．
詳しい話は以下の資料を読んでいただけると良いかなと思います．
＜参考＞研究におけるデータ収集と統計処理について－医の共通科目（奈良県立医科大学大学院医学研究科）
https://medbb.net/education/nmucsmed2022/

検定の流れ

１：帰無仮説H₀，対立仮説H₁を設定（対立仮説が証明したい説）
２：有意水準を定める（通常5%　0.05)
３：標本より求めたデータから検定統計量を求める（t分布を使うならt値，正規分布を使うならZ値）
　＜母集団から見た標本の平均値＞
　t=（集団の平均値－母集団の平均値）／標準誤差
　＜集団内の個々の観測値＞
　z=（観測値－その集団の平均値）／標準偏差
　＜母集団から見た標本の平均値＞
　=（集団の平均値－母集団の平均値）／標準誤差
４：検定統計量からその標本がどの程度の確率でおこる事柄か確率Pを求める（統計表より）
５a：P値が有意水準よりも小さい場合は帰無仮説を棄却し対立仮説を採択（違いがある）
５b：P値が有意水準よりも大きい場合は判定保留（元々の仮説がるので今回証明できなかっただけ．無論何回も実験を行い証明が出来ないと・・・）

有意水準よりも小さい確率の領域を棄却域，有意水準よりも大きい確率の領域を採択域・・・どちらも帰無仮説を基準の名称になっています．
基本は確率（P値と有意水準）で採択域か棄却域か判断するのですが，実際には検定統計量同士で比較するケースの方が多くなるかと思います．
大小関係を整理しておかないとわからなくなるので，確率分布図を思い浮かべていただけたら混乱しないと思います

t検定

２群の平均値に差があるのかを統計的に検証
t分布を使う（参考　正規分布を使うのはz検定）
（一群のｔ検定もあるがそれは割愛）
関連のある２群（一標本）と関連の無い２群（二標本）のケースがある

独立2群

異なる二つの群（例：何かを施した群と何もしていない群）の平均値の比較
計算するにあたっては，それぞれの群の分散（標準偏差）を合成するので，あまりにも異なる場合はそれ用のWelchのt検定を用いる
（最初からWelchのt検定を行ったほうが良いという説を支持しています）

頑健性（ロバストネス）

母集団の分部が正規分布であることを前提としているが・・・

例題

例題１

リハビリ前後で患者さんの動作にかかる時間を測定したところ以下の結果になった．
効果があったのか検定せよ
CSVデータはコチラ

例題２

SSDSE-基本素材（SSDSE-E）
https://www.nstac.go.jp/sys/files/SSDSE-E-2023.csv
をダウンロードし都道府県別の中学と高校の生徒数に違いがあるか検定をせよ
また，都道府県によって中学と高校の学校あたりの在籍人数に違いがあるか検定せよ
＜参考＞SSDSE（教育用標準データセット）（独立行政法人統計センター）
https://www.nstac.go.jp/use/literacy/ssdse/

第13回　カイ二乗検定

到達目標
１２－１カイ二乗分布を説明できる
１２－２期待値（度数）を求めることが出来る

カイ二乗分布

母分散を推定できる確率分布
χ^２＝ΣＺ_ｉ^２

カイ二乗分布表

t分布と同じく自由度により確率分布は変化する
カイ二乗分布（ν＝１）の時のそれぞれの上側確率に相当する正規分布の確率（両側5%（片側2.5%ずつ）は全て上側に集約されてしまう
χ^２=（（X-μ）／σ）^２
χ^２_０．０５=（（１．９６-０）／１）^２
例）標準正規分布で有意水準両側５％の場合の境界値はz=1.96．カイ二乗分布表より有意水準上側５％の時のカイ二乗値＝3.84
nmuhims2022-02.png(176367 byte)

カイ二乗分布のPDF版はコチラから

独立性の検定（カイ二乗分布）

度数の比較（名義尺度でもOK）
被験者からコーヒーおよび煙草に関してアンケートをとり，コーヒーとタバコに関連がある（対立仮説）か無い（帰無仮説）か調べる
事象の起こる確率は実際に観測された度数を基に算出して全体の度数を乗じることで期待値（度数）とする．
nmuhlthstat1202106-02.png(3628 byte)

期待値は周辺度数より求める格好
nmuhlthstat1202106-03.png(3808 byte)

喫煙あり×コーヒー好きの期待値＝１００×９０／１６０＝５６．２５　以降も同様に全ての組み合わせで期待値を求める
喫煙あり×コーヒー好きのカイ二乗値＝（７５－５６．２５）^２／５６．２５＝６．２５　以降も同様に求め足し合わせる
χ^２＝6.25+10.42+8.04+13.39=38.10
この集計表の自由度は１・・・χ^２_0.05(1)＝3.84
帰無仮説を棄却し対立仮説を採択．つまり関連がある．

例題

例題１

１．コーヒーの好き嫌いが運動習慣に関連があるのかアンケート調査を行った．有意水準５％で検定を行え

２．上記の各セルの度数を勝手に倍にしてみた．（無論現実にはやってはいけない）同様に検定を行え

例題２

SSDSE-基本素材（SSDSE-E）
https://www.nstac.go.jp/sys/files/SSDSE-E-2023.csv
より奈良と近畿の他府県の転入者数と転出者数の関係を比較せよ

第14回　判断分析－感度・特異度・ROC曲線（１）～（２）

到達目標
１４－１判別特性値の計算が出来る
１４－２評価結果よりROC曲線を作成し評価やカットオフ値の検討が出来る

検査法の診断的有用性を評価する話
ocrotstat2022-0301.png(344953 byte)

	疾患あり	疾患なし	指標
検査陽性	真陽性 a	偽陽性 b	陽性的中率 a/(a+b)
検査陰性	偽陰性 c	真陰性 d	陰性的中率 d/(c+d)
指標	感度 a/(a+c)	特異度 b/(b+d)	有病率 (a+c)/(a+b+c+d)

予測値

有病率の影響を受ける
陽性的中率＝P(Ｄ|陽性)
陰性的中率＝P(Ｄc|陰性)

感度と特異度

感度＝P(陽性|Ｄ) 　疾患群における真陽性の割合
偽陽性率＝P(陽性|Ｄc) 非疾患群における偽陽性の割合
特異度＝１－偽陽性率非疾患群における真陰性の割合
ocrotstat2022-0302.png(394121 byte)

検査法の評価指標

AUC＝ROC曲線を描いて算出　検査の分別能

ROC曲線

教科書（P119）
判別度の分析
感度と偽陽性率（１－特異度）を用いて曲線を描く
ocrotstat2022-0304.png(355176 byte)

カーブが左上に行くほど検査特性が優れている．（＝AUCが大きくなる）
判断基準は諸々の要素が入るが1,0と0,1の対角線と曲線の交わる部分が目安．あとは検査の目的などによって変わってくる

尤度比

オッズ比

オッズ・・・値が高いほど感度が高い
オッズ比は疾患無しのオッズに比べ疾患有のオッズがどの程度高くなるのかの比

例題

2種類の検査法A,Bを施行したところ以下の結果を得た．
AUCを求めどちらの検査が優れているか評価せよ
A法

疾患群	14.3	15.2	13.8	14.1	13.9	12.6	14.2	14.6	13.1	13.7
非疾患群	13.2	14.1	13.8	13.6	12.9	12.4	12.1	12.3	12.3	12.8

B法

疾患群	14.3	15.2	13.8	14.1	13.9	12.6	14.2	14.6	13.1	13.7
非疾患群	13.2	14.3	13.8	12.9	14.4	14.4	12.1	15.3	12.3	12.8

例題２

以下の個票データよりどちらの検査が優れているか検証せよ
C法　ohsustat2023-1401.csv
D法　ohsustat2023-1402.csv

補足

上記C法の結果

Medbb.net

大阪保健医療大学 統計学２０２３（保健医療学部 リハビリテーション科）

授業メニュー

第1回 尺度，データ形式

統計とは

教科書による統計学

私の考える統計学

私の考える医療統計学（2015）

統計の分類

記述統計とは

変量(データ)の分類・・・測定尺度

ネットワーク上で取り扱うデータ形式について

本日の課題

第2～6回 データの取り込み，整理（１）～（５）

厚生労働統計一覧

課題

令和３年医療施設（動態）調査

病床機能報告

第3回 データの取り込み，整理（２）

参考資料

出来上がりサンプル

第4回 データの取り込み，整理（３）

用いるデータ

無医地区等調査（厚生労働省）

人口推計 / 各年10月1日現在人口（e-stat総務省統計局）

出来上がりサンプル

第5回 データの取り込み，整理（４）

用いるデータ

データからわかる－新型コロナウイルス感染症情報－（厚生労働省）

人口推計の結果の概要（総務省統計局）

出来上がりサンプル

全国

大阪府

奈良県

参考

第6回 データの取り込み，整理（５）

解析例

形態素解析器

参考

用いるデータ

第7～8回 推定（１）～（２）

記述統計量（代表値）

平均（Mean）

中央値

最頻値

記述統計量（散布度）

範囲

四分位範囲

分散 標準偏差

例題

点推定

平均値

分散

標本の分散

母平均を用いた標本の分散

不偏分散（標本の平均を用いて母分散の推定を行う）

課題

１

２

区間推定

標本平均の標準偏差＝標準誤差

正規分布

標準正規分布表

中心極限定理

課題（授業内）

課題１

標本平均を用いた母平均の区間推定

課題２

回答例（t分布による推定付き）

第12回 t検定

t分布

「自由度」νが出てきますが，以下考え方

検定

検定の流れ

t検定

独立2群

関連2群

頑健性（ロバストネス）

例題

例題１

大阪保健医療大学　統計学２０２３（保健医療学部リハビリテーション科）

第1回　尺度，データ形式

第2～6回　データの取り込み，整理（１）～（５）

第3回　データの取り込み，整理（２）

第4回　データの取り込み，整理（３）

第5回　データの取り込み，整理（４）

第6回　データの取り込み，整理（５）

第7～8回　推定（１）～（２）

分散　標準偏差

第12回　t検定

第13回　カイ二乗検定

第14回　判断分析－感度・特異度・ROC曲線（１）～（２）