奈良県立医科大学　生物統計学２０２３
（医学部医学科）

もしオンライン開講になる場合は，teamsで実施します．
出欠は対面講義の場合は出欠システム（学生証）で，オンラインの場合は授業内で確認します．

授業メニュー

第01回　オリエンテーション

第02回　記述統計（尺度，度数，基本統計量）

第03回　平均値の推定

第04回　検定の原理

第05回　パラメトリック検定

第06回　ノンパラメトリック検定

第07回　計数値データの検定

第08回　【AB合同】中間まとめ（テスト）

第09回　独立多群間の比較（１）分散分析

第10回　【AB合同】独立多群間の比較（２）多重検定

第11回　相対危険

第12回　感度・特異度・ROC曲線

第13回　相関係数，回帰分析

第14回　生存時間分析

第15回　統計処理を行う上での注意点

第01回　オリエンテーション

到達目標
１－１　記述統計と推測統計について説明できる
１－２　能動的な学修を行うことを心に誓うことができる

本授業の位置付け

医学教育モデル・コア・カリキュラム（令和４年度改訂版）をベースに構成
https://www.mext.go.jp/a_menu/koutou/iryou/mext_00002.html

本講義が医学教育モデル・コア・カリキュラムにおいて担う部分・関連のある部分

PR: プロフェッショナリズム

人の命に深く関わり健康を守るという医師の職責を十分に自覚し、多様性・人間性を尊重し、利他的な態度で診療にあたりながら、医師としての道を究めていく。

PR-01: 信頼

PR-01-01-01 患者や社会に対して誠実である行動とはどのようなものかを考え、そのように行動する(利益相反等)。
PR-01-01-02 社会から信頼される専門職集団の一員であるためにはどのように行動すべきかを考え、行動する。
PR-01-02-01 自分自身の限界を適切に認識し行動する。
PR-01-02-02 他者からのフィードバックを適切に受け入れる。

PR-03: 教養

医師に相応しい教養を身につける。
PR-03-01-01 人の生命に深く関わる医師に相応しい教養を身につける。
PR-03-01-02 答えのない問いについて考え続ける。

GE: 総合的に患者・生活者をみる姿勢

患者の抱える問題を臓器横断的に捉えた上で、心理社会的背景も踏まえ、ニーズに応じて柔軟に自身の専門領域にとどまらずに診療を行い、個人と社会のウェルビーイングを実現する。

GE-01: 全人的な視点とアプローチ

GE-01-04-01 根拠に基づいた医療(EBM)の 5 つのステップを列挙できる。
GE-01-04-02 PICO(PECO)を用いた問題の定式化ができる。

SO: 社会における医療の役割の理解

医療は社会の一部であるという認識を持ち、経済的な観点・地域性の視点・国際的な視野等も持ちながら、公正な医療を提供し、健康の代弁者として公衆衛生の向上に努める。

SO-02: 疫学・医学統計

SO-02-02-02 割合・比・率の違い及び代表的な疫学指標(有病割合、リスク比、罹患率等)を理解している。
SO-02-03-01 尺度(間隔、比、順序、名義)について説明できる。
SO-02-03-02 データの分布(欠損値を含む)について説明できる。
SO-02-03-03 正規分布の母平均の信頼区間について説明できる。
SO-02-03-04 相関分析、平均値と割合の検定等を実施できる。
SO-02-03-05 多変量解析の意義を理解している。

これまでのコアカリで出ていたところより

頻度と信念の度合い

頻度に基づく確率

観察してある事象が出現する割合より確率を求める
客観的・・・誰もが同じ確率を求めることが出来る・・・科学的

信念の度合いに基づく確率

主観的・・・人により確率の見立てが異なる・・・非科学的？

信念の度合いは何に基づく？

以下のようなものでしょうか
→自身の知識
→自身の経験
→状況の観察
医学知識＋経験＋状況把握

頻度と信念の度合いの不一致

二つの箱AとBがあります．アタリとハズレが一枚づつ． nmubiostat2022-0001.png(331306 byte)

繰り返し観察するとあたる確率は50%近辺（になるはず）．
ところが，何故か確率が片方に偏ってしまう場合がある．
nmubiostat2018-0101.png(310373 byte)

幅広い情報を収集し考えていく必要があるということで，関わる医療関係者や住民の方の理解やコミュニケーションが必須になるというのも頷けるのではないかと

参考資料

岡本義則, 中島秀之, 大澤一郎，確信度と主観確率を持つ信念推論システム，人工知能学会誌1992 年 7 巻 2 号 p. 263-270
https://www.jstage.jst.go.jp/article/jjsai/7/2/7_263/_article/-char/ja

本授業の目的

　生物統計学は、保健医療分野における課題を統計的手法により明らかにし解決に資する学問である。ここでは、統計学の基礎から本分野においてどのような統計的手法が用いられてきたのか理解し、データの収集・解析・結果の解釈に必要とされる基礎知識を修得する。

本授業の到達目標

Ⅰ　倫理観とプロフェッショナリズム

□医療者として研究倫理・規範を理解し説明できる
□医学、医療の発展に統計分析が寄与することを説明できる
□生涯にわたり統計分析について関心を持ち続ける必要性について説明できる

Ⅱ　医学とそれに関する領域の知識

統計と医学の関わりについて説明できる

Ⅵ　国際的視野と科学的探究

□新たな知見と統計分析の関係について説明できる
□科学的研究で明らかになった知見における統計手法について説明できる

教科書

新版統計学の基礎第2版
カラーイメージで学ぶ新版統計学の基礎　第2版

参考図書

授業中に紹介します

参考資料

必要に応じて適宜配布しますがなるべく配布せずに済むように出来たらと思っています

授業の進め方

課題は各自取り組んでください．提出は求めませんが不明点などはteamsのチャットで私の方に都度メッセージください．
この授業は，２グループ制で行いますが，一部合同で行う場合もありますのでご注意ください．
オフィスアワーは特に設けていないので，気になった時にTeamsからご連絡ください．
基本，学生さんとは夜10時までにやり取りを終わるよう配慮していますが，問題が気になって眠れない状況と思われるときは対応するときもあります．
授業で一つくらいわからなかったり理解できない部分が出てくるかと思うので，ご遠慮なく積極的に連絡ください

出席確認

対面・・・学生証をカードリーダーにタッチ
オンライン・・・授業中に確認します．ログも確認します

単位認定

■授業態度(20%)《Ⅰ》
■小テスト(20%)《Ⅵ》
■定期試験(60%)《Ⅰ，Ⅱ，Ⅵ》

備考

電卓持ち込みにしようかどうしようか考え中

統計の世界の枠組み

記述統計と推測統計に分類される

記述統計とは

・収集したデータを要約してその集団の状況を表す
・そこにあるデータは全体（母集団）
・度数（分布）・代表値・散布度・相関係数など

推測統計とは

事象の起こる確率を仮定した上で全体（過去・現在だけではなく未来も含む）を推測する。推定と検定に分類される。

推定とは

・収集したデータを基にしてその集団の状況を表す
・そこにあるデータは一部（標本）
・点推定・区間推定・モデリング

検定とは

・収集したデータを基にしてその集団の状況を仮定に従ってyes/Noで判断する
・そこにあるデータは一部（標本）
・t検定・カイ二乗検定など

母集団とは

対象としている集団の全体を指し示すときに「母」を最初に付ける。
無限母集団と有限母集団からなる。
対象が有限か無限に増殖するかの違い

標本とは

母集団の一部。
昆虫標本を思い浮かべると、偏りに注意する必要があることは自明。

参考

標本調査はサンプル抽出が命（The Huffington Post Japan）
http://www.huffingtonpost.jp/nissei-kisokenkyujyo/sample-survey_b_5878832.html

課題

１：授業を受ける前の時点で生物統計という言葉から連想した単語を３つ挙げよ．
２：第一回目の授業を受けた時点で生物統計という言葉から連想した単語を３つ挙げよ．
提出はTeamsのチャットからお願い済ます
提出は遅滞なく　ということで締め切りは本日の授業終了後から２４時間とします．
結果については次週報告します．

結果

対象者115名
うち有効回答　111名
(完全に回答されていないものについては問1についてのみ回答したものとして処理)

問１の単語出現頻度の多い順

問２の単語出現頻度の多い順

問１，２の単語出現頻度の多い順

出返頻度の多いものは，「統計」と言われても理解しやすい無難な単語が残っている印象ですが，問1などは「留年」など回答者の状況を反映したようなものが出てきています．
例えば「留年」を含む単語を回答していた方で出現したキーワードには以下のようなものが見られました
（頻度2以上のもの，モンティ・ホール問題，数II･B，相関係数，難しい，分布，面白そう）

用いられていた単語の文字数別出返頻度（1～15文字）

一番文字数の多い単語は72文字でした．

補足

モンティ・ホール問題を一目で理解するスライド
nmubiostat2022-0002.png(319664 byte)

第02回　記述統計（尺度，度数，基本統計量）

到達目標
２－１４つの尺度について説明できる
２－２度数分布表を作成できる
２－３代表値の算出及び特性について説明できる
２－４散布度の算出及び特性について説明できる

nmubiostat202102-02.png(396280 byte)

統計に用いるデータ

基本どのようなデータでも統計処理は出来る
出来ないのは，どのようなデータであっても一つしか存在しない時

データについて

レコード

症例，個体，被験者単位でまとめられたデータの塊．表の場合一行にその症例のすべてのデータを記していたらそれがレコード

変数（変量）

データの項目名のこと

データ

観測値や測定値のこと（数値）だけでなく性別など文字の場合もある．
コンピュータ処理するとき，文字だと扱いにくい時があるのでその時は数字に置き換える（→コード変換）
例えば都道府県名であれば　北海道→０１　青森県→０２　奈良県→２９
全国地方公共団体コードの上二桁＝都道府県番号

＜参考＞全国地方公共団体コード（総務省）
https://www.soumu.go.jp/denshijiti/code.html

都道府県番号に順列は存在しない．一方，文字で順列の存在するもの（松　竹　梅）はその法則にしたがった番号を振ることがあるので注意

変量(データ)の分類

変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。
それぞれを尺度と呼び、4つに分類するのが一般的である
１分類尺度（名義尺度）
２順序尺度
３間隔尺度
４比尺度（比例）（比率）

１，２を質的変量（定性的）
３，４を量的変量（定量的）
性質としては上位互換性があり
４＞３＞２＞１

統計量

取りまとめたものを「量で」示したもの．質的変数であっても度数（個数，人数など数えるもの）については「量」として示すことが出来る

度数

どのようなデータでも度数を示すことは可能

度数分布表

それぞれのデータ（変量）の数（出現頻度）をまとめたもの
変量が名義尺度の時は多い順（お作法として。但しその他を出すなら一番最後）
順序尺度以降であれば順（名義尺度でも比較のためにお作法を破ることはある）
度数　　・・・出現頻度
相対度数・・・総出現頻度を1（100%）としたときのそのぞれの度数のしめる割合
累積度数・・・上位の変量の度数もあわせた度数
累積相対度数・・・累積度数の相対版

例題

１）以下の店名別のみかんの売り上げデータより度数分布表を作成せよ

日付	店名	数量（箱）
9月上期	奈良本店	１４００
9月上期	大和郡山店	８５０
9月上期	生駒店	１２００
9月上期	大和高田店	７５０
9月上期	五條店	８００
9月下期	奈良本店	５００
9月下期	大和郡山店	１２５０
9月下期	生駒店	１０００
9月下期	大和高田店	１２５０
9月下期	五條店	１０００

店名	相対度数	累積度数	累積相対度数




			１．００
計	１．００	-----	-----

２）9月上期と下期を比較するための度数分布表を作成する場合，どのような配慮があると見易くなるか

量的変数の度数分布表

量的変数の場合はその数値だけで度数を積み上げようにもなかなか上手くいかない場合がある．
血圧　163.5mmHg　164.2mmHg　162.5mmHg・・・どれも度数を積み上げられない　→　区間を設定する

「A～B」は「A以上B未満」と読む格好と思っていたが，分野などによって違うようです
「A以上B以下」のようにどちらの階級にも属してしまう可能性のある設定はしないように．

階級	階級値	相対度数	累積度数
130～140	135
140～150	145
150～160	155
160～170	165
170～180	175
計		-----	-----

度数分布図

質的変数・・・縦棒グラフ
nmuhimstat2021-01.png(3771 byte)

量的変数・・・ヒストグラム
nmuhimstat2021-02.png(3656 byte)

棒の間隔が無いのは値が連続している状態であるが故
普通の棒グラフは棒の長さが度数を示すが，ヒストグラムは棒の面積が度数を示す

「階級の幅を等しくすること」と説明している場合があるが，それは幅が変わると高さが変わる故で，実際にはそのような区間設定はよくある

以下の参考資料に区間幅の異なるヒストグラムについても説明なされているのでよろしければごらんください

ヒストグラムーなるほど統計学園（総務省統計局）
https://www.stat.go.jp/naruhodo/4_graph/shokyu/histogram.html

記述統計量（代表値）

代表値と散布度からなる．←駅伝やマラソンの実況中継はこれらを利用しているから状況がわかる

平均（Mean）

算術平均
いわゆる割り勘．xbar=1/n(x1+x2+･･･+xn)
欠点：外れ値があると平均値は分布の中心位置を示さない（←それって代表的な値？？）
　→　対処法：外れ値を取り除くか中央値を使うか
幾何平均（相乗平均）
全て掛け合わせて累乗根をとる
加重平均
重みづけ平均
例えば　ミニテストと期末試験の平均をとる　→　そのままの平均で良いの？
度数分布表を用いた平均もこの方法・・・Σ（階級値×階級の度数）／ｎ

中央値

昇順に並べたときに，真ん中の順番のデータ（変数）の値
データの数が偶数だと真ん中のデータは二つになるのでそれらの平均値

最頻値

最も個数が多いデータの値
最頻値は複数存在する場合がある→二峰性

平均値と中央値の考え方の違い
nmuhimstat2021-11.png(10453 byte)

平均値（14.55）
nmuhlthstat202102-01.png(21147 byte)

こちらは分布なんて関係なく中央値（15）データの分布に依存する（パラメトリック）＝平均値　と　データの分布に依存しない（ノンパラメトリック）＝中央値，最頻値の関係がわかるかなと思います
例えば５が０に変わってしまうと平均値は大きく変わりますが，中央値は変わりません
パラメトリック・・・数値に依存する（数値の分布によって値が影響を受ける）というとイメージしやすいのかな？

記述統計量（散布度）

範囲

最大値と最小値の差

四分位範囲

IQR＝第３四分位数（75%点）-第１四分位数（25%点）（参考：中央値=第２四分位数（50%点））
第３四分位数（75%点）の算出方法は数多くありまして・・・

一番わかりやすい四分位数の出し方は以下参照ください
実際には何種類か出し方があります．
ダンゴ包丁理論（tukeyのヒンジ） https://medbb.hatenablog.com/entry/2020/12/12/091240

分散　標準偏差

範囲を用いた散布度と違い，平均値からのバラツキ（差＝偏差）の平均を求めようというもの
ただし偏差の平均をとれば集団内の各々のズレっぷりがわかると思って計算しても　→　合計は常に０　故に平均も常に０
そこで偏差を二乗したものの平均を取っている　→　分散
標準偏差は分散の正の平方根をとったもの
nmubiostat2016-0302.png(3064 byte)

課題(今回は提出不要)

以下の個票データから
nmubiostat202102-01.png(7088 byte)

１）収縮期血圧の度数分布表を作ってください（区間は10mmHg刻み）

階級	階級値	相対度数	累積度数
130～140	135
140～150	145
150～160	155
160～170	165
170～180	175
計		-----	-----

２）収縮期血圧の平均を求めてください
３）１で作成した度数分布表より収縮期血圧の平均を求めてください
４）収縮期血圧の範囲，四分位範囲を求めてください
５）収縮期血圧の標準偏差を求めてください
６）下記の度数分布表の空欄部A,B,Cを求めよ

階級	階級値	度数	相対度数	累積度数	累積相対度数
0.5～1.0
1.0～1.5		6		A	0.325
1.5～2.0			0.1	17
2.0～2.5		B			0.65
2.5～3.0		7
3.0～3.5			0.125		C
3.5～4.0
計	-----		1.00	-----	-----

第03回　平均値の推定

到達目標
３－１標準偏差と標準誤差の違いを説明できる
３－２母分散が未知の場合でも母平均を区間推定できる

教科書P22-23,32-40,52-53,70-73,270-271

推定

母集団から抽出した標本を基に母集団の分布を示す値（母数）を推測する
点推定と区間推定がある

点推定

母平均

国民健康・栄養調査（厚生労働省）
https://www.mhlw.go.jp/toukei/itiran/gaiyo/k-eisei.html
ヘモグロビンA1cの値の分布は若干右裾に広がりを持つ感じになります．

用いたデータ

32-1ヘモグロビンA1c（NGSP）の分布 - ヘモグロビンA1c（NGSP）の区分，年齢階級別，人数，割合 - 総数・男性・女性，20歳以上〔インスリン注射又は血糖を下げる薬の使用者含む〕
https://www.e-stat.go.jp/stat-search/files?page=1&layout=datalist&toukei=00450171&tstat=000001041744&cycle=7&tclass1=000001148507&stat_infid=000032041860&tclass2val=0

平均値などは以下の表のデータを用いました
32-2ヘモグロビンA1c（NGSP）の平均値及び標準偏差 - 年齢階級別，人数，平均値，標準偏差 - 総数・男性・女性，20歳以上〔インスリン注射又は血糖を下げる薬の使用者含む〕
https://www.e-stat.go.jp/stat-search/files?page=1&layout=datalist&toukei=00450171&tstat=000001041744&cycle=7&tclass1=000001148507&stat_infid=000032041861&tclass2val=0

計算機で20000人を対象に検査を行った事にしてデータを作成

参考にした国民健康・栄養調査の統計量と同じような感じになりました
nmubiostat2023-0303.png(168346 byte)

標本数が大きい，標本の平均は母平均に近くなる確率が高くなることが実感できると思います
また標本から求めた平均は母平均と一致する確率って小さいということも理解できると思います
あとは，標本数が大きくなるにつれてその平均の分布は左右対称になっているところも確認ください

中心極限定理

標本の大きさが十分であれば標本平均の分布は正規分布
　→正しく測定されているのであれば偶然誤差の発生は正規分布に従う
　→測定回数を増やせば増やすほど

正規分布

左右対称の釣鐘状分布（教科書P32-40）
平均値に近いほど出現率が高く遠ざかるに従って低くなる（ことが多い）
同じ事柄を同じ条件で繰り返すと正規分布になるという話→中心極限定理
「異質な集団の計測値が組み合わさった分布は正規分布とならない」（教科書P33）
正規分布っぽい形状の判断→P28　歪度　尖度を参照
標準正規分布（P37）
平均値が０標準偏差＝１（分散も１）になるように値を変換したもの
偏差値は平均値を50、標準偏差＝１０になるように値を変換したもの

両者の関係
偏差値=50+10×z
ZスコアはP36参照

例えば

テストの点が正規分布に従うとして
１００００人でテストを行い平均点６０点，標準偏差１６の試験で８４点（偏差値は６５　ZスコアはZ=1.5）を取っていたのであれば，その順位は６６８番目となる
では，９６点では？

標準正規分布表

標準正規分布表のPDF版はコチラから

母分散

平均値とは異なり標本より求めた分散をそのまま母分散の推定値とすると偏りが出てくるのでよろしくない
偏りのない分散・・・不偏分散教科書P22-23参照

不偏分散は何故nではなく（n-1）で除するのか

求める対象（標本）が母集団全体だったとすると母分散は
（1/ｎ）Σ（ｘ_ｉ-ｘ_ｂａｒ）^２
　　しかしながら対象が母集団の一部であれば，母平均（μ）＝標本平均（ｘ_ｂａｒ）とは限らないので，
　　μとｘ_ｂａｒの差を考慮して母分散を求める（推定する）必要がある
（1/ｎ）Σ（（ｘ_ｉ-μ）-（ｘ_ｂａｒ-μ））^２
＝（1/ｎ）Σ（ｘ_ｉ-μ）^２-（2/n）Σ（ｘ_ｉｘ_ｂａｒ-ｘ_ｉμ-μｘ_ｂａｒ+μ^２）+（1/ｎ）Σ（ｘ_ｂａｒ-μ）^２
＝（1/ｎ）Σ（ｘ_ｉ-μ）^２-2（ｘ_ｂａｒ^２-2μｘ_ｂａｒ+μ^２）+（ｘ_ｂａｒ-μ）^２
＝（1/ｎ）Σ（ｘ_ｉ-μ）^２-2（ｘ_ｂａｒ-μ）^２+（ｘ_ｂａｒ-μ）^２
＝（1/ｎ）Σ（ｘ_ｉ-μ）^２-（ｘ_ｂａｒ-μ）^２
　-----
　ここで　それぞれ
　（1/ｎ）Σ（ｘ_ｉ-μ）^２＝σ^２
　（ｘ_ｂａｒ-μ）^２＝σ^２/n
　（注：詳しくは　「標準誤差SEはなぜ標準偏差σを√nで除するのか」参照）
　とおくと
　-----
＝σ^２-σ^２/n
＝（（n-1）/n）σ^２

故に母分散の程よい推定値である不偏分散は
U＝n/（n-1）・（1/ｎ）Σ（ｘ_ｉ-ｘ_ｂａｒ）^２
　＝（1/ｎ-1）Σ（ｘ_ｉ-ｘ_ｂａｒ）^２
となる．

ヘモグロビンA1cのデータより分散を求める

サンプル数100の標本から分散を求めて比較
通常は標本の統計量を用いて母分散を推定するしか術がない
そこで，通常入手困難な母平均を用いた分散との比較
そして，通常入手困難な母分散との比較をおこない頭の中を整理しておいてください
nmubiostat2023-0307.png(34165 byte)

という予定でしたが，分布の違いがわかりにくいので以下のデータで説明しました

そちらのデータの話は，データ生成の条件を一様分布にしたのでわかりよい結果になっています．

統計学（２）平均値の推定（統計学２０２２　－　medbbstat2022）

https://medbb.net/education/medbbstat2022/#2

平均値の区間推定

点推定の欠点は，母平均や母分散などが分かっていないと，どの程度の制度で推定したのか全く分からない
（母数を知っていたらそもそも推定する必要も無いわけですが）
母数がある確率で入る幅を持たせた推定の仕方
平均値の区間推定では，平均値を中心に分散と確率分布を用いている
故に区間推定はその幅の中に母平均がある確率で入っていることを示す
orcstat2020-0602.png(11589 byte)

標本平均に幅を持たせることで、その枠内に母平均が入る。→平均値のバラつき具合が標準誤差　SE=σ/√n

標準偏差と標準誤差

（教科書P52）
・標準偏差は標本の分布のバラツキ具合を示したもの
・標準誤差は母集団から抽出した標本の平均値のバラツキ具合
SE=σ／√n

標準誤差SEはなぜ標準偏差σを√nで除するのか

標準誤差は母平均に対する標本平均のバラつき指標（標準偏差）の話
対象が母集団全体ならば0だが，母平均（μ）と標本平均（ｘ_ｂａｒ）には差が生じる
ある標本における平均値と母平均の偏差平方は
（ｘ_bar-μ）^２
＝（（1/ｎ）Σｘ_ｉ-μ）^２
＝（（1/ｎ）Σｘ_ｉ-（1/ｎ）Σμ）^２
＝（（1/ｎ）Σ（ｘ_ｉ-μ））^２
＝（1/ｎ）（1/ｎ）Σ（ｘ_ｉ-μ）^２
　-----
　ここで
　（1/ｎ）Σ（ｘ_ｉ-μ）^２
　をσ^２とおくと
　-----
＝σ^２/n
故に標準誤差は
SE＝σ／√n

課題(今回は提出不要)

教科書P53の標本数を100人とした場合，95%信頼区間はどのようになるか？

補足

受講生からの質問

なぜ95%信頼区間を求める式がxbar±1.96×σ／√n　で求まるのかわからない

ただし当該学生は標準正規分布の曲線か面積が確率を表わすことは理解しています

回答

区間推定の式について以下の資料を作成しました．
標本平均用いての推定なので標準偏差は標準誤差と置き換えて計算する格好になります．
nmubiostat2023-0312.png(319130 byte)

第04回　検定の原理

到達目標
４－１確率がどのような意味合いのものか理解する
４－２仮説検定の論理構成を説明できる

教科書P3-7,46-51,207,208,215

確率

ある事象が起こることが期待される度合い（割合）
試行　サイコロを振って３の目が出る(y or n)
確率　サイコロを振って３の目が出る(1/6)
繰り返し試行を行うと頻度割合はその事象の確率へ収束していく
生物を対象とした場合試行を繰り返せる？→無理な場合が多い→条件を近づけて繰り返したと見做す

試行の結果は事実で正しい。といってそれが常に正しい（真）とは限らない
次の試行以降で異なる結果がでる可能性を排除できない→永遠に試行を繰り返さないとならず法則が出せない
（故に異なる現象の起こる確率にたいして閾値を定めて、その中であれば違いはなかったことにして一般性を主張するスタイル）
事象の起こる確率が著しく低くても、実際に起こらないわけではない。

検定

平均値の差の検定・・・平均値の推定との違いについて理解しておいてください．
推定の時は母平均・・・未知（故に標本から推定する）
検定の時は母平均・・・仮説に基づき設定（標本が仮説の範疇に収まるか否か検定する）

背理法（P47）

命題の否定を仮定して話をすすめて、その矛盾を示すことで命題が成り立つとする論法
差のあることを証明するにあたって「差が無いことを」を証明できないことを根拠にする
（差（違い）を定義するにも区間推定で明らかなように，確率一定でも値は変化する）
＜注＞好きの反対は嫌い　ではなく無関心という考え方．

仮説検定

教科書P46-
＜大前提＞やみくもに検定するのではなく、検定する理由・確信があるから確かめる　という感じで

手順１：仮説をたてる（帰無仮説H0および対立仮説H1）

背理法に基づく証明をしている。
（差がない仮説が証明できないので、その対立である差がある仮説を採択する）

手順２：検定統計量を計算する

その事象の起こる確率を計算していることになるが、用いる確率分布によって計算式が異なる。
（実データを確率の世界のスケールに変換）教科書P50では（３）の前半の部分Z=　の部分がそれ

手順３：有意水準を決める

確率的に必然と偶然を切り分けている。一般に５％で分けているが１％の時もある

手順４：有意水準と比較し、仮説を棄却採択する

例）帰無仮説H₀を棄却し対立仮説H₁採択

パラメトリック検定・ノンパラメトリック検定

教科書P204分布の正規性について

よく，パラメトリック検定を分布に依存すると表現している件

意味としてはノンパラ（順序＝分布に依存しない）とは，取り扱うと，値の分布をキャンセルしている（バラバラに存在整列していたものを整列させる）ということ
nmuhimstat2021-11.png(10453 byte)

元々は量的変数.こちらの絵の通りで平均値（14.55）を求めたり標準偏差（4.23）を求めたり，母集団の推定のために不偏分散（19.67）求めたりt検定を行ったり．
nmuhlthstat202102-01.png(21147 byte)

こちらは分布なんて関係なく中央値（15）を求めたり，四分位偏差(3)求めたり，U検定を行ったり．

両側検定片側検定

教科書P207
一緒な有意水準で比較した場合　片側は棄却域が存在しないことと，他方は棄却域が大きくなってしまう　→　帰無仮説が棄却されやすくなる状況

有意水準は常に0.05？

教科書P208
有意差は有意水準が一緒でもn=が大きくなると少ない差でも優位と判定されてしまう．
統計的有意差≠臨床的有意差
効果量を目的としているわけで，統計的な差（違い）が現実社会の中において意味がある差なのか

αエラー　βエラー

教科書P215

第一種の過誤
αエラーの起こる確率（誤って有意差があると判定）＝有意水準
エラーを気にしなければいつの日か、都合の良い結論が得られるかもしれない　→　雨乞い
故にやみくもに検定するのではなく、至るまでのストーリーが大切
第二種の過誤（βエラー）・・・誤って一緒と判定する確率
βエラーの起こる確率（誤って有意差が無いと判定）＝検出できない＝１－検出力（Power）＝β
検出力＝１－β
サンプル数↑・・・検出力↑・・・β↓
一般に検出力0.8～0.9で違いを見積もった上でサンプル数を決定する
検出力をが上がるとβエラーの確率は下がるが，統計的有意差と臨床的有意差の話が出てくる．

例題７（P53）について

この場合は標本から求めた平均値と母平均の検定なので母標準偏差を母標準誤差として行う必要がある
母平均と標本平均の差＝0.5が確率的に閾値以内であれば違いは無いという判断，超えていれば異なるという判断

本日の課題(今回は提出不要)

2017年国民栄養基礎調査によると成人のヘモグロビンA1c（NGSP）（%）の平均値及び標準偏差はそれぞれ，5.80　0.70だった．
糖尿病予防の取り組みを行っている会社の従業員100人を対象に測定し平均を求めたところ5.65だった．
有意に異なるといえるか有意水準5%で両側検定せよ．
（P35の分布も確認のこと）
＜参考＞ヘモグロビンA1c（NGSP）の平均値及び標準偏差 - 年齢階級別、人数、平均値、標準偏差 - 男性・女性、20歳以上〔インスリン注射又は血糖を下げる薬の使用者含む・含まない〕（国民健康・栄養調査）
https://www.e-stat.go.jp/dbview?sid=0003224190

補足

仮説検定のフォーマット例

手順１
帰無仮説Ｈ_０：μ＝１００　対立仮説Ｈ_１：μ≠１００
↓
手順２
ｚ＝・・・・・ ↓
手順３
有意水準　両側5%としz検定を行う
↓
手順４
検定統計量との比較，もしくは確率の比較により，今回の標本が棄却域にあるのか否か（受容域なのか）判定する．
｜ｚ｜＝3.96＞1.96　（有意水準両側5%ならば片側2.5%なので）
帰無仮説を棄却し対立仮説を採択する
　有意差がある
例２）
｜ｚ｜＝1.45＜1.96　（有意水準両側5%ならば片側2.5%なので）
帰無仮説は棄却されない
　判定を保留する
　有意差があるとは言えない

第05回FTF　パラメトリック検定

到達目標
５－１パラメトリック検定の頑強性robustnessを説明できる
５－２t検定を行うことができる

教科書

第2章P44　計測尺度と統計処理方式
第4章P57-69　関連２群の差の検定
第5章P81-101　独立２群の差の検定
第10章P204　Q1，Q2

パラメトリックとノンパラメトリック

教科書P44

分布の形状（母数）に依存する統計量（平均値　標準偏差・・・量的変量）
分布の形状（母数）に依存しない統計量（順位　中央値　パーセント値・・・質的変量）

教科書P4-7,204

パラメトリック検定・・・計測値の分布が正規分布であることを仮定
正規確率紙法・・・Q-Qプロット
データをノンパラメトリックとみなして順序に直してそこからパーセンタイルを求めて、値を確率分布（正規分布）に代入して期待値を算出して比較する。
P11複雑な調査データTGを用いて
nmubiostat2017-0901.png(44808 byte)

＜参考＞Excelによる正規確率プロットの作り方（統計WEB　SSRI）
https://bellcurve.jp/statistics/blog/15362.html

ところが正規分布を用いても小標本の場合なかなかうまく推定，検定が出来ない→t分布

母標準偏差が既知の場合の区間推定

（教科書P70）
正規分布表でなぜ1.96になるのか確認

母標準偏差が未知の場合の区間推定

（教科書P70）
正規分布は母平均値と母標準偏差が分からないと使えない→nが多い場合標本平均と標本標準偏差（不偏標準偏差））で近似できるが
nが少ない場合は近似できない→t分布(標本の自由度νさえわかっていれば、後は検定統計量を求めれば確率がわかる)

ｔ分布

P64-66
自由度のみできまる確率分布
自由度・・・標本の中で自由に振る舞うことが許されている個体の数
　　　　　　統計量からみると、自由に振る舞えないデータが出てくる（つじつま合わせ）（P73）

ｔ分布表

t分布のPDF版はコチラから

この教科書では母標準偏差が既知か未知かによってのみ分けていますが，標本サイズが大きければ未知であっても正規分布を使って推定しているものもあります．
例えば30以上で標本サイズは大きいと判断されている場合もあります．

教科書P6テーブル（適用要件による使い分け）

1標本t検定・・・空白
2標本t検定・・・２群の等分散性
空白の意味は、データ元が同じところなので問題にならない
２群の等分散性に関しては、ぞれを前提として検定が成り立っているので（以下に紹介する（スチューデントの）t検定は
無論、等分散ではない場合に用いる検定（ウェルチのt検定）もあるのですが、そちらを最初から使った方が良いという話があります。
ノンパラかパラメトリックの話と同様ですが、どちらでやろうとも有意差が出てるぐらい明確なものが理想ではありますが

2群の差の検定

1標本t検定（関連２群）

教科書P58
P60例題8を見ながら
関連する２群（ペア）・・・一つの群を２回測定している
前後の差を見る・・・μ_１－μ_２＝０・・・μ_１＝μ_２
t値（標準化された検定統計量）・・・２群のペアの差の平均を標準誤差で正規化したもの
帰無仮説は前後の差がゼロ
検定統計量と有意水準αのt値を比較する。

課題(今回は提出不要)

今週は授業中に解いた下記の問題を復習しておいてください

Aクラス

Bクラス

以下取り残し分

2標本t検定（独立２群）

教科書P82～　P84例題12　P87例題13
こちらの場合は、教科書的にはF検定（P86)で等分散を確認してからの手順になる。
一標本との違いは分散が２種あること（一標本はペアの差をとるので一つ）
そのため合成する
t値・・・それぞれの群の平均の差を標準誤差で正規化したもの
F分布・・・χ^２分布の時にお話しします

2標本t検定と1標本t検定

P60例題8を独立した標本と考えた場合
nmubiostat202105-01.png(9614 byte)

異なる検定結果が出ている・・・

第06回　ノンパラメトリック検定

到達目標
６－１パラメトリック検定とノンパラメトリック検定の違いを説明できる
６－２ノンパラメトリック検定を行い判定することが出来る

教科書

第4章P74-80　一標本Wilcoxon検定
第5章P102-113　Mann-Whitney検定

一標本Wilcoxon検定

ウィルコクソンの符号付順位和検定
教科書（P6)・・・分布型，計測尺度，分散の制約なし
教科書（P74）
１：ペアのデータの差dを求める
２：dの絶対値よりそれぞれの差（d）の順位（昇順）を求める
　　同順位の話・・・教科書P76参照
３：検定統計量Tは＋，－別に順位を足したもので小さい方
T₀=min(T₁,T₂)
有意確率については直接計算出来るが（P75）延々と計算していくのは大変
n≦25まではWilcoxon検定表が用意されています（P274)
N数が少ないと（空白の部分）判定保留にしかならない
教科書P78参照のこと

n＞25は正規分布に近似と見なしてz値を求める方法で検定

平均値

μT=n(n+1)/4

標準誤差

σT=√(n(n+1)(2n+1)/24)

検定統計量

Z=(T-μT)/σT

連続補正

P137参照

P76(例題10)で説明します．

Mann-Whitney検定

二標本になるとややこしくなるのはパラメトリック検定と同じ
P102-113参照
検定統計量
自群の個々について、それよりも他群で大きい個体数の総和を求めて検定統計量としている
１：ある群（A）の値それぞれがもう一方の群（B）に入ったとしたときに（Aの）その値よりも（Bの群のなかで）値が大きい個数をカウントする。（A群の）全てについて行い和をとる。（順位-1の話）
２：AとBを入れ替えて１：と同様の計算をするか、公式でB群の和を求め小さい方を検定統計量Uとする
　　同順位の話・・・教科書P103参照

こちらも標本数が多くなると正規分布の話が出てくる

平均値

μU=n₁n₂/2

標準誤差

σU=√n₁n₂(n₁+n₂+1)/12)

検定統計量

Z=(U-μU)/σU

P104(例題17）P110(例題19)で説明します．

課題(今回は提出不要)題

（有意水準5%及び1%で）
１）P63演習３についてノンパラメトリック検定をせよ
２）P84例題１２についてノンパラメトリック検定をせよ

告知　【AB合同】中間まとめ（テスト）について

電卓持ち込み可，ただし高級な関数電卓（プログラマブルなものや検定など出来るもの）について持ち込み不可
事前に相談したい方はメーカ名型番を私まで問い合わせの事

第07回　計数値データの検定

到達目標
7－１二項分布と正規分布の関係を説明できる
7－２カイ二乗分布がどのようなものか説明できる

教科書P125-151

計量値と計数値

計量値・・・量を測定
計数値・・・頻度を測定（名義尺度）
量的変量は頻度の測定も出来る．（連続量から変換する必要があるけど）
どのようなデータにも使えるので，色々なところで出てくる

二項分布（高校で習ってますよね）

標本の大きさ=n
事象の起こる確率=p
r=出現度数
np=n回試行を繰り返したときに事象の起こる回数（期待度数）
例題２２（P128)で述べている発生率は期間有病率（つまり割合）のこと．

比と率と割合の違いについて
比・・・異なるものを比較（無単位になる場合もあるが）
率・・・比だが時間と比較（単位は/sec　/min　/hr　となる）
割合・・全体と一部（同じもの）を比較（無単位）
以下参考にしてください

第13回　医療統計（Ⅱ）－比と率と割合（大阪保健医療大学　医療情報学２０１６）
http://www.medbb.net/education/ohsumedinfo2016/#13

二項分布→（nが十分に大きい場合　教科書ではnp≧10 or n(1-p)≧10）→正規分布に近似（P135）
以下は例題22の症例を20人，50人,100人とした場合の発生人数の分布です．npはそれぞれ2,5,10となります．
../nmubiostat2020/nmubiostat202008-01.png(3773 byte)

../nmubiostat2020/nmubiostat202008-01.png(3773 byte)

個別確率と有意確率

教科書P131
有意確率＝累和された値・・・ノンパラメトリックの話を思い出してください
P137の二項分布を正規分布に近似するための連続補正　の部分も参照ください

カイ二乗分布

教科書P142
χ２乗分布・・・母分散を推定できる確率分布
χ^２＝ΣＺ_ｉ^２
平均からのズレの平方をとったものを足し合わせていく→偏差平方和
標準正規分布に従う独立した確率変数が1つの場合
χ^２＝Ｚ_１^２
＜参考＞独立した確率変数が二つの場合
χ^２＝Ｚ_１^２+Ｚ_２^２

カイ二乗分布表（教科書P273）

t分布と同じく自由度により確率分布は変化する
カイ二乗分布（ν＝１）の時のそれぞれの上側確率に相当する正規分布の確率（両側5%（片側2.5%ずつ）は全て上側に集約されてしまう
nmubiostat2016-1101.png(14151 byte)

χ^２=（（X-μ）／σ）^２
χ^２_０．０５=（（１．９６-０）／１）^２
例）標準正規分布で有意水準両側５％の場合の境界値はz=1.96．カイ二乗分布表より優位水準上側５％の時のカイ二乗値＝3.84

ピアソンのカイ二乗

カイ二乗分布の話（X-μ）を（実際に出現した度数－出現が期待される度数（期待値））に置き換え
分散で除することで分子の差分を標準正規分布のN(0,1)にしていたものを，期待値で除して求めたものである．
(ポアソン分布であるとすると平均値＝期待値＝分散)
カイ二乗値＝Σ（観察度数－期待値）^２／期待値

検定

適合度の検定

P140例題28で説明
1行ｎ列
事象の起こる確率に基づく頻度（＝n×ｐ）期待値（度数））と実際に観測された度数（観察度数）の差異について検定．帰無仮説（測定した分布は想定されている分布と等しい）Ｈ_０：Ｐ＝（1/6,1/6,1/6,1/6,1/6,1/6)・・・サイコロの場合

独立性の検定

ｍ行ｎ列
こちらはそれぞれが独立しているか（関係があるか無いか）を検定
考え方は一緒
事象の起こる確率は実際に観測された度数を基に算出して全体の度数を乗じることで期待値（度数）とする．

Fisherの直接確率法

期待値が低い場合、．wilcoxonの統計量T理論分布と同様だが計算大変
故に教科書では２×２表以外出てこない（考え方は一緒）
例えばP146例題より直接確率を求めたものが以下
nmubiostat2022-0701.png(66291 byte)

課題(提出不要)

P146例題29の出現度数を全て半分にして検定を行い，結論が変わることをご確認ください

補足

講義中に示した例題

Aクラス

統計量カイ二乗値＝6.67
nmubiostat2023-0702.png(3686 byte)

統計量カイ二乗値＝2.67

やってはダメな例

勝手にそれぞれの度数を3倍すると・・・
nmubiostat2023-0702x3.png(3905 byte)

統計量カイ二乗値＝8.00

Bクラス

統計量カイ二乗値＝2.80
nmubiostat2023-0704.png(4948 byte)

統計量カイ二乗値＝19.85

第08回　【AB合同】中間まとめ（テスト）

到達目標
８－１少なくとも20点満点の8割程度を

試験開始前に頭の中を整理する目的も含めて授業のポイントについて振り返った後にミニテストを行います
第01回　オリエンテーション
■授業態度(20%)《Ⅰ》　の部分についてですが，今後ご注意ください

第02回　記述統計（尺度，度数，基本統計量）
尺度，度数分布，記述統計量

第03回　平均値の推定
標準正規分布，不偏分散，標準誤差，信頼区間

第04回　検定の原理
背理法，有意水準，αエラー，βエラー

第05回　パラメトリック検定

t分布，関連2群，独立2群
第06回　ノンパラメトリック検定

分布に依存しない，順位和
第07回　計数値データの検定

カイ二乗分布，期待度数（値），カイ二乗値（カイ二乗統計量）

第09回　独立多群間の比較（１）分散分析

到達目標
９－１F分布とカイ二乗分布の関係を説明できる
９－２分散分析と多重検定の違いを説明できる

教科書
第5章P94-97
第8章P153-172

F分布

カイ二乗分布が偏差平方和に関する確率分布．F分布は二群の分散に関する確率分布
それぞれの独立している群のカイ二乗値の比＝分散の比・・・Ｆ値（ＦはフィッシャーのＦ）
U,Kはそれぞれカイ二乗分布に従う（自由度k） F（k₁,k₂）=U/k₁／V/k₂

F分布とカイ二乗分布の関係

F（ν,∞）=χ^2(ν)/ν／χ^2(∞)/∞
　　　　　=χ^2(ν)/ν
χ^2(ν)=ν×F（ν,∞）
nmubiostat2017-1201.png(13289 byte)

F分布に従う確率変数の逆数

自由度（k1,k2）を入れ替えた分布に従う
例） F_0.05(4,9)=6.00
1/F_0.05(4,9)=F_0.95(9,4)=0.1667=1/6.00)
nmubiostat202108-01.png(951165 byte)

等分散の検定（F検定）（P94）

等分散性の検定・・・分散比を求めてF値より判定
「2群の分散は異なるとは言えない」・・・帰無仮説を棄却できない（保留）
　

同時比較

全群を一括して比較

一元配置分散分析（P155）

教科書的な説明
3つ以上の標本　群間分散と群内分散の分散比
群間分散・・・群別の平均と群別の平均の平均で求める．自由度は群数k-1
（平均値のバラツキ具合）
群内分散・・・それぞれの値に対して属する群の平均を使って求める．自由度は総標本数n-群数k
（各々の群内における値のバラツキ具合）
群間のバラツキ具合と群内のバラツキ具合が異なるということは群によって値が異なっているということを示すことが出来る．

色々整理すると

群間で平均値を比較した時にバラツキが発生しているならば，それはそれぞれの群の平均値はは同じ母集団から抽出したものとならない．
しかしながら群内でも発生するバラツキがあるわけでが，それは偶然発生する誤差として考える
ohsustat2016-01a.png(206456 byte)

故に帰無仮説は全ての群の平均は等しい（同じ母集団から抽出した標本）

例題１

Ａ群　８，１２，１６
Ｂ群　８，１４，２０
Ｃ群　８，１６，２０，２８
それぞれの平均を求めると　Ａ群１２　Ｂ群１４　Ｃ群１８
　全標本の平均値＝（３６＋４２＋７２）／１０＝１５
全標本の偏差平方和
＝（８－１５）＾２＋（１２－１５）＾２＋（１６－１５）＾２
＋（８－１５）＾２＋（１４－１５）＾２＋（２０－１５）＾２
＋（８－１５）＾２＋（１６－１５）＾２＋（２０－１５）＾２＋（２８－１５）＾２
＝４９＋９＋１　＋４９＋１＋２５　＋４９＋１＋２５＋１６９
＝５９＋７５＋２４４＝３７８

この偏差平方和が部位毎の平均のバラツキが群の違いにそのものによるものなのか，もしくは測定の際に発生した誤差によるものか

群間変動・・・郡内の変動を無い状態にして分散（母分散の推定値を求める）
群内のバラツキを無くした状態での各群毎の偏差平方和Ａ群＝（１２－１５）＾２＋（１２－１５）＾２＋（１２－１５）＾２
　　＝２７
Ｂ群＝（１４－１５）＾２＋（１４－１５）＾２＋（１４－１５）＾２
　　＝３
Ｃ群＝（１８－１５）＾２＋（１８－１５）＾２＋（１８－１５）＾２＋（１８－１５）＾２
　　＝３６

群間の偏差平方和
＝２７＋３＋３６＝６６

群間での平均の分散（の推定値）
６６／（３－１）＝３３

群内変動・・・群間の変動を無い状態にして分散（母分散の推定値を求める）
群間のバラツキを無くした状態の偏差平方和
Ａ群＝（８－１２）＾２＋（１２－１２）＾２＋（１６－１２）＾２
　　＝３２
Ｂ群＝（８－１４）＾２＋（１４－１４）＾２＋（２０－１４）＾２
　　＝７２
Ｃ群＝（８－１８）＾２＋（１６－１８）＾２＋（２０－１８）＾２＋（２８－１８）＾２
　　＝２０８
群内の偏差平方和の総和
＝３２＋７２＋２０８
＝３１２
それぞれの群の分散（の推定値）
Ａ群＝３２／２
Ｂ群＝７２／２
Ｃ群＝２０８／３
群内の分散の合成
＝３２＋７２＋２０８／（２＋２＋３）
＝４４．５７

分散比＝３３／４４．５７＝０．７４

Ｆ（２，７：０．０５）＝４．７４

判定保留　群による違いは見られなかった

例題２

Ａ群　１０，１２，１４
Ｂ群　１２，１４，１６
Ｃ群　１５，１７，１９，２１
それぞれの平均を求めると　Ａ群１２　Ｂ群１４　Ｃ群１８
　全標本の平均値＝（３６＋４２＋７２）／１０＝１５
全標本の偏差平方和
＝（１０－１５）＾２＋（１２－１５）＾２＋（１４－１５）＾２
＋（１２－１５）＾２＋（１４－１５）＾２＋（１６－１５）＾２
＋（１５－１５）＾２＋（１７－１５）＾２＋（１９－１５）＾２＋（２１－１５）＾２
＝２５＋９＋１　＋１６＋１＋４　＋０＋４＋１６＋３６
＝３５＋２１＋５６＝１１２

この偏差平方和が部位毎の平均のバラツキが群の違いにそのものによるものなのか，もしくは測定の際に発生した誤差によるものか

群間変動・・・郡内の変動を無い状態にして分散（母分散の推定値を求める）
群内のバラツキを無くした状態での各群毎の偏差平方和
Ａ群＝（１２－１５）＾２＋（１２－１５）＾２＋（１２－１５）＾２
　　＝２７
Ｂ群＝（１４－１５）＾２＋（１４－１５）＾２＋（１４－１５）＾２
　　＝３
Ｃ群＝（１８－１５）＾２＋（１８－１５）＾２＋（１８－１５）＾２＋（１８－１５）＾２
　　＝３６

群間の偏差平方和
＝２７＋３＋３６＝６６

群間での平均の分散（の推定値）
６６／（３－１）＝３３
群内変動・・・群間の変動を無い状態にして分散（母分散の推定値を求める）
群間のバラツキを無くした状態の偏差平方和
Ａ群＝（１０－１２）＾２＋（１２－１２）＾２＋（１４－１２）＾２
　　＝８
Ｂ群＝（１２－１４）＾２＋（１４－１４）＾２＋（１６－１４）＾２
　　＝８
Ｃ群＝（１５－１８）＾２＋（１７－１８）＾２＋（１９－１８）＾２＋（２１－１８）＾２
　　＝２０

群内の偏差平方和の総和
＝８＋８＋２０
＝３６
それぞれの群の分散（の推定値）
Ａ群＝８／２
Ｂ群＝８／２
Ｃ群＝２０／３

群内の分散の合成
＝（８＋８＋２０）／（２＋２＋３）
＝５．１４

分散比＝３３／６．４２＝６．４２

Ｆ（２，７：０．０５）＝４．７４
帰無仮説を棄却　群による違いはある

例題３

Ａ群　１１，１２，１３
Ｂ群　１３，１４，１５
Ｃ群　１６．５，１７．５，１８．５，１９．５
それぞれの平均を求めると　Ａ群１２　Ｂ群１４　Ｃ群１８
　全標本の平均値＝（３６＋４２＋７２）／１０＝１５
全標本の偏差平方和
＝（１１－１５）＾２＋（１２－１５）＾２＋（１３－１５）＾２
＋（１３－１５）＾２＋（１４－１５）＾２＋（１５－１５）＾２
＋（１６．５－１５）＾２＋（１７．５－１５）＾２＋（１８．５－１５）＾２＋（１９．５－１５）＾２
＝１６＋９＋４　＋４＋１＋０　＋２．２５＋６．２５＋１２．２５＋２０．２５
＝２９＋５＋４１＝７５

この偏差平方和が部位毎の平均のバラツキが群の違いにそのものによるものなのか，もしくは測定の際に発生した誤差によるものか

群間変動・・・郡内の変動を無い状態にして分散（母分散の推定値を求める）
群内のバラツキを無くした状態での各群毎の偏差平方和

Ａ群＝（１２－１５）＾２＋（１２－１５）＾２＋（１２－１５）＾２
　　＝２７
Ｂ群＝（１４－１５）＾２＋（１４－１５）＾２＋（１４－１５）＾２
　　＝３
Ｃ群＝（１８－１５）＾２＋（１８－１５）＾２＋（１８－１５）＾２＋（１８－１５）＾２
　　＝３６

群間の偏差平方和
＝２７＋３＋３６＝６６

群間での平均の分散（の推定値）
６６／（３－１）＝３３

群内変動・・・群間の変動を無い状態にして分散（母分散の推定値を求める）
群間のバラツキを無くした状態の偏差平方和
Ａ群＝（１１－１２）＾２＋（１２－１２）＾２＋（１３－１２）＾２
　　＝２
Ｂ群＝（１３－１４）＾２＋（１４－１４）＾２＋（１５－１４）＾２
　　＝２
Ｃ群＝（１６．５－１８）＾２＋（１７．５－１８）＾２＋（１８．５－１８）＾２＋（１９．５－１８）＾２
　　＝２．２５＋０．２５＋０．２５＋２．２５＝５

群内の偏差平方和の総和
＝２＋２＋５
＝９

それぞれの群の分散（の推定値）
Ａ群＝２／２
Ｂ群＝２／２
Ｃ群＝５／３

群内の分散の合成
＝２＋２＋５／（２＋２＋３）
＝１．２９

分散比＝３３／１．２９＝２５．６

Ｆ（２，７：０．０５）＝４．７４

帰無仮説を棄却　群による違いはある

例題をまとめると

本日の課題（提出不要）

例題を復習しておいてください

第10回　【AB合同】独立多群間の比較（２）多重検定

到達目標
１０－１少なくとも中間まとめ（テスト）の範囲の内容についてポイントを理解する
１０－２分散分析と多重検定の違いを説明できる

教科書
第10章P217-219

多重検定

教科書P217
ポイントとしては、それぞれの検定が独立した仮説にもとづいたものと考えて良いか否か。良いのであれば多重検定にならない
一連のものであれば対立仮説を考えたときに有意水準が５％と言いながら５％になっていないのでは？
多重に検定することでどれかあたれば帰無仮説は棄却できるので例えば3群総当たりだと有意水準0.05で多重検定（6通り）すると有意水準が0.265になってしまう。（からよくない）

有意確率補正法

Bonferriniの場合は6通り検定するのであれば、一検定あたりの有意水準だと0.05/6=0.0083となる。全体では1-(1-0.00833)^6=1-0.95103=0.0490
Sidak補正の場合は同様に1-(1-0.05)^(1/6)=0.008512　1-(1-0.008512)^6=1-0.95=0.0500
多群になるほど検定あたりの有意水準が下がる→差が出にくい

多重比較法

パラメトリック法
Tukey法・・・各ペアに対する平均値の差の検定
Dunnett検定・・・一つの対象群との対比

ノンパラメトリック法
Dunn法

課題（提出不要）

曜日別に検査の管理用資料を測定した。
nmubiostat2023-0902.png(4728 byte)

csvファイルは以下をクリック
nmubiostat2023-0901.csv
１０－１)一元配置分散分析を行ったところ以下の結果を得た．判定せよ． nmubiostat2023-0903.png(20681 byte)

１０－２）曜日別に検査の管理用資料を測定した。それぞれ総当たりで二標本t検定を行った。有意確率をBonferroni補正法を用いて有意水準５％で判定し有意な組み合わせをすべて記せ
nmubiostat2023-0904.png(3229 byte)

第11回　相対危険

到達目標
１１－１相対危険を示す指標にどのようなものがあるか説明できる　
１１－２症例対照研究では相対危険をオッズ比で算出する理由を説明できる

この授業では相対危険=Relative Risk は一般的な用語であり、その算出指標の一つにリスク比（Risk Ratio）があるのですがそれを相対危険としているケースもあり，言葉の整理が出来ていないところでもあります。

観察研究(Observational study)

記述疫学
特段曝露について触れたものではない
ただし，人，場所，時間という曝露はあるが
記述統計と言われるものと同じ格好で，状況を可視化するもの
生態学的研究
集団レベルで曝露と疾病頻度の関係をみる．
仮説を形成するところまで
個人レベルで曝露と疾病頻度に関係が無くても集団レベルで行うと，関係が見えてくる場合がある　→　謎理論誕生
横断研究（Cross-sectional study）
曝露と疾患を同時に評価
時間軸がない場合が多く（例外は性別など）因果関係までは不明になってしまいやすい

コホート研究（Cohort study）
対象に曝露している人々と非曝露群を設定、追跡調査していくスタイル
通常前向きだが、後ろ向きにみる回顧的コホート研究というのもある。（後々でも曝露群に関する情報がある場合）

症例対照研究（Case-control study）
ある状態（例えば病気に罹患している）群と、罹患していない群を設定、時間を遡って調査していくスタイル
後ろ向きにしか行えない（前向きだと曝露→疾患の順がおかしくなる）

実験的研究（介入研究）（intervention study）

コホート研究の場合、曝露群（介入群）を研究者が割り付ける　→　被験者に対する倫理的配慮が肝要
無作為に割り付けることが出来る場合は交絡因子を制御できる（ことが期待される）
倫理的に考えると非介入群の方が不利益になってしまう可能性が高いので、配慮した研究デザインが求められる

説明用データ

	疾病発症	疾病無	計
曝露有	A	B	A+B
曝露無	C	D	C+D
計	A+C	B+D

リスク比

Risk Ratio(RR)
曝露（介入）の有る時と無の時の危険を示す指標の比
危険を示す指標には罹患率やら有病率やら死亡率やら

A～D:疾病発生頻度（頻度以外に罹患率やら有病率・・・）

曝露有群の発症リスク＝A/(A+B)
曝露無群の発症リスク＝C/(C+D)
リスク比＝A/(A+B)／C/(C+D)
もし、発生頻度が低ければA+B≒B　C+D≒D
　リスク比≒A/B／C/D＝AD/BC

オッズ比

Odds Ratio(OR)
危険な事象が起きた場合と起きなかった場合の指標の比（＝オッズ）について曝露（介入）の有無毎に求め比をとったもの

発症有群の曝露オッズ＝A/C
発症無群の曝露オッズ＝B/D
オッズ比＝A/C／B/D
　　　　＝AD/BC
上記のように発症頻度が低ければオッズ比とリスク比の近似値となる

課題（提出不要）

適切な相対危険を算出せよ
１－１）以下はコホート研究のデータである

	不整脈あり	不整脈なし	計
曝露群	100	1900	2000
非曝露群	50	1950	2000
計	150	3850	4000

１－２）以下は症例対照研究のデータである

	不整脈あり	不整脈なし	計
曝露歴あり	100	65	165
曝露歴なし	100	135	235
計	200	200	400

２）なぜリスク比とオッズ比が乖離する場合があるのか簡潔に説明せよ

補足

第12回　感度・特異度・ROC曲線

到達目標
１２－１判別特性値の計算が出来る
１２－２評価結果よりROC曲線を作成し評価やカットオフ値の検討が出来る

教科書P115-
検査法の診断的有用性を評価する話
ocrotstat2022-0301.png(344953 byte)

	疾患あり	疾患なし	指標
検査陽性	真陽性 a	偽陽性 b	陽性的中率 a/(a+b)
検査陰性	偽陰性 c	真陰性 d	陰性的中率 d/(c+d)
指標	感度 a/(a+c)	特異度 d/(b+d)	有病率 (a+c)/(a+b+c+d)

予測値

有病率の影響を受ける
陽性的中率＝P(Ｄ|陽性)
陰性的中率＝P(Ｄc|陰性)

感度と特異度

感度＝P(陽性|Ｄ) 　疾患群における真陽性の割合
偽陽性率＝P(陽性|Ｄc) 非疾患群における偽陽性の割合
特異度＝１－偽陽性率非疾患群における真陰性の割合
ocrotstat2022-0302.png(394121 byte)

検査法の評価指標

AUC＝ROC曲線を描いて算出　検査の分別能

ROC曲線

教科書（P119）
判別度の分析
感度と偽陽性率（１－特異度）を用いて曲線を描く
ocrotstat2022-0304.png(355176 byte)

カーブが左上に行くほど検査特性が優れている．（＝AUCが大きくなる）
判断基準は諸々の要素が入るが1,0と0,1の対角線と曲線の交わる部分が目安．あとは検査の目的などによって変わってくる

尤度比

教科書で尤度比としているのは陽性尤度比＝感度/偽陽性率
ocrotstat2022-0305.png(364354 byte)

オッズ比

オッズ・・・値が高いほど感度が高い
オッズ比は疾患無しのオッズに比べ疾患有のオッズがどの程度高くなるのかの比

課題（提出不要）

2種類の検査法A,Bを施行したところ以下の結果を得た．
AUCを求めどちらの検査が優れているか評価せよ
また，作成の際には検査値を12.0~15.5まで0.5刻みで設定し評価のこと
A法

疾患群	14.3	15.2	13.8	14.1	13.9	12.6	14.2	14.6	13.1	13.7
非疾患群	13.2	14.1	13.8	13.6	12.9	12.4	12.1	12.3	12.3	12.8

B法

疾患群	14.3	15.2	13.8	14.1	13.9	12.6	14.2	14.6	13.1	13.7
非疾患群	13.2	14.3	13.8	12.9	14.4	14.4	12.1	15.3	12.3	12.8

補足

課題解答例

講義中にもう少し基準を細かく設定したら？という話が出たのですが，それぞれ出現した値以上で逐一求めたものは以下になります
より実態を示した結果になります
nmubiostat2023-1202.png(48912 byte)

第13回　相関係数，回帰分析

到達目標
１３－１相関係数を説明・計算することが出来る
１３－２重回帰分析においてどのような変数が従属変数と関連があるのか説明できる
教科書P173-202
教科書のページなど確認　内容も無相関の検定や　最小二乗法の話含め手厚く書く　

相関

correlative
相関関係がある・・・関連がある
相関関係が無い・・・関連がない
他方の影響を受けるか受けないか

因果

cause and effect
原因と結果
因果関係がある・・・影響がある
因果関係が無い・・・影響がない

普通は関連がある（相関がある）＝影響を及ぼす関係（因果関係がある）と考える（考えたくなる）
例
たばこを吸う－肺がん・・・・相関関係○

コーヒーを飲む－肺がん・・・相関関係○

コーヒーと肺がんの相関関係に割り込んでいる（どちらとも相関関係がある）状態＝交絡
割り込んでいるそれ＝交絡因子・・・たばこ
コーヒーと肺がんに因果関係が無いとしたならその関係は疑似相関

交絡因子について

教科書P220－
第3回の授業で取り上げた「真度と精度の話（誤差）」も含めて確認しておくこと

散布図

X軸とY軸に一つの対象に与えられるそれぞれの値をプロット（例：身長と体重）
とりあえず図にすると関係が直感的にわかる（場合がある）
nmuhlthstat1202107-02.png(9572 byte)

相関係数

-1から1までの値をとる
Xが増加すればYも増加する・・・1
Xが増加すればYは減少する・・・-1
Xが増加しようが減少しようがYは関係ない・・・0

X軸で見たときのバラツキ具合とY軸で見たときのバラツキ具合を元に計算してる
バラツキ＝散布度・・・分散・・・偏差の二乗の平均
共分散＝ある対象のX軸の偏差とY軸の偏差を乗じたものがベース
　　

Xの偏差	Yの偏差	乗じた結果
＋	＋	＋
＋	－	－
－	＋	－
－	－	＋

乗じた結果の平均が共分散
共分散はX軸Y軸のバラツキ具合が混ざっているのでそのままの数字だと解釈しにくい→XとYの標準偏差で除する（正規化）→相関係数

単相関係数の検定

P180-

回帰直線

X軸の値とY軸の値を数式（y=ax+b）で示す
直線を引いたときにそれぞれの点からの差（残差）の2乗して足したもの（平方和）が最も小さい時の数式が回帰直線

単回帰分析

教科書P195
回帰係数・・・Y=a+bXのb
決定係数・・・１に近いほど良好なモデル

決定係数

相関係数を二乗したもの
数式によって説明できる割合を示す。（寄与率とも）
高ければ高いほど数式で説明出来る

傾きの推定

傾きの推定値が0を含まないと，その項の変数（独立変数）はｙ（従属変数）にどのような影響を与えているのか説明できる

推定は計算機に

単回帰分析（t検定と信頼区間）作者: tonagai さん（ke!san）
https://keisan.casio.jp/exec/user/1491997364

重回帰分析

教科書P223
（回帰直線の話を思い出す→単回帰分析）
回帰・・・元に戻る・・・何らか（定理や関係）に基づき戻っていく
変数ごとに有意差検定を行っても他の変数の影響が含まれてしまう
予測モデル式としての話とどのような変数が影響を与えているのか

重回帰分析

Y=a+b1X1+b2x2+・・・目的変数・・・Y
説明変数・・・Xi
偏回帰係数・・・bi
標準偏回帰係数　β^*　目的変数と説明変数の関係を標準化したときの偏回帰係数・・・
目的変数は量的
説明変数は量的でも質的（0,1）でも
単回帰と同じく最小二乗法で求める
決定係数・・・説明変数を増やすと値は上昇自由度調整済み決定係数・・・1-(1-R²)(n-1）/（n-k-1） n=標本数　k=独立変数

VIF　分散拡大要因

多重共線性を見つける指標
多重共線性・・・独立変数が他の独立変数と相関がある・・・偏回帰係数の標準誤差増大
VIF=(1-Ri²)^-1
Ri²：他の独立変数で重回帰させたときの決定係数
許容度：1-Ri² 目安としてVIFは10以下であること＝許容度が0.10を超えていること

分散分析

回帰式による変動と残差（回帰式と実測の差）の変動が異なるのか示している
異なると言えなければその回帰式は統計的に・・・

ロジスティック回帰モデル

目的変数を質的変量で重回帰分析できないのかな？という話
（あり・なし）の結果を確率で

ロジット変換

事象の起こる確率をpとしたときその取るべき値は0～1のいずれか．
nmubiostat202112-01a.png(5255 byte)

ロジット関数は，その確率の範囲を-∞～∞に拡張するもので logit(p)=ln(p)-ln(1-p)=ln(p/(1-p))で示される． nmubiostat202112-02a.png(9408 byte)

オッズを確率pで示すと
A/C=A/（A+C)／C/（A+C)=p/(1-p)
p=A/（A+C)であるが，その取りうる値は0～1．

pをロジット変換するとln(p)-ln(1-p)=ln(p/(1-p))

ln(p/(1-p))=a+b1X1+b2x2+・・・

exp(b)がオッズ比になる件

ln(p/(1-p))=a+b1x1+b2x2
とした場合
上記は
(p/(1-p))=exp(a+b1x1+b2x2)
=exp(a+b1x1)*exp(b2x2)

exp(b2)が1よりも大きい場合オッズは上昇し，1未満であれば低下する
式を整理すると
exp(b2x2)=(p/(1-p))/exp(a+b1x1)
となりexp(b2)はオッズ比を示す

分析例

重回帰分析

パネル調査（ダミー）のデータより，自身の年収（ZQ47Aの回答を年収に変換）がどのような因子（普段の生活）によって影響を受けるのか分析した
nmubiostat2023-1301.png(50275 byte)

ロジスティック回帰分析

パネル調査（ダミー）のデータより，自身の健康状態（ZQ25が1と２を良好と定義）がどのような因子（普段の生活）によって影響を受けるのか分析した
nmubiostat2023-1302.png(46436 byte)

分析例で用いたデータ

非制限公開擬似データの提供（東京大学社会科学研究所附属社会調査・データアーカイブ研究センター）
https://csrda.iss.u-tokyo.ac.jp/infrastructure/urd/

第14回　生存時間分析

到達目標
１４－１カプランマイヤー法による生存曲線の作成が出来る
１４－２ログランク検定による生存率の差の検定を行うことが出来る

生存時間分析は治療法等の評価に時間軸を含めたもの
イベント発生までの時間による分析

生存率

生存率には計算方式が複数
電算機の普及によりKaplan-Meier法でも容易に計算出来る時代
そもそも率は比の特殊な形態で単位時間あたりのイベント数を表わす
（第7回の授業で比率割合取り上げました．イベントが発生するまでの時間が重要なのでそれを評価したい）
Kaplan-Meierで求める非イベント発生（生存）率＝1-イベント発生（死亡）率そのものは、率では無く時点のイベント発生（死亡）割合なので注意

生存率の定義

実測生存率

イベント＝死亡として算出

補正生存率

イベント＝対象とする疾患での死亡として算出
対象としない疾患等での死亡は打切り扱い

相対生存率

実測生存率と期待生存率の比とも言えるが，割合（％表記）で用いられる
＜参考＞国がん　がん５年相対生存率は68.6％　乳がんなど3部位で9割超え（ミクスOnline）
https://www.mixonline.jp/tabid55.html?artid=70189

生存率の計算方法

直接法

観察期間終了時点（例　5年）での生存患者の割合を求める．
終了時点での追跡できた生存患者が全て？（中途打切り＝生存？死亡？）

生命保険数理法

年などで区切り区間ごとの死亡率（割合）を求め累積生存率を求める
イベントが発生した場合の生存期間（観察期間）は期間の半分まで（期待値）
＜参考＞
打ち切りの反映－計算方法は、技術の進化に応じて見直すべきか?（ニッセイ基礎研究所）
https://www.nli-research.co.jp/report/detail/id=57317?site=nli

Kaplan-Meier法

生命保険数理法が観察期間を区切っていたことに対して，実際にはイベント発生毎に算出
計算の回数が多くなるので大変・・・コンピュータの活用で解決
とはいっても，分単位での記録は難しいものが多いのではいか？
＜参考＞
生存時間データの解析（赤澤宏平　医療情報学/20 巻 (2000) 6 号）
https://www.jstage.jst.go.jp/article/jami/20/6/20_451/_article/-char/ja/
患者の生存率（地域がん登録全国協議会）
http://www.jacr.info/about/survival.html

Kaplan-Meier法による生存曲線の作成

個票データ
ここでは月単位のデータでしか取れなかったという恰好で

患者ID	診断名	観察終了時期	患者ID	診断名	観察終了時期	患者ID	診断名	観察終了時期	患者ID	診断名	観察終了時期	患者ID	診断名	観察終了時期
1	b	3	11	a	8	21	b	9	31	b	24+	41	a	3+
2	b	5	12	b	14	22	b	18	32	a	12	42	b	8
3	b	6	13	b	9	23	a	12+	33	a	3+	43	b	24+
4	b	14	14	a	1	24	a	3	34	b	13	44	a	5+
5	a	7+	15	a	2	25	b	17+	35	b	17	45	b	14
6	a	14	16	a	3	26	a	7	36	a	3
7	a	17	17	a	13	27	a	8	37	b	15
8	b	21	18	b	21	28	a	12	38	b	13
9	b	21	19	b	16	29	b	12+	39	a	21
10	b	16	20	b	24+	30	a	1	40	b	18

+は打ち切り

生存率の計算

疾患a

診断からの月数	月開始時の生存数	死亡数	中途打ち切り数	死亡割合	生存割合	累積生存率
1	20	2	0	0.100	0.900	0.900
2	18	1	0	0.056	0.944	0.850
3	17	3	2	0.176	0.824	0.700
5	12	0	1			0.700
7	11	1	1	0.091	0.909	0.636
8	9	2	0	0.222	0.778	0.495
12	7	2	1	0.286	0.714	0.354
13	4	1	0	0.250	0.750	0.265
14	3	1	0	0.333	0.667	0.177
17	2	1	0	0.500	0.500	0.088
21	1	1	0	1.000	0.000	0.000

疾患b

診断からの月数	月開始時の生存数	死亡数	中途打ち切り数	死亡割合	生存割合	累積生存率
3	25	1	0	0.040	0.960	0.960
5	24	1	0	0.042	0.958	0.920
6	23	1	0	0.043	0.957	0.880
8	22	1	0	0.045	0.955	0.840
9	21	2	0	0.095	0.905	0.760
12	19	0	1			0.760
13	18	2	0	0.111	0.889	0.676
14	16	3	0	0.188	0.813	0.549
15	13	1	0	0.077	0.923	0.507
16	12	2	0	0.167	0.833	0.422
17	10	1	1	0.100	0.900	0.380
18	8	2	0	0.250	0.750	0.285
21	6	3	0	0.500	0.500	0.143
24	3	0	3			0.143

疾患a：青線
疾患b：赤線

ログランク検定

カイ二乗分布による検定を行う
（期待度数と比較してバラツキがあるか否か）

イベント発生毎のクロス表（カッコ内は期待度数）

１ヶ月

	死亡数	生存数	合計
症例a	2(0.889)	18(19.111)	20
症例b	0(1.111)	25(24.889)	25
合計	2	43	45

２ヶ月

	死亡数	生存数	合計
症例a	1(0.419)	17(17.581)	18
症例b	0(0.581)	25(24.419)	25
合計	1	42	43

以下同様な格好で観測度数と期待度数（例：期待死亡数）を求めていく

観察度数及び期待度数

診断からの月数	a観察度数	a打ち切り数	a総人数	a期待度数	b観察度数	b打ち切り数	b総人数	b期待度数
1	2	0	20	0.889	0	0	25	1.111
2	1	0	18	0.419	0	0	25	0.581
3	3	2	17	1.619	1	0	25	2.381
5	0	1	12	0.333	1	0	24	0.667
6	0	0	11	0.324	1	0	23	0.676
7	1	1	11	0.333	0	0	22	0.667
8	2	0	9	0.871	1	0	22	2.129
9	0	0	7	0.500	2	0	21	1.500
12	2	1	7	0.538	0	1	19	1.462
13	1	0	4	0.545	2	0	18	2.455
14	1	0	3	0.632	3	0	16	3.368
15	0	0	2	0.133	1	0	13	0.867
16	0	0	2	0.286	2	0	12	1.714
17	1	0	2	0.333	1	1	10	1.667
18	0	0	1	0.222	2	0	8	1.778
21	1	0	1	0.571	3	0	6	3.429

検定統計量χ^2＝Σ（ＯiーＥi）^2／Ｅi

今回は二つの群の比較・・・自由度k＝n-1=1
Ｏ1＝a観察度数の総和=15
Ｅ1＝a期待度数の総和=8.549
Ｏ2＝b観察度数の総和=20
Ｅ2＝b期待度数の総和=26.451
検定統計量χ^2＝6.441
χ^2（1,0.95）=3.8415
故に帰無仮説を棄却し対立仮説を採択する（a,bの再発率に差がある）

課題(提出不要)

次のデータからカプランマイヤー法により生存確率を推定し生存曲線を描き，疾患ABによる違いがあるか検定せよ
nmubiostat2018-1305.png(33181 byte)

補足

課題について

第15回　統計処理を行う上での注意点

到達目標
１５－１データに振り回されないようになる

適切な統計処理に必要な考え方

P203-224
（既に授業内で取り組んだ内容もあります）
Q2検定法によって判定が異なる場合
　→データが出てから検定法を選択するのは適切ではない
Q5有意差検定が無意味な場合
　→統計的有意差と臨床的有意差の話　教科書の効果量に対する必要データ数を可変させたものが以下

　各群10データで検定すると10kg程度となるが、そこまで体重が変化しているとなにか違う出来事が起こっている気がする
　各群1000データぐらいで検定すると1kg程度で有意な結果となるが、本当に意味あるのか気になる
　 nmubiostat2016-0901.png(37095 byte)

　　＜参考＞その治療は臨床的に有益か（PEDro）
　https://www.pedro.org.au/japanese/tutorial/is-the-therapy-clinically-useful/
　＜参考＞統計的有意性とP値に関するASA声明
　http://biometrics.gr.jp/news/all/ASA.pdf
　以下抜粋しました
　1. P値はデータと特定の統計モデルが矛盾する程度をしめす指標のひとつ
　2. P値は、調べている仮説が正しい確率を測るものではない
　3. 科学的な結論は、P値がある値を超えたかどうかにのみ基づくべきではない
　4. 適正な推測のためには、すべてを報告する透明性が必要
　5. P値は、効果の大きさや結果の重要性を意味しない
　6. P値は、それだけでは仮説に関するエビデンスのよい指標とはならない
・データ数が大きい場合は区間推定のほうが意味ある。

患者ID	診断名	観察終了時期	患者ID	診断名	観察終了時期	患者ID	診断名	観察終了時期	患者ID	診断名	観察終了時期	患者ID	診断名	観察終了時期
1	b	3	11	a	8	21	b	9	31	b	24+	41	a	3+
2	b	5	12	b	14	22	b	18	32	a	12	42	b	8
3	b	6	13	b	9	23	a	12+	33	a	3+	43	b	24+
4	b	14	14	a	1	24	a	3	34	b	13	44	a	5+
5	a	7+	15	a	2	25	b	17+	35	b	17	45	b	14
6	a	14	16	a	3	26	a	7	36	a	3
7	a	17	17	a	13	27	a	8	37	b	15
8	b	21	18	b	21	28	a	12	38	b	13
9	b	21	19	b	16	29	b	12+	39	a	21
10	b	16	20	b	24+	30	a	1	40	b	18

患者ID	診断名	観察終了時期	患者ID	診断名	観察終了時期	患者ID	診断名	観察終了時期	患者ID	診断名	観察終了時期	患者ID	診断名	観察終了時期
1	b	3	11	a	8	21	b	9	31	b	24+	41	a	3+
2	b	5	12	b	14	22	b	18	32	a	12	42	b	8
3	b	6	13	b	9	23	a	12+	33	a	3+	43	b	24+
4	b	14	14	a	1	24	a	3	34	b	13	44	a	5+
5	a	7+	15	a	2	25	b	17+	35	b	17	45	b	14
6	a	14	16	a	3	26	a	7	36	a	3
7	a	17	17	a	13	27	a	8	37	b	15
8	b	21	18	b	21	28	a	12	38	b	13
9	b	21	19	b	16	29	b	12+	39	a	21
10	b	16	20	b	24+	30	a	1	40	b	18

Medbb.net

奈良県立医科大学 生物統計学２０２３（医学部医学科）

授業メニュー

第01回 オリエンテーション

本授業の位置付け

PR: プロフェッショナリズム

PR-01: 信頼

PR-03: 教養

GE: 総合的に患者・生活者をみる姿勢

GE-01: 全人的な視点とアプローチ

SO: 社会における医療の役割の理解

SO-02: 疫学・医学統計

これまでのコアカリで出ていたところより

頻度と信念の度合い

頻度に基づく確率

信念の度合いに基づく確率

信念の度合いは何に基づく？

頻度と信念の度合いの不一致

参考資料

本授業の目的

本授業の到達目標

Ⅰ 倫理観とプロフェッショナリズム

Ⅱ 医学とそれに関する領域の知識

Ⅵ 国際的視野と科学的探究

教科書

参考図書

参考資料

授業の進め方

出席確認

単位認定

備考

統計の世界の枠組み

記述統計とは

推測統計とは

推定とは

検定とは

母集団とは

標本とは

参考

課題

結果

問１の単語出現頻度の多い順

問２の単語出現頻度の多い順

問１，２の単語出現頻度の多い順

用いられていた単語の文字数別出返頻度（1～15文字）

補足

第02回 記述統計（尺度，度数，基本統計量）

統計に用いるデータ

データについて

レコード

変数（変量）

データ

変量(データ)の分類

統計量

度数

度数分布表

例題

量的変数の度数分布表

度数分布図

記述統計量（代表値）

平均（Mean）

中央値

最頻値

記述統計量（散布度）

範囲

四分位範囲

分散 標準偏差

課題(今回は提出不要)

第03回 平均値の推定

推定

点推定

母平均

用いたデータ

計算機で20000人を対象に検査を行った事にしてデータを作成

中心極限定理

正規分布

例えば

標準正規分布表

母分散

不偏分散は何故nではなく（n-1）で除するのか

奈良県立医科大学　生物統計学２０２３
（医学部医学科）

第01回　オリエンテーション

Ⅰ　倫理観とプロフェッショナリズム

Ⅱ　医学とそれに関する領域の知識

Ⅵ　国際的視野と科学的探究

第02回　記述統計（尺度，度数，基本統計量）

分散　標準偏差

第03回　平均値の推定

統計学（２）平均値の推定（統計学２０２２　－　medbbstat2022）

なぜ95%信頼区間を求める式がxbar±1.96×σ／√n　で求まるのかわからない

第04回　検定の原理

αエラー　βエラー

第05回FTF　パラメトリック検定

第06回　ノンパラメトリック検定

告知　【AB合同】中間まとめ（テスト）について

第07回　計数値データの検定

患者ID	診断名	観察終了時期	患者ID	診断名	観察終了時期	患者ID	診断名	観察終了時期	患者ID	診断名	観察終了時期	患者ID	診断名	観察終了時期
1	b	3	11	a	8	21	b	9	31	b	24+	41	a	3+
2	b	5	12	b	14	22	b	18	32	a	12	42	b	8
3	b	6	13	b	9	23	a	12+	33	a	3+	43	b	24+
4	b	14	14	a	1	24	a	3	34	b	13	44	a	5+
5	a	7+	15	a	2	25	b	17+	35	b	17	45	b	14
6	a	14	16	a	3	26	a	7	36	a	3
7	a	17	17	a	13	27	a	8	37	b	15
8	b	21	18	b	21	28	a	12	38	b	13
9	b	21	19	b	16	29	b	12+	39	a	21
10	b	16	20	b	24+	30	a	1	40	b	18