奈良県立医科大学附属病院 統計学2021
(HIM合格友の会)

本授業は対面で行う予定ため動画配信の予定はありません

講義/復習動画の閲覧はこちらから

ログインID:

パスワード:

勉強会について

診療情報管理士の試験に合格してください.お願いします.
授業というより,試験対策なのでご不明な点,掘り下げたい方は関連するリンク先などをご覧ください
診療情報管理士テキストに準拠しているので,皆さんが経験している統計関連の授業と違う用語や考え方が少し違う部分がでてくるのでご注意ください

参考資料

診療情報管理Ⅲ(オレンジ本)第8版(2017.7)専門・1章~7章に準拠したものです.
一コマ(90分)なので,かなり絞った格好になります.
私が取得および診療情報管理士教育に携わっていた頃から,内容が結構変わっています.
削除された項目がありますが,その部分については特に触れずまとめました

診療情報管理に関する自己紹介

本学に着任する前は,診療情報管理士を養成する大学にいました.
その時は病院会への申請からカリキュラムの変更,学生を合格に導くために取り組んでいました.

当時の勉強方法ですが,私がひたすら教科書を読みながら,そこから質問を出して学生が答えていく格好で行っていました.
5人~8人ぐらいのグループに順番に教科書読みながら問題を作って当てていました.(学生は答えるときは本をみません)
概ね6月の終わりぐらいから始めていたのですが,最初の頃は既に勉強している方は時々答えを言えましたが,大半の方は分からない
時とともに少しづつ答えが当たるようになっていく格好でした.

それがどう役立ったのかはわかりませんが,ともかく多くの学生が合格してくれました.最後の追い込みで一気に花開き合格した学生もいました.
そのような学生は地道に取り組んでくれたことと,自分の特長をどのように活用したらよいのか気が付いてから一気に成長したように思います

授業メニュー
第1章 医療統計Ⅰ統計理論

第2章 医療統計Ⅱ病院統計・疾病統計

第1章 記述統計(Ⅰ)-尺度・度数分布について

到達目標
1-1データの要約が出来る
1-2相関係数を解釈できる
1-3推測統計がなんとなくわかる


統計解析の基礎

統計解析においては事前に綿密な計画が必要
欠損値が多いと困る
ある程度のデータ数が無いと統計解析できない
データセット(データファイル)=データの集合体
変数(変量)=データの項目

変数(データ)の種類

量的変数・・・連続変数,整数変数・・・小数点の無いデータ=整数変数
質的変数・・・名義変数,順序変数・・・本来名前に順番は無いが,便宜上定めたものもある
量的/質的変数の話を意識しておくと代表値の話や検定手法の話まで理解しやすくなる.

注釈(余裕のある人はお読みください)

データの種別については,4つの尺度で進めることが多いのですが,診療情報管理士の教科書は表現型(整数,小数点を含むデータ,文字列などなど)からアプローチしています.
記述統計(1)尺度・度数分布・ヒストグラム - 奈良県立医科大学 保健統計学I2021(医学部看護学科)
https://medbb.net/education/nmuhlthstat12021/#1
コード(カテゴリー)
質的変数を数値に置き換えたもの.置き換えをコード変換という.
例えば北海道=1,青森県=2 ・・・奈良県=?
名義変数をコード化したものは数値の大小比較は意味が無いが,順序変数は数値の大小が意味を持つ.

データの要約

1)目的を明確にしてから行う
2)データの適切な抽出
3)図表の作成と記述統計量の算出
4)図表や記述統計量の解釈を記述

記述統計量(要約統計量)

代表値と散布度からなる.←駅伝やマラソンの実況中継はこれらを利用しているから状況がわかる
【代表値】平均(Mean)
Averageってexcel関数ありますが,あれ代表値って意味です.
いわゆる割り勘.xbar=1/n(x1+x2+・・・+xn)
欠点:外れ値があると平均値は分布の中心位置を示さない(←それって代表的な値??)
 → 対処法:外れ値を取り除くか中央値を使うか
【代表値】中央値
昇順に並べたときに,真ん中の順番のデータ(変数)の値
データの数が偶数だと真ん中のデータは二つになるのでそれらの平均値
【代表値】最頻値
最も個数が多いデータの値
最頻値は複数存在する場合がある→二峰性
【散布度】範囲
最大値と最小値の差
【散布度】四分位範囲
IQR=第3四分位数(75%点)-第1四分位数(25%点)(参考:中央値=第2四分位数(50%点))
第3四分位数(75%点)の算出方法は数多くありまして・・・
【興味があれば】ダンゴ包丁理論(tukeyのヒンジ)
https://medbb.hatenablog.com/entry/2020/12/12/091240
例題
以下のデータより,平均値,中央値,最頻値,範囲を求めよ
(2,2,3,5,5,6,7,10,10,30)

図表類

どのようなデータでも度数分布表と図は作成できる
度数分布表

品名 度数 相対度数(%)
いちご 20
みかん 12
ぶどう
40 100.0
時間(分) 度数 相対度数(%)
0~10
10~20
20~30
15 1.00
0~10は 0分以上10分未満 とするなど他の階級とかぶらないように・・・以上以下は×
【度数分布図】棒グラフ
〇質的変数・・・名義変数,順序変数
△量的変数・・・連続変数,整数変数
nmuhimstat2021-01.png(3771 byte)
【度数分布図】ヒストグラム
×質的変数・・・名義変数,順序変数
〇量的変数・・・連続変数,整数変数
nmuhimstat2021-02.png(3656 byte)

相関/回帰分析

二つの変数(データ)の関係を示す.

散布図

X軸Y軸に一つの事象や対象を観察して得られた二つのデータを一つの点としてプロット.
点のバラツキ具合を見る
nmuhlthstat1202107-02.png(9572 byte)
第07回FTF 二変量解析 相関係数・回帰直線(奈良県立医科大学 保健統計学I2021) より

相関係数

r・・・-1~1の値をとる
負の相関・・・右肩下がり(一方のデータが増えるともう一方のデータは減る)
正の相関・・・右肩上がり(一方のデータが増えるともう一方のデータも増える)
無相関・・・0に近いほど・・・散布図で示すと互いに関係の無い組み合わせはいろいろあります.(教科書のパターン以外に色々)
相関係数の目安
-1.0 -0.7 -0.4 0 0.4 0.7 1.0
強い相関 中程度の相関 弱い相関 無相関 弱い相関 中程度の相関 強い相関
負の相関 正の相関

交絡因子

コーヒーを飲むと肺がんになる.
というデータが出てくるが・・・コーヒーにも肺がんに影響を及ぼしている因子・・・交絡因子
このケースはタバコ

回帰直線

Y=a+b×X
Y:説明変数
X:予測変数
a:切片
回帰直線はXとYそれぞれの平均の点(Xbar,Ybar)を通る

推測統計

ちなみに,代表値散布度の話は記述統計

母集団と標本

関心のある対象全体=母集団
母集団を対象とする調査=全数調査・・・センサス
大変であったり事実上不可能な場合,標本調査になる.
関心のある対象の一部=標本
作為的に対象の一部が抽出されると,関心のある集団全体の特性を正しく推測できない
ということで無作為抽出の話が出てくるが,すべての個体が抽出される確率が等しくなる方法のこと
統計量
母平均μ(の推定値)=標本平均Xbar 
母分散σ^2(の推定値)≠標本の分散
母分散σ^2(の推定値)=標本分散V
この部分本によって表現が異なるところで,診療情報管理士の指定教科書はこのような整理になっています.
標本の分散は偏差平方和をnで除する.標本分散は偏差平方和をn-1で除する.
理由を知りたい方は以下の資料を参照ください.まず理由(標本平均と母平均は違うので標本平均で分散を計算してもちょっと違う)があるということだけ覚えていたら良いかなと.
第03回CMC 平均値の推定(奈良県立医科大学 生物統計学2021(医学部医学科))
https://medbb.net/education/nmubiostat2021/#3

推定

点推定と区間推定がある
点推定
標本平均を求めてそのまま
区間推定
点推定の値を中心に幅を持たせる
100%の確率で推定するのは簡単だけど推定した意味が無い・・・(幅を無限大にすれば100%あたる)
通常は95%信頼区間(20回推定したら19回は当たる(だろう)ような幅)で推定している
正規分布
推測統計で用いる確率分布・・・この分布を用いて95%云々の幅を決めている.
t分布もさりげに教科書出てきていますが,正規分布のようなものです(取り上げきれなかった案件参照)
信頼区間の表記
区間の示し方は平均の場合(Xbar-幅,Xbar+幅)
信頼区間・・・CI(Confidence Interval)
幅の求め方
二つパーツを乗じたもの
1)標本平均を中心に上下47.75%(0.4775)づつ(点の場所は上下それぞれ0.025の点)になる確率を示す係数
2)推定する値のバラツキ具合
この部分,基本的な部分を理解していないと暗記モードで乗り切るしかないかなと.少々心が痛いのですが,この試験は統計検定では無いので
ちなみにここだけで通常90分一コマ使っています.上に上げた統計量の部分 分散の話(標準偏差)を理解しているか否かで印象全然変わってくると思います
第1回 疫学に必要な統計(1)推定(関西福祉大学 疫学2021(教育学部保健教育学科))
https://medbb.net/education/kuswepi2021/#1

検定

二つの仮説(本当に証明したい仮説=H1対立仮説と,H0帰無仮説)を基準とする確率(有意水準α)に基づきいずれかを採択する.
流れは帰無仮説を棄却するかしないか→棄却した場合は対立仮説
H0 μ=0
H1 μ≠0
という感じで検定する人は帰無仮説は世の中的に想定内 対立仮説は想定外 という恰好で帰無仮説を棄却して対立仮説を採択することを祈っている(と思う)
有意水準とP値
帰無仮説を棄却するかしないかの判断材料
有意水準・・・帰無仮説を棄却するかしないかの基準検定する人が決める・・・一般的には5%・・・推定の95%信頼区間と同じく両側2.5%づつにする両側検定が一般的
P値・・・標本を基に算出したもので,その事象が起こる確率.
P値が著しく低く有意水準よりも小さい場合はこれまで想定していた事柄とは違うことが起こったのではないか?となり帰無仮説を棄却し対立仮説を採択
有意水準よりも小さい確率の領域を棄却域,有意水準よりも大きい確率の領域を採択域・・・どちらも帰無仮説を基準の名称になっています.
ちなみにこちらも通常90分一コマ使っています.大小関係を丸暗記すると逆に答えて悲惨な結果になることになるので,下記ご参考に
第2回 疫学に必要な統計(2)検定(関西福祉大学 疫学2021(教育学部保健教育学科))
https://medbb.net/education/kuswepi2021/#2

取り上げきれない予定の案件

カプランマイヤー

生存時間分析で用いる方法
参考
第14回 生存時間分析(奈良県立医科大学 生物統計学2021(医学部医学科))
https://medbb.net/education/nmubiostat2021/#14

t分布

標本が少ないとき正規分布だと推定や検定が思った通りに出来ないので,ペンネームstudentさんがあみ出した確率分布
正規分布に基づき確率を求めるには母平均と母標準偏差が必要→nが多い場合標本平均と標本標準偏差で近似できるが,nが少ない場合は近似できないからt分布

(二群の母割合の差の検定)カイ二乗検定

以前はしっかり取り扱われていましたが,かなり省略されており教科書だけ見て理解は困難と思います
時間があって興味があれば以下ご参考に,興味ありましたらフォローします
第06回FTF 推測統計(4)カイ二乗検定(奈良県立医科大学 保健統計学I2021(医学部看護学科))
https://medbb.net/education/nmuhlthstat12021/#6

統計手法の考え方(教科書にはそこまで載っていないように思うのですが)

量的変数をそのまま量的に取り扱う場合・・・平均値 標準偏差 パラメトリック検定・・・t検定(正規分布を用いた検定)
量的変数を順序変数として取り扱う場合・・・中央値 四分位範囲/偏差 ノンパラメトリック検定・・・一標本Wilcoxon検定,Mann-Whitney検定
量的変数を名義(カテゴリー)変数として取り扱う場合・・・度数 カイ二乗検定
よく,パラメトリック検定を分布に依存すると表現している件
意味としてはノンパラ(順序=分布に依存しない)とは,取り扱うと,値の分布をキャンセルしている(バラバラに存在整列していたものを整列させる)ということ
nmuhimstat2021-11.png(10453 byte)
元々は量的変数.こちらの絵の通りで平均値(14.55)を求めたり標準偏差(4.23)を求めたり,母集団の推定のために不偏分散(19.67)求めたりt検定を行ったり.
nmuhlthstat202102-01.png(21147 byte)
こちらは分布なんて関係なく中央値(15)を求めたり,四分位偏差(2)求めたり,U検定を行ったり.

第2章 医療統計Ⅱ病院統計・疾病統計

到達目標
2-1グラフの種類及び特徴を説明できる
2-2統計調査の種類及び指標について説明できる
2-3研究の類型や倫理指針について説明できる

グラフ

それぞれの特徴やお作法を記しておきます.

お作法

項目が名義変数(尺度)の場合は度数の多い順に
ただしその他は,どれだけ度数が多くても一番最後
順序変数(尺度)他は度数に関係なく順序に従って記すこと

棒グラフ

度数分布表を図にすると,このグラフになる.
ヒストグラムの場合は,度数を棒の高さではなく面積で示していることに注意(前章該当箇所を確認の事)
項目は左(縦棒グラフ),もしくは上(横棒グラフ)から示す.
度数以外に割合で示す場合もある. 両側棒グラフは,2種類のデータを同時比較するときに有効

円グラフ

・個別の度数の全体に対する割合を円の角度で示したもの
・項目間の比較において特定の項目同士の比較には効果的だが,多項目の比較になるとわかりにくい
nmuhimstat2021-03.png(9590 byte)
nmuhimstat2021-04.png(15866 byte)
・度数の表現には適さない
円の角度と面積と
面積でも割合を示しているのでは?という疑問について
円の面積はπr^2で項目の割合を角度で示しているから,結果的に面積にも比例している
ただし,どのように認識しているかというと,パイの部分の面積を比較していないかと・・・という意味
角度で示しているが,意図せず面積比でも同様な結果となるけど,見る側はそのような見方をしていない・・・ということでどうでしょう

帯グラフ

棒グラフ(積み上げ)の高さを揃えて割合を比較
nmuhimstat2021-05.png(6471 byte)
円グラフと比べて項目が多くても把握しやすい
異なる集団との比較が出来る.特に端の項目

折れ線グラフ

変化の傾向をとらえるのに有効
平滑化
折れ線グラフで傾向を見るには傾向以外の要因を取り除かないとわかりにくい
以下は一日の歩数をグラフで示したもの(ダミーデータ) 7点平均をとることで,上昇している傾向が把握できる
nmuhimstat2021-06.png(17862 byte)
元データはコチラ(画像ですが)

レーダー図

複数の項目データを二次元にマッピングすることでパターンを作成し,類型化することが出来る
nmuhimstat2021-08.png(27839 byte)
診療情報管理学会の発表の際も以下のようなもの作成していました. 管理士取得されたら学会発表したくなると思うので喜んでサポートします.ご遠慮されずにご相談ください
jhim41-14.png(162309 byte)
検索エンジンのサジェスト機能を用いた病院情報探索行動の分析(第41回日本診療情報管理学会学術大会)より

散布図

二つのデータの関連性を示す. プロットする点の大きさをデータで示せば三つのデータの関連性を示せる(→バブルチャート)
(前章該当箇所を確認の事)

箱ひげ図

nmuhimstat2021-09.png(8898 byte)
箱ひげ図は四分位数(中央値)の世界(正確に言うとパーセンタイルかな)での表現を基本

三次元グラフ

二次元空間に三次元のものを書こうとすると歪んで当然
手書きでは困難だが,コンピュータ(excel)で簡単に作れるので目新しかったけど,学術的なものには使えないかな
nmuhimstat2021-10.png(16426 byte)

統計資料

厚生労働省の統計資料

動態調査・・・動き(変化)を把握・・・比較的容易
静態調査・・・現状を調査    ・・・結構大変
故に静態調査の調査周期は長くなってしまう
患者調査は医療機関が回答し,受療行動調査は利用者が回答する
データの傾向
受療者数(推計患者数)は入院は減少,外来は横ばい.ただし65歳以上は増加傾向
受療率は入院外来ともに低下傾向(受療率:推計患者数(一日)を推計人口で割ったものを人口10万人あたりにしたもの(人口10万対))
65歳以上の受療率が低下しているのに受療者数(推計患者数)が増加しているのは,高齢者の方が増加しているから
平均在院日数は低下傾向・・・高齢者ほど在院日数は長くなる傾向

病院で作成する統計指標

平均在院患者数
24時現在の在院患者数を累積したものをその期間の日数で除する
24時現在の在院患者数はレセプトの入院診療日数とは異なる.
ホテル宿泊時の日数の数え方でいうと2泊3日の泊が在院患者数 日が入院診療日数
平均外来患者数
外来患者延べ数をその間の診療日数で除する
外来入院比
高度な医療を提供する医療機関では1.5以下になるように
一日あたりの外来患者数と入院患者数の比
・外来患者数は初診再診など区別せずに
・外来患者数は診療録ベースでカウント(複数診療科受診)
平均在院患者数
在院患者延べ日数を患者数で除する.
1)(退院患者数ベース)診療科別で求める場合や国際比較に用いられる
退院患者延べ日数/退院患者数
2)(在院患者数ベース)厚労省の病院報告の数式
在院患者延べ数/(新入院患者数と退院患者数の平均)
平均病床利用率
在院患者延べ数/病床延べ数
病床は対外的には許可病床,実質は稼働病床数で
病床稼働率とは異なる(分子が在院患者数+当日退院患者数)
<参考>
病床稼働率(奈良県総合リハビリテーションセンター)
http://www.nara-pho.jp/reha/about/clinical_indicator_7.html
病床回転率
病床回転率=365/平均在院日数(うるう年の時,分子は366で)
・病床利用率が高くても,長期入院患者が多ければ病床回転率は低くなる
・平均在院日数に反比例する
年間退院患者数を病床数で除して求める場合もある(こっちの方が趣旨を理解しやすいかも)
死亡率
死亡患者数を退院患者総数で除したもの
粗死亡率はそのまま計算
精死亡率は入院後48時間未満の死亡数を除いて計算・・・入院以前の状況に関連するとして
新生児死亡率
新生児死亡数を出生数で除する
注)死産児,院外出生の新生児死亡は除く
術後死亡率
術後死亡率=術後死亡数/手術患者数
術後いつまでの期間の死亡数とするのか明確に
<参考>
医師も誕生日は気もそぞろ? 手術後死亡率、1.3ポイント増―慶大など(時事ドットコムニュース)
https://www.jiji.com/jc/article?k=2020121200366&g=soc
剖検率
医学教育・研究を示す評価指標
患者家族の満足度や新態度を示す指標
剖検率=剖検数/死亡患者数
紹介率
紹介・・・他の医療機関での診療が必要になり診療情報提供書をもって受診(例:診療所→病院)
逆紹介・・・紹介とは逆の流れ(例:病院→診療所)
文書により紹介された患者延べ数/初診患者延べ数
救急・小児医療に配慮して計算している(紹介状持参していないケース多)
悪性腫瘍5年生存率
10年を求めるケースもある.
診断日と診断後5年間生存しているかのデータより算出
生存確認・・・予後調査
予後調査では悪性腫瘍による死亡か否か完全な把握が難しい
経営管理指標
別の章にあるとのこと.ここでは割愛

研究手法と倫理

コホート研究と症例対象研究

どちらも観察する研究.事象の発生や観察は時間の流れに逆らえない
近年はデータが残っているケース(レセプトデータ等)があり,データの中で時間の流れを行き来できるのでこんがらないように
前向きコホート研究
対象に曝露している人々と非曝露群を設定、追跡してある状態にある(例えば病気に罹患している)のかないのか調査分析する研究
〇有害事象の発生率を求めることが出来る
〇曝露の有無などの情報の精度が高い
×希少疾患の調査には不向き
×莫大なコスト(追跡が大変)
症例対照研究
ある状態(例えば病気に罹患している)群と、罹患していない群を設定、時間を遡って調査していくスタイル
後ろ向きにしか行えない(前向きだと曝露→疾患の順がおかしくなる)
〇希少疾患の調査に向いている
〇コスト的な面で(前向き)コホート研究より有利
×有害事象の発生率を求めることが出来ない
×既にお亡くなりになった方を調査できない
×曝露の有無などの情報の精度が低い
後向きコホート研究
曝露に関するデータなど過去のデータを用いて行うコホート研究
〇コスト的な面で(前向き)コホート研究より有利
×(言及されていないけど)収集していないデータはなんともしがたい
この部分は,指標の話を含め1コマ(90分)~2コマ(180分)使っています
興味がありこみ入った話を知りたい方は以下
第8回 疫学研究(2)横断研究,コホート研究(関西福祉大学 疫学2021(教育学部保健教育学科))
https://medbb.net/education/kuswepi2021/#7
第9回 疫学研究(3)症例対照研究(関西福祉大学 疫学2021(教育学部保健教育学科))
https://medbb.net/education/kuswepi2021/#8

人を対象とする医学系研究に関する倫理指針

侵襲を伴わずに取得した試料,情報を用いた研究も対象
インフォームド・アセント・・・判断能力に応じた適切な説明により研究参加の決定に理解・賛意表すること(欧米では一般的に未成年)

目的及び基本方針

①社会的及び学術的意義を有する研究を実施すること。
②研究分野の特性に応じた科学的合理性を確保すること。
③研究により得られる利益及び研究対象者への負担その他の不利益を比較考量すること。
④独立した公正な立場にある倫理審査委員会の審査を受けること。
⑤研究対象者への事前の十分な説明を行うとともに、自由な意思に基づく同意を得ること。
⑥社会的に弱い立場にある者への特別な配慮をすること。
⑦研究に利用する個人情報等を適切に管理すること。
⑧研究の質及び透明性を確保すること。
(人を対象とする生命科学・医学系研究に関する倫理指針 令和3年3月23日 制定より引用)
参考
医学研究に関する指針一覧(厚生労働省)
https://www.mhlw.go.jp/stf/seisakunitsuite/bunya/hokabunya/kenkyujigyou/i-kenkyu/index.html#h2_free2