関西医科大学 情報処理技術2025
(看護学部看護学科)

講義後記はコチラをクリックしてください


2025年度開講にあたって
https://medbb.net/education/2025init/

課題提出
課題提出のフォームはコチラから

提出期限は授業日の翌日の午前9時59分59秒迄とする
メールアドレスは所属機関で付与されているものを記入のこと(課題の内容は当該メール宛にコピーが送信されます)
20250620追記 一日複数回授業を実施した場合は複数回を一つの課題として提出のこと
特に指示が無い場合の課題は
講義を振り返り①理解できた内容②理解できなかった内容③その他コメント とします

演習ファイルの保存
初回の授業で説明しますが,授業中に作成したファイルをKMULASの課題提出の機能で保存するようにして下さい
皆さんが演習で作成したファイルが無くならないことを目的としたものです
副次的な利用として,私の方で演習の状況の確認および復習動画での解説の際に取り上げさせていただくかもしれませんが,その点ご容赦ください

授業メニュー



第01回 PCの基本操作

第02回 代表値と散布度

第03回 度数

第04回 表の作成(1)

第05回 表の作成(2)

第06回 データの可視化(1)グラフ

第07回 データの可視化(2)様々な可視化

第08回 まとめ

第01回 PCの基本操作

PCの基本的な操作とアプリケーションソフトウェアと用いるファイル形式について演習する
教科書4-1(身近に広がるデータサイエンス),4-2(販売データ),7-3-1(オープンデータの活用方法)
MDASH_L
【1-2-1】調査データ、実験データ、人の行動ログデータ、機械の稼働ログデータなど
【1-4-3】非構造化データ処理:言語処理、画像/動画処理、音声/音楽処理など
【2-3-2】データの集計(和、平均)
【2-3-4】データ解析ツール(スプレッドシート)
【2-3-5】表形式のデータ(csv)
事前学修
MS-EXCELを起動し,数式は等号(=)で始まることを確認し,演算子+-*/^がどのような意味を持つのか調べよ

PCで出来ること

デジタル化されたデータを取り扱うことができる

デジタル化されたデータ

数値,文字(記号),音,絵,映像・・・・
画像の例
kmuipt2024-0103.png(301950 byte)
kgufd20170120-10.png(252875 byte)
情報通信技術の活用による効果的な学修環境の構築について より)
色深度(bpp)
1bit
2bit
3bit
私たちの物理空間が連続の世界(アナログ)に対してサイバー空間は不連続(離散)の世界(デジタル)である.
サイバー空間が物理空間の世界に近づく(追い越す)には不連続なものを細かくして大量に集めることで連続に近づく
上記は色の不連続なものを細かくした件

EXCELの利用

起動してみましょう.
kmuipt2024-0101.png(223463 byte)
kmuipt2024-0102.png(245774 byte)

キーワード

セル
セル番地
数式バーとセルの表示
計算式
関数
セルの参照(絶対,相対)
グラフの作成
保存は大切
保存形式はありのままなら,標準形式(xlsx),データだけならcsvが便利
注意点
デジタルの世界はアナログと違って自在に複写や移動が出来るので,表現する内容(素材)を最初に作ってそこからデザインを考える方が無難
全体の出来上がりイメージを持つのもいいが,変わるケースが多い
演習1-1
EXCELを起動し,二種類の図形を描きそれぞれに自分の好きな色(上位ふたつ)塗って下さい

オープンデータ

joho20170721-05.png(360104 byte)
オープンデータで読み解く地域包括ケア -不足の観点からみる医療2.21- より)
近年は国や地方自治体から様々なデータが提供されている
厚生労働統計一覧(厚生労働省)
https://www.mhlw.go.jp/toukei/itiran/index.html

内部で取り扱うデータ

業務で発生するデータなどは,プライバシーに関する情報も含まれたりするので内部で利用するケースが多い
ログ等大量に発生するものもある.
joho20140730-31.png(262460 byte)
本物のウェブアクセスログを使用した、機械学習による異常検知(全データ/ソースコード公開)(WAF「Scutum」)
https://www.scutum.jp/information/waf_tech_blog/2021/01/waf-blog-077.html

「統計」は集団のデータを取りまとめることで個々の状態ではなく集団の状態を可視化したり,推測したりする
あるモノやコトからデータとなり情報そして知識の流れ.データや情報や知識をまとめて「情報」ということもある
nmuhlthstat1_2024-0101.png(303517 byte)
joho20140730-32.png(402275 byte)
「保健医療分野の情報化」これまでからこれからへ より)

CSV形式

ohsustat2020-0108.png(321674 byte)
演習1-1
示すファイルを用いてアプリケーションや文字コードによってデータがどのように表示されるか確認せよ
xlsx形式(Excel標準)のファイル

csv形式(文字コードはwindows標準のShift-JIS形式)

csv形式(文字コードは世界中で使われるUTF-8形式)

kmuipt2024-0104.png(285052 byte)
kmuipt2024-0105.png(269287 byte)
kmuipt2024-0106.png(272090 byte)
kmuipt2024-0107.png(295939 byte)

<参考>UTF-8:Tech Basics/Keyword(@IT ITmedia Inc.)
https://atmarkit.itmedia.co.jp/ait/articles/1603/28/news035.html

非構造化データ

構造化データ・・・表形式のようにデータが定義されていて処理しやすいもの(例 住所録)
氏名 住所 電話番号
〇〇一郎 大阪府 06-XXXX-XXXX
山田△〇 奈良県 0742-XXXX-XXXX
ルールがわかりやすく示されているので,見る方も理解できる

非構造化データ・・構造化データと違いデータが定義されていないもの(例 文章)

構造化されていない例

〇〇一郎さん知ってますよ,大阪府にお住まいで,連絡は06-XXXX-XXXXに電話したら取れると思います.
山田さんですか,ちょっと待ってくださいよ.奈良県に引っ越されたんですよね.連絡先は0742-XXXX-XXXXです
演習1-2
上記の文章(非構造化データ)よりエクセル上に住所録(構造化データ)を作成せよ
<参考>
統計表における機械判読可能なデータの表記方法の統一ルールの策定(総務省)
https://www.soumu.go.jp/menu_news/s-news/01toukatsu01_02000186.html

第02回 代表値と散布度

スプレッドシートソフト(MS-EXCEL)を用いて代表値,散布度を算出し特性を理解する
教科書7章-1,8章-1,-2,-3
MDASH_L
【2-1-2】データの分布(ヒストグラム)と代表値(平均値、中央値、最頻値)
【2-1-4】データのばらつき(分散、標準偏差、偏差値)
【2-3-4】データ解析ツール(スプレッドシート、BIツール)
事前学修
以下の関数についてどのような意味を持つのか調べよaverage,median,mode,max,min,percentile.inc,var.p,stdev.p

データ形式(Excel)

kmuipt2024-0201.png(303065 byte)
演習2-1
kmuipt2024-0202.png(258948 byte)

演算と関数

四則演算 +-×÷ → + - * /

セルの参照

極力手打ちでデータを入力しないように.(人は間違える)
エクセルに,どのセルの値なのか場所を教えてあげる
演習2-2
kmuipt2024-0203.png(337203 byte)

【代表値】平均

average(その集団でとりまとめたデータを数値一つで表す。excelはaverage関数で算術平均を出すが、代表値の代表ということだからと解釈しています)

算術平均

mean
excel関数【average】 1/n・Σxi
パレートの法則(80-20の法則)
代表値なのに実在しない場合がある → 集団の指標(重心)であって、事象を代表する値そのものを示しているとは限らない
演習2-3
演習2-2の結果より合計金額と平均金額を算出する
よく使う計算は関数が用意されている場合が多い.
合計はsum関数 平均はaverage関数
kmuipt2024-0204.png(333973 byte)

演習2-4
以下のデータより合計と算術平均を求めよ
kmuipt2024-0301sjis.csv
なお合計は【sum】関数,算術平均は【average】関数を用いること
それぞれA事業所の算出に用いた数式をそのままB事業所,C事業所の欄にコピーして計算の事

幾何平均(相乗平均)

全て掛け合わせて累乗根をとる
例えば1と2と4の平均
算術平均 (1+2+4)/3=2.3333
幾何平均  √(1×2×4)=2
演習2-5
2,4,8,16,32 の算術平均と幾何平均を求めよ

加重平均

重みづけ平均
例えば ミニテストと期末試験の平均をとる → そのままの平均で良いの?
ミニテスト30%期末試験70%
それぞれ40点,70点の場合
40×0.3+70×0.7=12+49=61
演習2-6
以下の成績より理科と数学について2倍の重みづけをして平均を求めよ
またそれぞれの順位を【RANK.EQ】関数を使って求めよ
ID 国語 英語 数学 社会 理科
1 57 96 55 65 56
2 99 99 83 98 85
3 50 73 95 91 95
4 96 75 89 57 80
5 84 96 84 58 67
6 93 82 57 83 99
7 88 99 55 52 87
8 79 52 99 65 59

【代表値】中央値

median(別名第2四分位数)
量的変量を順序尺度の性質で処理した代表値
順番に並べたとき真ん中の順位にきた個体の値
個体数が偶数の時は真ん中2つの数値の平均値

【代表値】最頻値

mode(流行,はやり)
違う意味で数の理論(多数決)の世界
量的変量を名義尺度の性質で処理した代表値
名義尺度でわかることは一緒か違うか
階級毎に度数をカウント
一番多いところの階級値
一位が同点の時は併記
演習2-7
演習2-6のデータより科目別の平均値【AVERAGE】,中央値【MEDIAN】最頻値【MODE.SNGL】を求めよ

平均値と中央値の考え方の違い
nmuhimstat2021-11.png(10453 byte)
平均値(14.55)
nmuhlthstat202102-01.png(21147 byte)
こちらは分布なんて関係なく中央値(15) データの分布に依存する(パラメトリック)=平均値 と データの分布に依存しない(ノンパラメトリック)=中央値,最頻値の関係がわかるかなと思います
例えば5が0に変わってしまうと平均値は大きく変わりますが,中央値は変わりません
パラメトリック・・・数値に依存する(数値の分布によって値が影響を受ける)というとイメージしやすいのかな?

【散布度】範囲

ある値~ある値までの広さ

範囲

Range
R=最大値-最小値

特徴
 外れ値もひらう
 算出が用意

最大値と最小値がわかればその集団のバラツキがわかる
最大値maximum excel 【max】関数
最小値minimum excel 【min】関数

【散布度】四分位範囲

小さい順(昇順)に並べて集団を4分割
分割する所の値を小さい方から第1四分位数(Q1),第2四分位数(Q2)=中央値,第3四分位数(Q3) 四分位範囲IQR(interquartile range)=Q3-Q1
四分位数の話
四分位数は出し方が何種類かあります.近年は高校で教育されていますがその方法も従来のものと異なるので細かい話はやめておきます
【QUARTILE.INC】関数で第一四分位数(Q1),第三四分位数(Q3)求められます

【散布度】偏差

Deviation
ある基準とする値からのズレ
それぞれのズレの平均を求めたら良いのだろう・・・
nmubiostat2016-0302.png(3064 byte)

分散 標準偏差

variance
excel関数は【VAR】【STDEV.P】
偏差の平均
表の右に偏差を列を設けて計算します
偏差の平均を求めると・・・
偏差平方和の平均=分散
偏差の和が0になるので平方するとバラツキ状況が示せる
【VAR.P】だがいろいろ出てくる
標準偏差=分散の正の平方根
標準偏差が出せます. 関数を使うと一発で出せますのでご確認を
二種類の関数でも出してください【STDEV.P】

記述統計と推測統計(概要)

対象としている集団が全体の一部だった時,全体を推測しなければ全体の事は語れない
平均値は全体を推測する際にそのまま用いても良いのだが,標準偏差はそのようなわけにはいかないので関数も用意されている
(推測統計の話は関西医大では保健統計学での取り扱いで奈良医大も同様なのですが,どうしても今知りたい場合は,奈良医大の保健統計学Ⅰの当該箇所をご覧いただき必要に応じてご連絡ください)
第03回 推測統計(1)点推定(奈良県立医科大学 保健統計学I2025(医学部看護学科))
https://medbb.net/education/nmuhlthstat1_2025/#3

nmuhlthstat1_2023-0201.png(18729 byte)
演習2-8
演習2-6のデータより科目別の範囲,四分位範囲,標準偏差を求めよ

第03回 度数

スプレッドシートソフト(MS-EXCEL)を用いて度数を算出し特性を理解する
教科書7-1-1(質的データと量的データ) MDASH_L
【2-3-4】データ解析ツール(スプレッドシート、BIツール)
事前学修
以下の関数についてどのような意味を持つのか調べよcount,countif,countifs

度数は質的データでも量的データでも求めることができる
詳細は「情報活用論」で取り扱いました

質的変量の度数

エクセルにおけるセルの参照

セル参照は入力したセルをコピーした場合,コピー先のセルの位置に基づき参照する場所も変わると説明しておりました
便利なのですが,参照する場所を固定したい場合も勝手に移動するので,その場合は動かないように指示する必要が出てきます
先週までのものを「セルの相対参照」と言いますが,数式をコピーしてもセル番地が固定されたものを「セルの絶対参照」といいます
以下のブログ参照ください
セルの絶対参照,相対参照(エクセル)(Medbb's blog)
https://medbb.hatenablog.com/entry/2022/07/18/120000

単体で存在する場合

nmuhlthstat1_2024-0102.png(9516 byte)
上記のCSV形式ファイル(nmuhlthstat1_2024-0102.csv)
演習3-1
上記のデータより度数を求めよ

文章の場合

文章(非構造化データ)の場合は形態素に分解して出現頻度を測定することが出来る

関西医大系列病院の特徴を出現した名詞の度数から探る

附属施設・関連施設(関西医科大学)
https://www.kmu.ac.jp/facility/index.html
演習3-2
附属病院,総合医療センター,香里病院,くずは病院,天満橋総合クリニックの特徴を確認し端的に表してください
関西医科大学附属病院の特長
https://hp.kmu.ac.jp/about/know_list/
関西医科大学総合医療センターの特長
https://hp.kmu.ac.jp/takii/about/know_list/
関西医科大学香里病院の特長
https://hp.kmu.ac.jp/kori/about/know_list/
関西医科大学くずは病院の特長
https://hp.kmu.ac.jp/kuzuha/about/know_list/
関西医科大学天満橋総合クリニックの特長
https://hp.kmu.ac.jp/temmabashi/about/know_list/

演習3-3
附属病院(301),総合医療センター(302),香里病院(303),くずは病院(304),天満橋総合クリニック(305)の特長をそれぞれの説明文において頻度の高い語を抜き出し比較する
それぞれのテキストデータから形態素解析器を用いて語句を抽出し全体の度数とそれぞれの医療機関での語句の出現度数をそれぞれ求めよ その結果と演習3-2と比較すること
単語を抽出したものはコチラ
(ヒトコマ目)演習3-3の単語テーブル作成まで 二コマ目は集計するところから
Web茶まめ(形態素解析ツール) https://chamame.ninjal.ac.jp/

文書中の語の出現頻度を基にした分析例

指定教科書の分析

jhim39-05.png(306680 byte)
jhim39-06.png(326162 byte)
jhim39-08.png(335311 byte)

アンケート調査(自由記載の部分)の分析

kmuipt2025-0301.png(401812 byte)

第04回 表の作成(1)

スプレッドシートソフト(MS-EXCEL)を用いて表を作成し順位付けや並び替えについて演習する
教科書7-1-1(質的データと量的データ) MDASH_L
【2-3-3】データの並び替え、ランキング
【2-3-4】データ解析ツール(スプレッドシート、BIツール)
事前学修
以下の関数についてどのような意味を持つのか調べよrank.avg,rank.eq

質的データの度数分布表の作成

nmuhlthstat1_2024-0102.png(9516 byte)
上記のCSV形式ファイル(nmuhlthstat1_2024-0102.csv)
演習4-1
上記のデータより度数分布表を作成せよ(累積度数,累積相対度数も)
(名称) 度数 相対度数 累積度数 累積相対度数
 
 
 
1.00 ----- -----

量的変量の度数分布表
「A~B」は「A以上B未満」と読む格好がスタンダードと思っていますが,分野などによって違うようです
「A以上B以下」のようにどちらの階級にも属してしまう可能性のある設定はしないように.
階級 階級値 度数 相対度数 累積度数 累積相対度数
130~140 135
140~150 145
150~160 155
160~170 165
170~180 175
演習4-2
以下のデータの度数分布表を作成せよ
medbbstat2023-0101.png(5728 byte)
上記のCSV形式ファイル(medbbstat2023-0101.csv)
例題の出来上がりイメージ
kmuipt2024-0503.png(3957 byte)

後半組はここまで第4回終了次回はココから

演習4-3 例題4-2よりの度数分布表より求めた平均値と個票データから直接求めた平均値をもとめ,その違いを比較して差が生じる原因を考えよ

第05回 表の作成(2)

スプレッドシートソフト(MS-EXCEL)を用いて個票データより関数を用いた表作成について演習する
教科書7-1-1(質的データと量的データ)
MDASH_L
【2-3-4】データ解析ツール(スプレッドシート、BIツール)
事前学修
以下の関数についてどのような意味を持つのか調べよint,round,roundup,rounddown

病床機能報告制度のデータから関西医科大学の系列病院が地域(基礎自治体)の医療機関(病院)なかでどのような位置付けなのか分析を行う
用いるデータは病床機能報告制度の最新版のデータを用いる
病床機能報告(厚生労働省)
https://www.mhlw.go.jp/stf/seisakunitsuite/bunya/0000055891.html

演習5-1 令和5年度病床機能報告から枚方市内の病院の「オープンデータ医療機関コード」と「医療機関名」のテーブルを作成せよ(A列とB列)

演習5-2 以下のデータは令和5年度病床機能報告の施設票から枚方市内の病院のデータを抜粋したテーブルである 演習5-1のデータに結合させよ
kmuipt2025-0501.csv

演習5-3 以下のデータは令和5年度病床機能報告の病棟票から枚方市内の病院のデータを抜粋したテーブルである 演習5-2のデータに結合させよ
kmuipt2025-0502.csv

第06回 データの可視化(1)グラフ

スプレッドシートソフト(MS-EXCEL)を用いたグラフの作成について演習する
教科書7-1-1(質的データと量的データ) MDASH_L
【2-1-2】データの分布(ヒストグラム)と代表値(平均値、中央値、最頻値)
【2-2-1】データ表現(棒グラフ、折線グラフ、散布図、ヒートマップ、箱ひげ図)
【2-2-3】不適切なグラフ表現(チャートジャンク、不必要な視覚的要素)
【2-3-4】データ解析ツール(スプレッドシート、BIツール)
事前学修
ニュースや新聞等に掲載されている折れ線グラフ,棒グラフ,円グラフを確認し,それぞれの特徴について調べる

演習6-1 演習5-3のデータより以下のグラフのように指標を順に並べた棒グラフを3種類作成せよ
kmuipt2025-0501.png(176243 byte)

グラフ

それぞれの特徴やお作法を記しておきます.

お作法

項目が名義変数(尺度)の場合は度数の多い順に
ただしその他は,どれだけ度数が多くても一番最後
順序変数(尺度)他は度数に関係なく順序に従って記すこと

棒グラフ

度数分布表を図にすると,このグラフになる.
ヒストグラムの場合は,度数を棒の高さではなく面積で示していることに注意(前章該当箇所を確認の事)
項目は左(縦棒グラフ),もしくは上(横棒グラフ)から示す.
度数以外に割合で示す場合もある. 両側棒グラフは,2種類のデータを同時比較するときに有効

円グラフ

・個別の度数の全体に対する割合を円の角度で示したもの
・項目間の比較において特定の項目同士の比較には効果的だが,多項目の比較になるとわかりにくい
nmuhimstat2021-03.png(9590 byte)
nmuhimstat2021-04.png(15866 byte)
・度数の表現には適さない
円の角度と面積と
面積でも割合を示しているのでは?という疑問について
円の面積はπr^2で項目の割合を角度で示しているから,結果的に面積にも比例している
ただし,どのように認識しているかというと,パイの部分の面積を比較していないかと・・・という意味
角度で示しているが,意図せず面積比でも同様な結果となるけど,見る側はそのような見方をしていない・・・ということでどうでしょう

帯グラフ

棒グラフ(積み上げ)の高さを揃えて割合を比較
nmuhimstat2021-05.png(6471 byte)
円グラフと比べて項目が多くても把握しやすい
異なる集団との比較が出来る.特に端の項目

折れ線グラフ

変化の傾向をとらえるのに有効
平滑化
折れ線グラフで傾向を見るには傾向以外の要因を取り除かないとわかりにくい
以下は一日の歩数をグラフで示したもの(ダミーデータ) 7点平均をとることで,上昇している傾向が把握できる
nmuhimstat2021-06.png(17862 byte)
元データはコチラ(画像ですが)

レーダー図

複数の項目データを二次元にマッピングすることでパターンを作成し,類型化することが出来る
nmuhimstat2021-08.png(27839 byte)
診療情報管理学会の発表の際も以下のようなもの作成していました. 管理士取得されたら学会発表したくなると思うので喜んでサポートします.ご遠慮されずにご相談ください
jhim41-14.png(162309 byte)
検索エンジンのサジェスト機能を用いた病院情報探索行動の分析(第41回日本診療情報管理学会学術大会)より

散布図

二つのデータの関連性を示す. プロットする点の大きさをデータで示せば三つのデータの関連性を示せる(→バブルチャート)
(前章該当箇所を確認の事)

箱ひげ図

nmuhimstat2021-09.png(8898 byte)
箱ひげ図は四分位数(中央値)の世界(正確に言うとパーセンタイルかな)での表現を基本

三次元グラフ

二次元空間に三次元のものを書こうとすると歪んで当然
手書きでは困難だが,コンピュータ(excel)で簡単に作れるので目新しかったけど,学術的なものには使えないかな
nmuhimstat2021-10.png(16426 byte)
演習6-2 演習5-3のデータより図を作成する.それぞれの項目のスコアの高い順に配点し,そのスコアで以下のようなレーダー図を作成せよ
kmuipt2025-0502.png(176243 byte)

-->

第07回 データの可視化(2)様々な可視化

オンライン上のサービス等活用したデータの可視化について演習する
MDASH_L
【1-4-2】データ可視化:複合グラフ、2軸グラフ、多次元の可視化、関係性の可視化、地図上の可視化、挙動・軌跡の可視化、リアルタイム可視化など
【1-4-3】非構造化データ処理:言語処理、画像/動画処理、音声/音楽処理など
事前学修
地図アプリ,もしくは地図サイトを用いて大学と最寄り駅の距離を測る

第08回 まとめ

構造化データと非構造データの対比などについてこれまでの演習を振り返り理解する
MDASH_L
【1-4-3】非構造化データ処理:言語処理、画像/動画処理、音声/音楽処理など
【2-3-1】データの取得(機械判読可能なデータの作成・表記方法)
【2-3-4】データ解析ツール(スプレッドシート、BIツール)
事前学修
これまでの授業において質問する内容をリストアップする

課題提出