羽衣国際大学 栄養情報処理論2024
(食物栄養学科)

授業メニュー



第01回 情報学(1)情報の利活用

第02回 情報学(2)情報量

第03回 記述統計(1)尺度・度数分布

第04回 記述統計(2)代表値

第05回 記述統計(3)散布度

第06回 記述統計(4)回帰直線

第07回 データ分析(1)国民健康・栄養調査

第08回 データ分析(2)官能評価

第09回 データ分析(3)食事摂取基準

第10回 データ分析(4)費用効果,費用便益

第11回 データ分析(5)ハリスベネディクトの式

第12回 点推定

第13回 区間推定(1)標準誤差

第14回 区間推定(2)95%信頼区間

第15回 まとめ

第01回 情報学(1)情報の利活用

PCで出来ること

デジタル化されたデータを取り扱うことができる

デジタル化されたデータ

数値,文字(記号),音,絵,映像・・・・
画像の例
kmuipt2024-0103.png(301950 byte)
kgufd20170120-10.png(252875 byte)
情報通信技術の活用による効果的な学修環境の構築について より)
色深度(bpp)
1bit
2bit
3bit
私たちの物理空間が連続の世界(アナログ)に対してサイバー空間は不連続(離散)の世界(デジタル)である.
サイバー空間が物理空間の世界に近づく(追い越す)には不連続なものを細かくして大量に集めることで連続に近づく
上記は色の不連続なものを細かくした件
演習1 インターネット上にある音や画像,映像のデジタルデータを確認せよ

オープンデータ

joho20170721-05.png(360104 byte)
オープンデータで読み解く地域包括ケア -不足の観点からみる医療2.21- より)
近年は国や地方自治体から様々なデータが提供されている
厚生労働統計一覧(厚生労働省)
https://www.mhlw.go.jp/toukei/itiran/index.html

内部で取り扱うデータ

業務で発生するデータなどは,プライバシーに関する情報も含まれたりするので内部で利用するケースが多い
ログ等大量に発生するものもある.
joho20140730-31.png(262460 byte)
本物のウェブアクセスログを使用した、機械学習による異常検知(全データ/ソースコード公開)(WAF「Scutum」)
https://www.scutum.jp/information/waf_tech_blog/2021/01/waf-blog-077.html

「統計」は集団のデータを取りまとめることで個々の状態ではなく集団の状態を可視化したり,推測したりする
あるモノやコトからデータとなり情報そして知識の流れ.データや情報や知識をまとめて「情報」ということもある
nmuhlthstat1_2024-0101.png(303517 byte)
joho20140730-32.png(402275 byte)
「保健医療分野の情報化」これまでからこれからへ より)

EXCELの利用

起動してみましょう.
kmuipt2024-0101.png(223463 byte)
kmuipt2024-0102.png(245774 byte)

キーワード

セル
セル番地
数式バーとセルの表示
計算式
関数
セルの参照(絶対,相対)
グラフの作成
保存は大切
保存形式はありのままなら,標準形式(xlsx),データだけならcsvが便利
注意点
デジタルの世界はアナログと違って自在に複写や移動が出来るので,表現する内容(素材)を最初に作ってそこからデザインを考える方が無難
全体の出来上がりイメージを持つのもいいが,変わるケースが多い

CSV形式

ohsustat2020-0108.png(321674 byte)
演習2 示すファイルを用いてアプリケーションや文字コードによってデータがどのように表示されるか確認せよ
xlsx形式(Excel標準)のファイル

csv形式(文字コードはwindows標準のShift-JIS形式)

csv形式(文字コードは世界中で使われるUTF-8形式)

kmuipt2024-0104.png(285052 byte)
kmuipt2024-0105.png(269287 byte)
kmuipt2024-0106.png(272090 byte)
kmuipt2024-0107.png(295939 byte)
<参考>UTF-8:Tech Basics/Keyword(@IT ITmedia Inc.)
https://atmarkit.itmedia.co.jp/ait/articles/1603/28/news035.html

非構造化データ

構造化データ・・・表形式のようにデータが定義されていて処理しやすいもの(例 住所録)
氏名 住所 電話番号
〇〇一郎 大阪府 06-XXXX-XXXX
山田△〇 奈良県 0742-XXXX-XXXX
ルールがわかりやすく示されているので,見る方も理解できる

第02回 情報学(2)情報量

情報の量

bit:シャノンの情報理論
AなのかAじゃないのか?明確に指定できる情報・・・1bit
事象の起こる確率によって決まる。確率の低い事象を確定する情報ほど大きくなる
I=-logP 事象の起こる確率によって情報の量が決まる
それぞれの事象の起こる確率が等しいならば選択肢の数(T)に書き換えると I=logT → 何が起こるのか想定しないと情報は取り扱えない・・・想定外の事象の情報量は計算できない(無限大)

デジタルの世界では1と0の情報の組み合わせであらゆるデータを取り扱っている
(但しデータの定義が必要)

情報量の定義

yes/Noを区別(選択肢2つから1に)させる情報・・・1bit

選択肢4つから1にさせる情報・・・2bit
選択肢8つから1にさせる情報・・・3bit
選択肢は2のるい乗(べき乗)になる。

対数(log)・・・るい乗(べき乗)を求めることが出来る→選択肢から情報量を求められる

例題 東西南北の話

文字の情報量

英数字・・・7bit
+カナ・・・8bit=(1byte)半角文字

漢字は倍の2byte(Shift-JIS)(全角文字)

情報量は文字数×1文字あたりの情報量

演習1 メモ帳を用いて半角文字で「1234567890」と入力しファイルを保存し情報量を確認せよ
保存の際の文字コードはUTF-8のままで行うこと

演習2 メモ帳を用いて全角文字で「1234567890」と入力しファイルを保存し情報量から一文字当たりの情報量を求めよ
保存の際の文字コードはUTF-8のままで行うこと

第2回ここまで(演習2でなぜでなかったのは次週)
演習3 メモ帳を用いて全角文字で「1234567890」と入力しファイルを保存し情報量を確認せよ
保存の際は文字コードを(ANSI)に変更してからおこなうこと(ANSI Shift-JISをベースとした文字コード)

色の情報量

光の3原色・・RGB
それぞれ256階調とすると、一色8bit
3色で8×3で24bit

情報量はマス目(ピクセル)数×1マス(ピクセル)あたりの情報量

nmumedinfo2020-0212.png(347362 byte)
情報量が大きいほどより細かい事柄を表現できる
kgufd20170120-10.png(252875 byte)
情報通信技術の活用による効果的な学修環境の構築について より)
色深度(bpp)
1bit
2bit
3bit

補助単位

補助単位はキリのいい数字・・・切りの良い数字とは?
十進数の世界ち二進数の世界のキリのいい数字は異なる
十進数 10 二進数 1010
十進数 16 二進数 10000

K→M→G
十進数は1000
二進数は2^10=1024≒1000
キロ・・・kとK
nmumedinfo2020-0216.png(371330 byte)

演習4 ペイントを用いて絵を描き24bit_bmp形式で保存し,ファイルの情報量と上記の計算が同じであるか確認せよ
絵は複数作成して,絵の内容で変わるか検証してください
<参考>BMPファイルフォーマットのファイル構成(カルチブログ)
https://www.culti.co.jp/2023/02/02/2%EF%BC%8Ebmp%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E3%83%95%E3%82%A9%E3%83%BC%E3%83%9E%E3%83%83%E3%83%88%E3%81%AE%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E6%A7%8B%E6%88%90/
演習5 演習4のファイルをjpeg形式で保存し,演習4のファイルの情報量どどの程度違うのか比率を求めよ
絵は複数作成して,絵の内容で変わるか検証してください

第03回 記述統計(1)尺度・度数分布

データ
観測値や測定値のこと(数値)だけでなく性別など文字の場合もある.
コンピュータ処理するとき,文字だと扱いにくい時があるのでその時は数字に置き換える(→コード変換)
例えば都道府県名であれば 北海道→01 青森県→02 奈良県→29
全国地方公共団体コードの上二桁=都道府県番号
<参考>全国地方公共団体コード(総務省)
https://www.soumu.go.jp/denshijiti/code.html
都道府県番号の順序を用いて説明する事柄は存在しない.一方,文字で順列の存在するもの(松 竹 梅)はその法則にしたがった番号を振ることがあるので注意

変量(データ)の分類

変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。
それぞれを尺度と呼び、4つに分類するのが一般的である
1分類尺度(名義尺度)
2順序尺度
3間隔尺度
4比尺度(比例)(比率)

1,2を質的変量(定性的)
3,4を量的変量(定量的)
性質としては上位互換性があり
4>3>2>1
nmuhlthstat1_2024-0103.png(363067 byte)

統計量

取りまとめたものを「量で」示したもの.質的変数であっても度数(個数,人数など数えるもの)については「量」として示すことが出来る

度数

どのようなデータでも度数を示すことは可能
度数分布表
この授業では量的変量の度数分布表を作成する場合 A~B は A以上B未満として取り扱う
  それぞれのデータ(変量)の数(出現頻度)をまとめたもの
変量が名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数  ・・・出現頻度
相対度数・・・総出現頻度を1(100%)としたときのそのぞれの度数のしめる割合
累積度数・・・上位の変量の度数もあわせた度数
累積相対度数・・・累積度数の相対版

3回目ここまで 演習1コピー迄

(sum関数までで 絶対参照相対参照系で)
演習1 以下の店名別のみかんの売り上げデータより度数分布表を作成せよ
日付 店名 数量(箱)
9月1日 奈良本店 1400
9月1日 大和郡山店 700
9月1日 大和高田店 450
9月2日 奈良本店 1000
9月2日 大和郡山店 900
9月2日 大和高田店 1100
9月3日 奈良本店 1600
9月3日 大和郡山店 400
9月3日 大和高田店 850

店名 度数 相対度数 累積度数 累積相対度数
 
 
  1.00
1.00 ----- -----

4回目ここまで セルの絶対参照 相対参照含め

演習2 以下のデータより優勝チームの監督名の度数分布表を作成せよ
kmuipt2024-0501sjis.csv
5回目ここまで チーム名でcountif
量的変数の度数分布表
量的変数の場合はその数値だけで度数を積み上げようにもなかなか上手くいかない場合がある.
血圧 163.5mmHg 164.2mmHg 162.5mmHg・・・どれも度数を積み上げられない → 区間を設定する
「A~B」は「A以上B未満」と読む格好と思っていたが,分野などによって違うようです
「A以上B以下」のようにどちらの階級にも属してしまう可能性のある設定はしないように.
階級 階級値 度数 相対度数 累積度数 累積相対度数
130~140 135
140~150 145
150~160 155
160~170 165
170~180 175
----- -----
演習3 以下のデータ(身長)をダウンロードし10歳階級別,5歳階級別の度数分布表を完成させよ
medbbstat2023-0101.csv

第04回 記述統計(2)代表値

対象とする集団のデータから求めた集団を代表する値

平均

算術平均

mean
excel関数【average】 1/n・Σxi
パレートの法則(80-20の法則)
代表値なのに実在しない場合がある → 集団の指標(重心)であって、事象を代表する値そのものを示しているとは限らない
演習1
以下のデータより合計と算術平均を求めよ
kmuipt2024-0301sjis.csv
なお合計は【sum】関数,算術平均は【average】関数を用いること
それぞれA事業所の算出に用いた数式をそのままB事業所,C事業所の欄にコピーして計算の事

幾何平均(相乗平均)

全て掛け合わせて累乗根をとる
例えば1と2と4の平均
算術平均 (1+2+4)/3=2.3333
幾何平均  √(1×2×4)=2

加重平均

重みづけ平均
例えば ミニテストと期末試験の平均をとる → そのままの平均で良いの?
ミニテスト30%期末試験70%
それぞれ40点,70点の場合
40×0.3+70×0.7=12+49=61
演習2
とある県の公立高校の入試における内申点は中学2年,3年の成績を対象に9教科5段階の評価を2年次は45点満点,3年時は90点満点で算出している
内申点およびそれに基づく評点(内申点より求めた1科目あたりの評価)を求めよ
kmuipt2024-0302sjis.csv
<参考> 【奈良県】公立高校入試での内申点の計算の仕方(進研ゼミ中学講座 ベネッセ)
https://czemi.benesse.ne.jp/open/nyushi/exam/29/feature/1273791_5352.html
高校受験の内申点とは?評価方法と地域ごとの違い・計算方法まで解説(湘ゼミコラム 湘南ゼミナール)
https://www.shozemi.com/column/highexam/16299/
内申点の計算の仕方(小美野塾)
https://kominojuku.ti-da.net/e7184603.html

中央値

median(別名第2四分位数)
量的変量を順序尺度の性質で処理した代表値
順番に並べたとき真ん中の順位にきた個体の値
個体数が偶数の時は真ん中2つの数値の平均値

最頻値

mode(流行,はやり)
違う意味で数の理論(多数決)の世界
量的変量を名義尺度の性質で処理した代表値
名義尺度でわかることは一緒か違うか
階級毎に度数をカウント
一番多いところの階級値
一位が同点の時は併記
演習3
例題2のデータの評点の右側に中央値,最頻値の見出しをつけてそれぞれの値を【median】【mode】関数を用いて求めよ