羽衣国際大学 栄養情報処理論2024
(食物栄養学科)
授業メニュー
第01回 情報学(1)情報の利活用
第02回 情報学(2)情報量
第03回 記述統計(1)尺度・度数分布
第04回 記述統計(2)代表値
第05回 記述統計(3)散布度
第06回 記述統計(4)回帰直線
第07回 データ分析(1)国民健康・栄養調査
第08回 データ分析(2)官能評価
第09回 データ分析(3)食事摂取基準
第10回 データ分析(4)費用効果,費用便益
第11回 データ分析(5)ハリスベネディクトの式
第12回 点推定
第13回 区間推定(1)標準誤差
第14回 区間推定(2)95%信頼区間
第15回 まとめ
第01回 情報学(1)情報の利活用
PCで出来ること
デジタル化されたデータを取り扱うことができるデジタル化されたデータ
数値,文字(記号),音,絵,映像・・・・画像の例
(情報通信技術の活用による効果的な学修環境の構築について より)
色深度(bpp)
1bit ■ ■ ■ ■ ■ ■ ■ ■
2bit ■ ■ ■ ■ ■ ■ ■ ■
3bit ■ ■ ■ ■ ■ ■ ■ ■
私たちの物理空間が連続の世界(アナログ)に対してサイバー空間は不連続(離散)の世界(デジタル)である.
サイバー空間が物理空間の世界に近づく(追い越す)には不連続なものを細かくして大量に集めることで連続に近づく
上記は色の不連続なものを細かくした件
演習1 インターネット上にある音や画像,映像のデジタルデータを確認せよ
オープンデータ
(オープンデータで読み解く地域包括ケア -不足の観点からみる医療2.21- より)
近年は国や地方自治体から様々なデータが提供されている
厚生労働統計一覧(厚生労働省)
https://www.mhlw.go.jp/toukei/itiran/index.html
内部で取り扱うデータ
業務で発生するデータなどは,プライバシーに関する情報も含まれたりするので内部で利用するケースが多いログ等大量に発生するものもある.
本物のウェブアクセスログを使用した、機械学習による異常検知(全データ/ソースコード公開)(WAF「Scutum」)
https://www.scutum.jp/information/waf_tech_blog/2021/01/waf-blog-077.html
「統計」は集団のデータを取りまとめることで個々の状態ではなく集団の状態を可視化したり,推測したりする
あるモノやコトからデータとなり情報そして知識の流れ.データや情報や知識をまとめて「情報」ということもある
(「保健医療分野の情報化」これまでからこれからへ より)
EXCELの利用
起動してみましょう.キーワード
セルセル番地
数式バーとセルの表示
計算式
関数
セルの参照(絶対,相対)
グラフの作成
保存は大切
保存形式はありのままなら,標準形式(xlsx),データだけならcsvが便利
注意点
デジタルの世界はアナログと違って自在に複写や移動が出来るので,表現する内容(素材)を最初に作ってそこからデザインを考える方が無難全体の出来上がりイメージを持つのもいいが,変わるケースが多い
CSV形式
演習2 示すファイルを用いてアプリケーションや文字コードによってデータがどのように表示されるか確認せよ
xlsx形式(Excel標準)のファイルcsv形式(文字コードはwindows標準のShift-JIS形式)
csv形式(文字コードは世界中で使われるUTF-8形式)
<参考>UTF-8:Tech Basics/Keyword(@IT ITmedia Inc.)
https://atmarkit.itmedia.co.jp/ait/articles/1603/28/news035.html
非構造化データ
構造化データ・・・表形式のようにデータが定義されていて処理しやすいもの(例 住所録)氏名 | 住所 | 電話番号 |
---|---|---|
〇〇一郎 | 大阪府 | 06-XXXX-XXXX |
山田△〇 | 奈良県 | 0742-XXXX-XXXX |
第02回 情報学(2)情報量
情報の量
bit:シャノンの情報理論AなのかAじゃないのか?明確に指定できる情報・・・1bit
事象の起こる確率によって決まる。確率の低い事象を確定する情報ほど大きくなる
I=-log2P 事象の起こる確率によって情報の量が決まる
それぞれの事象の起こる確率が等しいならば選択肢の数(T)に書き換えると I=log2T → 何が起こるのか想定しないと情報は取り扱えない・・・想定外の事象の情報量は計算できない(無限大)
デジタルの世界では1と0の情報の組み合わせであらゆるデータを取り扱っている
(但しデータの定義が必要)
情報量の定義
yes/Noを区別(選択肢2つから1に)させる情報・・・1bit選択肢4つから1にさせる情報・・・2bit
選択肢8つから1にさせる情報・・・3bit
選択肢は2のるい乗(べき乗)になる。
対数(log)・・・るい乗(べき乗)を求めることが出来る→選択肢から情報量を求められる
例題 東西南北の話
文字の情報量
英数字・・・7bit+カナ・・・8bit=(1byte)半角文字
漢字は倍の2byte(Shift-JIS)(全角文字)
情報量は文字数×1文字あたりの情報量
演習1 メモ帳を用いて半角文字で「1234567890」と入力しファイルを保存し情報量を確認せよ
保存の際の文字コードはUTF-8のままで行うこと演習2 メモ帳を用いて全角文字で「1234567890」と入力しファイルを保存し情報量から一文字当たりの情報量を求めよ
保存の際の文字コードはUTF-8のままで行うこと第2回ここまで(演習2でなぜでなかったのは次週)
演習3 メモ帳を用いて全角文字で「1234567890」と入力しファイルを保存し情報量を確認せよ
保存の際は文字コードを(ANSI)に変更してからおこなうこと(ANSI Shift-JISをベースとした文字コード)色の情報量
光の3原色・・RGBそれぞれ256階調とすると、一色8bit
3色で8×3で24bit
情報量はマス目(ピクセル)数×1マス(ピクセル)あたりの情報量
情報量が大きいほどより細かい事柄を表現できる
(情報通信技術の活用による効果的な学修環境の構築について より)
色深度(bpp)
1bit ■ ■ ■ ■ ■ ■ ■ ■
2bit ■ ■ ■ ■ ■ ■ ■ ■
3bit ■ ■ ■ ■ ■ ■ ■ ■
補助単位
補助単位はキリのいい数字・・・切りの良い数字とは?十進数の世界ち二進数の世界のキリのいい数字は異なる
十進数 10 二進数 1010
十進数 16 二進数 10000
K→M→G
十進数は1000
二進数は2^10=1024≒1000
キロ・・・kとK
演習4 ペイントを用いて絵を描き24bit_bmp形式で保存し,ファイルの情報量と上記の計算が同じであるか確認せよ
絵は複数作成して,絵の内容で変わるか検証してください<参考>BMPファイルフォーマットのファイル構成(カルチブログ)
https://www.culti.co.jp/2023/02/02/2%EF%BC%8Ebmp%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E3%83%95%E3%82%A9%E3%83%BC%E3%83%9E%E3%83%83%E3%83%88%E3%81%AE%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E6%A7%8B%E6%88%90/
演習5 演習4のファイルをjpeg形式で保存し,演習4のファイルの情報量どどの程度違うのか比率を求めよ
絵は複数作成して,絵の内容で変わるか検証してください第03回 記述統計(1)尺度・度数分布
データ
観測値や測定値のこと(数値)だけでなく性別など文字の場合もある.コンピュータ処理するとき,文字だと扱いにくい時があるのでその時は数字に置き換える(→コード変換)
例えば都道府県名であれば 北海道→01 青森県→02 奈良県→29
全国地方公共団体コードの上二桁=都道府県番号
<参考>全国地方公共団体コード(総務省) https://www.soumu.go.jp/denshijiti/code.html |
変量(データ)の分類
変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。それぞれを尺度と呼び、4つに分類するのが一般的である
1分類尺度(名義尺度)
2順序尺度
3間隔尺度
4比尺度(比例)(比率)
1,2を質的変量(定性的)
3,4を量的変量(定量的)
性質としては上位互換性があり
4>3>2>1
統計量
取りまとめたものを「量で」示したもの.質的変数であっても度数(個数,人数など数えるもの)については「量」として示すことが出来る度数
どのようなデータでも度数を示すことは可能度数分布表
この授業では量的変量の度数分布表を作成する場合 A~B は A以上B未満として取り扱うそれぞれのデータ(変量)の数(出現頻度)をまとめたもの
変量が名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数 ・・・出現頻度
相対度数・・・総出現頻度を1(100%)としたときのそのぞれの度数のしめる割合
累積度数・・・上位の変量の度数もあわせた度数
累積相対度数・・・累積度数の相対版
3回目ここまで 演習1コピー迄
(sum関数までで 絶対参照相対参照系で)
演習1 以下の店名別のみかんの売り上げデータより度数分布表を作成せよ
日付 | 店名 | 数量(箱) |
---|---|---|
9月1日 | 奈良本店 | 1400 |
9月1日 | 大和郡山店 | 700 |
9月1日 | 大和高田店 | 450 |
9月2日 | 奈良本店 | 1000 |
9月2日 | 大和郡山店 | 900 |
9月2日 | 大和高田店 | 1100 |
9月3日 | 奈良本店 | 1600 |
9月3日 | 大和郡山店 | 400 |
9月3日 | 大和高田店 | 850 |
店名 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|
1.00 | ||||
計 | 1.00 | ----- | ----- |
4回目ここまで セルの絶対参照 相対参照含め
演習2 以下のデータより優勝チームの監督名の度数分布表を作成せよ
kmuipt2024-0501sjis.csv
5回目ここまで チーム名でcountif
量的変数の度数分布表
量的変数の場合はその数値だけで度数を積み上げようにもなかなか上手くいかない場合がある.
血圧 163.5mmHg 164.2mmHg 162.5mmHg・・・どれも度数を積み上げられない → 区間を設定する
「A~B」は「A以上B未満」と読む格好と思っていたが,分野などによって違うようです 「A以上B以下」のようにどちらの階級にも属してしまう可能性のある設定はしないように. |
階級 | 階級値 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|---|
130~140 | 135 | ||||
140~150 | 145 | ||||
150~160 | 155 | ||||
160~170 | 165 | ||||
170~180 | 175 | ||||
計 | ----- | ----- |
演習3 以下のデータ(身長)をダウンロードし10cm階級別,5cm階級別の度数分布表を完成させよ
medbbstat2023-0101.csv第04回 記述統計(2)代表値
対象とする集団のデータから求めた集団を代表する値平均
算術平均
meanexcel関数【average】 1/n・Σxi
パレートの法則(80-20の法則)
代表値なのに実在しない場合がある → 集団の指標(重心)であって、事象を代表する値そのものを示しているとは限らない
演習1
以下のデータより合計と算術平均を求めよkmuipt2024-0301sjis.csv
なお合計は【sum】関数,算術平均は【average】関数を用いること
それぞれA事業所の算出に用いた数式をそのままB事業所,C事業所の欄にコピーして計算の事
6回目ここまで 量的 先のクラスは最低値で 後のクラスは階級値でcountifしました.
幾何平均(相乗平均)
全て掛け合わせて累乗根をとる例えば1と2と4の平均
算術平均 (1+2+4)/3=2.3333
幾何平均 3√(1×2×4)=2
加重平均
重みづけ平均例えば ミニテストと期末試験の平均をとる → そのままの平均で良いの?
ミニテスト30%期末試験70%
それぞれ40点,70点の場合
40×0.3+70×0.7=12+49=61
演習2
とある県の公立高校の入試における内申点は中学2年,3年の成績を対象に9教科5段階の評価を2年次は45点満点,3年時は90点満点で算出している内申点およびそれに基づく評点(内申点より求めた1科目あたりの評価)を求めよ
kmuipt2024-0302sjis.csv
<参考>
【奈良県】公立高校入試での内申点の計算の仕方(進研ゼミ中学講座 ベネッセ)
https://czemi.benesse.ne.jp/open/nyushi/exam/29/feature/1273791_5352.html
高校受験の内申点とは?評価方法と地域ごとの違い・計算方法まで解説(湘ゼミコラム 湘南ゼミナール)
https://www.shozemi.com/column/highexam/16299/
内申点の計算の仕方(小美野塾)
https://kominojuku.ti-da.net/e7184603.html
中央値
median(別名第2四分位数)量的変量を順序尺度の性質で処理した代表値
順番に並べたとき真ん中の順位にきた個体の値
個体数が偶数の時は真ん中2つの数値の平均値
最頻値
mode(流行,はやり)違う意味で数の理論(多数決)の世界
量的変量を名義尺度の性質で処理した代表値
名義尺度でわかることは一緒か違うか
階級毎に度数をカウント
一番多いところの階級値
一位が同点の時は併記