羽衣国際大学　栄養情報処理論２０２４
（食物栄養学科）

授業メニュー

第01回　情報学（１）情報の利活用

第02回　情報学（２）情報量

第03回　記述統計（１）尺度・度数分布

第04回　記述統計（２）代表値

第05回　記述統計（３）散布度

 第06回　記述統計（４）回帰直線

第07回　データ分析（１）国民健康・栄養調査

第08回　データ分析（２）官能評価

第09回　データ分析（３）食事摂取基準

第10回　データ分析（４）費用効果，費用便益

第11回　データ分析（５）ハリスベネディクトの式

第12回　点推定

第13回　区間推定（１）標準誤差

第14回　区間推定（２）95%信頼区間

第15回　まとめ

第01回　情報学（１）情報の利活用

PCで出来ること

デジタル化されたデータを取り扱うことができる

デジタル化されたデータ

数値，文字（記号），音，絵，映像・・・・

画像の例

（情報通信技術の活用による効果的な学修環境の構築について　より）
色深度（bpp）
1bit ■ ■ ■ ■ ■ ■ ■ ■
2bit ■ ■ ■ ■ ■ ■ ■ ■
3bit ■ ■ ■ ■ ■ ■ ■ ■
私たちの物理空間が連続の世界（アナログ）に対してサイバー空間は不連続（離散）の世界（デジタル）である．
サイバー空間が物理空間の世界に近づく（追い越す）には不連続なものを細かくして大量に集めることで連続に近づく
上記は色の不連続なものを細かくした件

演習１　インターネット上にある音や画像，映像のデジタルデータを確認せよ

オープンデータ

（オープンデータで読み解く地域包括ケア－不足の観点からみる医療2.21－　より）
近年は国や地方自治体から様々なデータが提供されている

厚生労働統計一覧（厚生労働省）
https://www.mhlw.go.jp/toukei/itiran/index.html

内部で取り扱うデータ

業務で発生するデータなどは，プライバシーに関する情報も含まれたりするので内部で利用するケースが多い
ログ等大量に発生するものもある．
joho20140730-31.png(262460 byte)

本物のウェブアクセスログを使用した、機械学習による異常検知(全データ/ソースコード公開)(WAF「Scutum」)
https://www.scutum.jp/information/waf_tech_blog/2021/01/waf-blog-077.html

「統計」は集団のデータを取りまとめることで個々の状態ではなく集団の状態を可視化したり，推測したりする
あるモノやコトからデータとなり情報そして知識の流れ．データや情報や知識をまとめて「情報」ということもある
nmuhlthstat1_2024-0101.png(303517 byte)

（「保健医療分野の情報化」これまでからこれからへ　より）

EXCELの利用

起動してみましょう．
kmuipt2024-0101.png(223463 byte)

キーワード

セル
セル番地
数式バーとセルの表示
計算式
関数
セルの参照（絶対，相対）
グラフの作成
保存は大切
保存形式はありのままなら，標準形式(xlsx），データだけならcsvが便利

注意点

デジタルの世界はアナログと違って自在に複写や移動が出来るので，表現する内容（素材）を最初に作ってそこからデザインを考える方が無難
全体の出来上がりイメージを持つのもいいが，変わるケースが多い

CSV形式

演習２　示すファイルを用いてアプリケーションや文字コードによってデータがどのように表示されるか確認せよ

xlsx形式(Excel標準)のファイル

csv形式(文字コードはwindows標準のShift-JIS形式)

csv形式(文字コードは世界中で使われるUTF-8形式)

kmuipt2024-0104.png(285052 byte)

＜参考＞UTF-8：Tech Basics／Keyword（＠IT ITmedia Inc.）
https://atmarkit.itmedia.co.jp/ait/articles/1603/28/news035.html

非構造化データ

構造化データ・・・表形式のようにデータが定義されていて処理しやすいもの（例　住所録）

氏名	住所	電話番号
〇〇一郎	大阪府	06-XXXX－XXXX
山田△〇	奈良県	0742-XXXX-XXXX

ルールがわかりやすく示されているので，見る方も理解できる

第02回　情報学（２）情報量

情報の量

bit：シャノンの情報理論
AなのかAじゃないのか？明確に指定できる情報・・・1bit
事象の起こる確率によって決まる。確率の低い事象を確定する情報ほど大きくなる
Ｉ=-log_２Ｐ事象の起こる確率によって情報の量が決まる
それぞれの事象の起こる確率が等しいならば選択肢の数（Ｔ）に書き換えるとＩ=log_２Ｔ →　何が起こるのか想定しないと情報は取り扱えない・・・想定外の事象の情報量は計算できない（無限大）

デジタルの世界では１と０の情報の組み合わせであらゆるデータを取り扱っている
（但しデータの定義が必要）

情報量の定義

yes/Noを区別（選択肢２つから１に）させる情報・・・1bit

選択肢４つから１にさせる情報・・・2bit
選択肢８つから１にさせる情報・・・3bit
選択肢は２のるい乗（べき乗）になる。

対数（log）・・・るい乗（べき乗）を求めることが出来る→選択肢から情報量を求められる

例題　東西南北の話

文字の情報量

英数字・・・7bit
＋カナ・・・8bit=(1byte)半角文字

漢字は倍の2byte（Shift-JIS）（全角文字）

情報量は文字数×1文字あたりの情報量

演習１　メモ帳を用いて半角文字で「1234567890」と入力しファイルを保存し情報量を確認せよ

保存の際の文字コードはUTF-8のままで行うこと

演習２　メモ帳を用いて全角文字で「1234567890」と入力しファイルを保存し情報量から一文字当たりの情報量を求めよ

保存の際の文字コードはUTF-8のままで行うこと

第2回ここまで（演習２でなぜでなかったのは次週）

演習３　メモ帳を用いて全角文字で「1234567890」と入力しファイルを保存し情報量を確認せよ

保存の際は文字コードを（ANSI）に変更してからおこなうこと（ANSI　Shift-JISをベースとした文字コード）

色の情報量

光の3原色・・RGB
それぞれ２５６階調とすると、一色8bit
3色で8×3で24bit

情報量はマス目（ピクセル）数×1マス（ピクセル）あたりの情報量

nmumedinfo2020-0212.png(347362 byte)

情報量が大きいほどより細かい事柄を表現できる
kgufd20170120-10.png(252875 byte)

（情報通信技術の活用による効果的な学修環境の構築について　より）
色深度（bpp）
1bit ■ ■ ■ ■ ■ ■ ■ ■
2bit ■ ■ ■ ■ ■ ■ ■ ■
3bit ■ ■ ■ ■ ■ ■ ■ ■

補助単位

補助単位はキリのいい数字・・・切りの良い数字とは？
十進数の世界ち二進数の世界のキリのいい数字は異なる
十進数　10　二進数　1010
十進数　16　二進数　10000

K→M→G
十進数は1000
二進数は2^10=1024≒1000
キロ・・・kとK
nmumedinfo2020-0216.png(371330 byte)

演習４　ペイントを用いて絵を描き24bit_bmp形式で保存し，ファイルの情報量と上記の計算が同じであるか確認せよ

絵は複数作成して，絵の内容で変わるか検証してください

＜参考＞BMPファイルフォーマットのファイル構成（カルチブログ）
https://www.culti.co.jp/2023/02/02/2%EF%BC%8Ebmp%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E3%83%95%E3%82%A9%E3%83%BC%E3%83%9E%E3%83%83%E3%83%88%E3%81%AE%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E6%A7%8B%E6%88%90/

演習５　演習４のファイルをjpeg形式で保存し，演習4のファイルの情報量どどの程度違うのか比率を求めよ

絵は複数作成して，絵の内容で変わるか検証してください

第03回　記述統計（１）尺度・度数分布

データ

観測値や測定値のこと（数値）だけでなく性別など文字の場合もある．
コンピュータ処理するとき，文字だと扱いにくい時があるのでその時は数字に置き換える（→コード変換）
例えば都道府県名であれば　北海道→０１　青森県→０２　奈良県→２９
全国地方公共団体コードの上二桁＝都道府県番号

＜参考＞全国地方公共団体コード（総務省）
https://www.soumu.go.jp/denshijiti/code.html

都道府県番号の順序を用いて説明する事柄は存在しない．一方，文字で順列の存在するもの（松　竹　梅）はその法則にしたがった番号を振ることがあるので注意

変量(データ)の分類

変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。
それぞれを尺度と呼び、4つに分類するのが一般的である
１分類尺度（名義尺度）
２順序尺度
３間隔尺度
４比尺度（比例）（比率）

１，２を質的変量（定性的）
３，４を量的変量（定量的）
性質としては上位互換性があり
４＞３＞２＞１
nmuhlthstat1_2024-0103.png(363067 byte)

統計量

取りまとめたものを「量で」示したもの．質的変数であっても度数（個数，人数など数えるもの）については「量」として示すことが出来る

度数

どのようなデータでも度数を示すことは可能

度数分布表

この授業では量的変量の度数分布表を作成する場合　A～B　は　A以上B未満として取り扱う
　それぞれのデータ（変量）の数（出現頻度）をまとめたもの
変量が名義尺度の時は多い順（お作法として。但しその他を出すなら一番最後）
順序尺度以降であれば順（名義尺度でも比較のためにお作法を破ることはある）
度数　　・・・出現頻度
相対度数・・・総出現頻度を1（100%）としたときのそのぞれの度数のしめる割合
累積度数・・・上位の変量の度数もあわせた度数
累積相対度数・・・累積度数の相対版

3回目ここまで　演習１コピー迄

(sum関数までで　絶対参照相対参照系で）

演習１　以下の店名別のみかんの売り上げデータより度数分布表を作成せよ

日付	店名	数量（箱）
9月1日	奈良本店	１４００
9月1日	大和郡山店	７００
9月1日	大和高田店	４５０
9月2日	奈良本店	１０００
9月2日	大和郡山店	９００
9月2日	大和高田店	１１００
9月3日	奈良本店	１６００
9月3日	大和郡山店	４００
9月3日	大和高田店	８５０

店名	相対度数	累積度数	累積相対度数


			１．００
計	１．００	-----	-----

4回目ここまで　セルの絶対参照　相対参照含め

演習２以下のデータより優勝チームの監督名の度数分布表を作成せよ
kmuipt2024-0501sjis.csv

5回目ここまで　チーム名でcountif

量的変数の度数分布表

量的変数の場合はその数値だけで度数を積み上げようにもなかなか上手くいかない場合がある．
血圧　163.5mmHg　164.2mmHg　162.5mmHg・・・どれも度数を積み上げられない　→　区間を設定する

「A～B」は「A以上B未満」と読む格好と思っていたが，分野などによって違うようです
「A以上B以下」のようにどちらの階級にも属してしまう可能性のある設定はしないように．

階級	階級値	相対度数	累積度数
130～140	135
140～150	145
150～160	155
160～170	165
170～180	175
計		-----	-----

演習３　以下のデータ（身長）をダウンロードし１０cm階級別，5cm階級別の度数分布表を完成させよ

medbbstat2023-0101.csv

第04回　記述統計（２）代表値

対象とする集団のデータから求めた集団を代表する値

平均

算術平均

mean
excel関数【average】 1/n・Σx_i
パレートの法則（80-20の法則）
代表値なのに実在しない場合がある　→　集団の指標（重心）であって、事象を代表する値そのものを示しているとは限らない

演習１

以下のデータより合計と算術平均を求めよ
kmuipt2024-0301sjis.csv
なお合計は【sum】関数，算術平均は【average】関数を用いること
それぞれA事業所の算出に用いた数式をそのままB事業所，C事業所の欄にコピーして計算の事

6回目ここまで　量的　先のクラスは最低値で　後のクラスは階級値でcountifしました．

幾何平均（相乗平均）

全て掛け合わせて累乗根をとる
例えば１と２と４の平均
算術平均　（１＋２＋４）／３＝2.3333
幾何平均　　^３√（1×２×４）＝２

加重平均

重みづけ平均
例えば　ミニテストと期末試験の平均をとる　→　そのままの平均で良いの？
ミニテスト30%期末試験70%
それぞれ40点，70点の場合
40×0.3+70×0.7＝12+49=61

演習２

とある県の公立高校の入試における内申点は中学2年，3年の成績を対象に9教科5段階の評価を2年次は45点満点，3年時は90点満点で算出している
内申点およびそれに基づく評点（内申点より求めた1科目あたりの評価）を求めよ
kmuipt2024-0302sjis.csv

＜参考＞【奈良県】公立高校入試での内申点の計算の仕方（進研ゼミ中学講座ベネッセ）
https://czemi.benesse.ne.jp/open/nyushi/exam/29/feature/1273791_5352.html
高校受験の内申点とは？評価方法と地域ごとの違い・計算方法まで解説（湘ゼミコラム　湘南ゼミナール）
https://www.shozemi.com/column/highexam/16299/
内申点の計算の仕方（小美野塾）
https://kominojuku.ti-da.net/e7184603.html

20241115ここまで　（7回目）

中央値

median（別名第２四分位数）
量的変量を順序尺度の性質で処理した代表値
順番に並べたとき真ん中の順位にきた個体の値
個体数が偶数の時は真ん中2つの数値の平均値

最頻値

mode（流行，はやり）
違う意味で数の理論（多数決）の世界
量的変量を名義尺度の性質で処理した代表値
名義尺度でわかることは一緒か違うか
階級毎に度数をカウント
一番多いところの階級値
一位が同点の時は併記

演習３　例題２のデータの評点の右側に中央値，最頻値の見出しをつけてそれぞれの値を【median】【mode】関数を用いて求めよ

散布度

範囲

ある値～ある値までの広さ

範囲

Range
R=最大値－最小値

特徴
　外れ値もひらう
　算出が用意

最大値と最小値がわかればその集団のバラツキがわかる
最大値maximum excel 【max】関数
最小値minimum excel 【min】関数

例題４　例題２のデータの評点の右側に最小値，最大値，範囲の見出しをつけてそれぞれの値を求めよ

偏差

Deviation
ある基準とする値からのズレ
それぞれのズレの平均を求めたら良いのだろう・・・
nmubiostat2016-0302.png(3064 byte)

分散標準偏差

variance
excel関数は【VAR】【stdev】
演習１のデータ（A事業所）を使って説明します

偏差の平均

表の右に偏差を列を設けて計算します
偏差の平均を求めると・・・

偏差平方和の平均=分散

偏差の和が0になるので平方するとバラツキ状況が示せる
【VAR】だがいろいろ出てくる

標準偏差＝分散の正の平方根

標準偏差が出せます．関数を使うと一発で出せますのでご確認を
二種類の関数でも出してください【stdev.p】【stdev.s】

記述統計と推測統計

対象としている集団が全体の一部だった時，全体を推測しなければ全体の事は語れない
平均値は全体を推測する際にそのまま用いても良いのだが，標準偏差はそのようなわけにいかない nmuhlthstat1_2023-0201.png(18729 byte)

20241129ここまで　（8回目）

人口動態統計

目的

人口及び厚生労働行政施策の基礎資料を得ること
「戸籍法」及び「死産の届出に関する規程」に基づく
全数調査

＜参考＞人口動態調査（厚生労働省）
https://www.mhlw.go.jp/toukei/list/81-1.html

課題　全国の中で大阪府の年次別出生数は全体のどの程度の割合を占めているのか求めてグラフにせよ

課題　1970年に一番出生数の割合の大きい都道府県を探し出し，大阪府のグラフと同様なものを作成し比較し説明文を作れ

課題　1970年から2020年の出生数の比が一番大きい県をがし出し，大阪府のグラフと同様なものを作成し比較し説明文を作れ

20241206ここまで　（9回目）

国民生活基礎調査

目的

保健、医療、福祉、年金、所得等国民生活の基礎的事項を調査し、厚生労働行政の企画及び運営に資する
調査対象は全国から無作為に抽出→標本調査

＜参考＞国民生活基礎調査（厚生労働省）
https://www.mhlw.go.jp/toukei/list/20-21.html
2022年（令和4年）【健康票】第049表　世帯人員（20歳以上），飲酒の状況・性・年齢（５歳階級）別を用いて

課題　男性，女性別にどの年代が最も飲酒の習慣が高いのか調べよ

課題　飲酒の習慣と飲酒量にどのような関係があるかグラフで示せ

上記二つの課題について　平成25年当時のデータで同様な分析を行い比較せよ

20241213ここまで　（10回目）

第11回　データ分析（５）ハリスベネディクトの式

ここでは，Harris-BeneDictの式を基に基礎エネルギ基礎エネルギー消費量BEE (Basal Energy Expenditure）を求め全エネルギー消費量TEE（total energy expenditure）を求める．
どのようなものかは既に授業で習っておられますよね

用いるデータは以下
huisfnnip2024-1101.csv
＜参考＞
6-2：Harris-Benedictの式（ニュートリー株式会社）
https://www.nutri.co.jp/nutrition/keywords/ch6-2/keyword2/
なぜ、人工呼吸管理中に栄養管理を行うの？（看護クイズ　看護roo!）
https://www.kango-roo.com/learning/4557/
2019/08/30 のクイズ（看護クイズ　看護roo!）
https://www.kango-roo.com/kq/archive/878
栄養必要量の算出（NOO法人PDN）
https://peg.or.jp/care/nst/sanshutu.html

第12回　点推定

概要
その集団の状況を示すのではなく，その集団を含む集団全体を推定することについて

記号について

推定の話になると記号の取り扱いで混乱するのでここで整理しておきます．
分かりやすさを優先して整理したので，皆さんの使っている教科書などの表記は＜参考＞の論文を確認し読み替えください
μ・・・集団全体（母集団）の算術平均＝母平均
σ^2・・・集団全体（母集団）の分散＝母分散
σ・・・集団全体（母集団）の標準偏差＝母標準偏差

xbar・・・集団の一部（標本）の算術平均＝標本平均＝母平均の不偏推定量
s^2・・・集団の一部（標本）より求めた母集団の分散の推定量=不偏分散（母分散の不偏推定量）
s・・・集団の一部（標本）より求めた不偏分散よりもとめた標準偏差＝母標準偏差の推定量
medbbstat2023-0302.png(435647 byte)

参考

統計学テキストの「分散」の表記に関する調査（札幌学院大学総合研究所紀要　巻 1, p. 1-10, 発行日 2014-03-31）
https://sgul.repo.nii.ac.jp/records/1807

母集団と標本

母集団

対象としている集団の全体のこと
無限母集団と有限母集団がある

標本

対象としている集団の一部
偏ってしまうことに注意
例）森で取れた昆虫の標本を作成する際、どうしても森全体の昆虫の分布から偏ってしまう

取り扱う標本について

母集団は20000人の収縮期血圧データ（整数）
その集団の一部を抽出

母平均の推定

得られた標本より求めた平均をそのまま母集団の推定値とする

例題１２－１
以下の標本より平均値を求めよ

点推定

先程の例題で算出した値で母集団の特性値（母数）を推定すること
推定で求められるのは偏った推定にならないこと．
・標本が偏っていたら推定値は偏る
○標本が偏っていなくても計算方法によっては推定値が偏る

利点

計算が容易
平均値の場合，計算式が母集団全体の値を求める時と標本から推定する時と同じで良い

欠点

必ずしも推定値が実際と一致するわけではない・・・むしろ外れて当然
サンプルサイズ１０の時（母集団から２０００の標本が作成できる）のヒストグラム
medbbstat2022-0202.png(96791 byte)

ピッタシ一致するのはサンプルサイズ10の時で1.1%（98.9%はハズレ）

推定の精度を上げるためには

標本数を大きくすればよい・・・測定を繰り返して行いその平均をとると精度は上がる
サンプルサイズを１００にした時の（母集団から２００の標本が作成できる）のヒストグラム
medbbstat2023-0301.png(103401 byte)

精度は上がるものの，ピッタシ一致する確率も上がるとは限らない

母分散の推定

例題１２－２

以下の標本より標本の分散を求めよ
ocrotstat2023-0501.png(3372 byte)

点推定

先程の例題で算出した値では母集団の特性値（母数）の推定はできない
推定で求められるのは偏った推定にならないこと．
・標本が偏っていたら推定値は偏る
×標本が偏っていなくても計算方法によっては推定値が偏る
標本の平均を用いサンプルサイズ１０の時（母集団から２０００の標本が作成できる）のヒストグラム
medbbstat2022-0203.png(135831 byte)

低めの値が多くなる傾向で偏っている．
母集団の平均（本来知る由もない）を用いサンプルサイズ１０の時（母集団から２０００の標本が作成できる）のヒストグラム
medbbstat2022-0204.png(137439 byte)

偏った推定にならないものの，本来知る由もない母平均を使えるわけがない（そもそも母数知っているなら推定は不要でしょう）

不偏分散

標本の平均を用いて母分散の推定を行う．
母平均と標本平均は（ほぼ）異なるので，母平均と標本平均の差も考慮して分散を求めたもの
（無論母平均は分からないが母平均と標本平均の差を考慮している）
s^2=Σ(Xi-Xbar)^2／(n-1)
nで除するよりn-1で除したほうが，値が大きくなるのは当然なので，低めの値が出るのなら少し分母を小さくした方が大きくなるのは理解できるが（ケーキを3人で分けるのか4人で分けるのか）なぜ１引くだけ？？となると思います
medbbstat2022-0205.png(146106 byte)

参考

不偏分散は何故nではなく（n-1）で除するのか（生物統計学2018奈良医大）
https://medbb.net/education/nmubiostat2018/index.html#VAR

例題１２－３
以下の標本より母集団全体の分散および標準偏差を求めよ

区間推定

概要
点推定（算術平均）に散布度（標準誤差）を用いて区間推定を行うことについて

区間推定

点推定に幅をもたせたもの．
幅の定義は確率（どの程度あたるものか）
∴100%あたる推定に意味は無い→確実に当たる幅を設定したら達成できるので
一般的に95%の確率で当たる区間（95%の信頼区間）で幅を決めている

平均値の区間推定

母平均の点推定値を中心に散布度（標準偏差）をベースにして±の幅を持たせる．

問題点１

標準偏差をベースとは言うものの，サンプルサイズが大きくなると標本平均のバラツキは小さくなるという話があった・・・
標本平均のバラツキ具合はサンプルサイズが大きくなると小さくなるという話．
サンプルサイズ１０の時（母集団から２０００の標本が作成できる）の標本平均のヒストグラム
medbbstat2022-0202.png(96791 byte)

サンプルサイズ１００の時の（母集団から２００の標本が作成できる）の標本平均のヒストグラム
medbbstat2023-0301.png(103401 byte)

標準誤差

・標準偏差は標本の分布のバラツキ具合を示したもの
・標準誤差は母集団から抽出した標本の平均値のバラツキ具合
SE=σ／√n

例題１３－１

サンプルサイズ10の時の平均値（標本数2000）の不偏分散を求めたところ8.02でした．
それより求めた標準偏差（平均値の標準偏差なので標準誤差）は2.83になります
それをサンプルサイズを100とした時，平均値の標準偏差（＝標準誤差），はどの程度の値になるでしょうか？
（ちなみにサンプルサイズ100の時の平均値（標本数200）を実際に求めると，平均値の不偏分散は0.84，平均値の標準偏差（＝標準誤差）は0.92になりました）

問題点２

点推定±標準誤差で区間を定めると，区間を推定していることになるが100%の確率で当たらない　ということしかわからない．
何％の確率で当たるのだろう？

中心極限定理（再掲）

標本の大きさが十分であれば標本平均の分布は正規分布
　→実験の時に複数回測定してその平均をとりましょう・・・・測定の精度が上がると言われた記憶　→測定回数を増やせば増やすほど
　→正しく何回も測定されたのであれば偶然誤差の発生は正規分布に従う

誤差の話は二つの要因

正規分布

左右対称の釣鐘状分布
平均値に近いほど出現率が高く遠ざかるに従って低くなる（ことが多い）
今更ながらだが，標本平均のヒストグラムって正規分布の形ですよね

標準正規分布

平均値が０標準偏差＝１（分散も１）になるように値を変換したもの
偏差値は平均値を50、標準偏差＝１０になるように値を変換したもの

標準正規分布表

標準正規分布表のPDF版はコチラから

標準正規分布の世界は平均値が0標準偏差が1の世界→95%の確率で含まれる区間（信頼区間）は　0±(1×1.96)　になります．
分布表から調べなくても1.96は見つけることが出来ます　←　EXCEL[=NORM.S.INV(0.975)]
この関数は分布表と同じく上側の面積（=確率）を返してくれる変数ですので[=NORM.S.INV(1-0.025)]としたほうが解釈しやすいかなと思います．

例題１３－２

ある試験の受験者１００人から点を教えてもらったところ平均値（点推定）＝６５点　標準偏差（点推定）＝１８点であった．
受験全員（＝母集団）の平均値の区間推定を信頼区間95%で示せ

Medbb.net

羽衣国際大学 栄養情報処理論２０２４（食物栄養学科）

授業メニュー

第01回 情報学（１）情報の利活用

PCで出来ること

デジタル化されたデータ

画像の例

演習１ インターネット上にある音や画像，映像のデジタルデータを確認せよ

オープンデータ

厚生労働統計一覧（厚生労働省） https://www.mhlw.go.jp/toukei/itiran/index.html

内部で取り扱うデータ

本物のウェブアクセスログを使用した、機械学習による異常検知(全データ/ソースコード公開)(WAF「Scutum」) https://www.scutum.jp/information/waf_tech_blog/2021/01/waf-blog-077.html

EXCELの利用

キーワード

注意点

CSV形式

演習２ 示すファイルを用いてアプリケーションや文字コードによってデータがどのように表示されるか確認せよ

＜参考＞UTF-8：Tech Basics／Keyword（＠IT ITmedia Inc.） https://atmarkit.itmedia.co.jp/ait/articles/1603/28/news035.html

非構造化データ

第02回 情報学（２）情報量

情報の量

情報量の定義

例題 東西南北の話

文字の情報量

演習１ メモ帳を用いて半角文字で「1234567890」と入力しファイルを保存し情報量を確認せよ

演習２ メモ帳を用いて全角文字で「1234567890」と入力しファイルを保存し情報量から一文字当たりの情報量を求めよ

第2回ここまで（演習２でなぜでなかったのは次週）

演習３ メモ帳を用いて全角文字で「1234567890」と入力しファイルを保存し情報量を確認せよ