羽衣国際大学 栄養情報処理論2025
(食物栄養学科)

課題提出場所
コチラから指示したIDパスワードで提出場所に入って提出してください
「ファイルを選択」ボタンで作成したファイルを選び「アップロード」ボタンをクリックすればOKです

課題提出の場合のファイル名は「huisfnnip2025_授業回数_学籍番号_名前.xlsx」
例)「huisfnnip2025_01_1234567_〇△□×.pdf」
で提出してください

授業メニュー



第01回 情報処理基礎(1)デジタルデータの取り扱い

第02回 情報処理基礎(2)スプレッドシートソフトの取り扱い(1)代表値と散布度

第03回 情報処理基礎(3)スプレッドシートソフトの取り扱い(2)度数

第04回 情報処理基礎(4)スプレッドシートソフトの取り扱い(3)表の作成(1)

第05回 情報処理基礎(5)スプレッドシートソフトの取り扱い(4)表の作成(2)

第05回 情報処理基礎(6)スプレッドシートソフトの取り扱い(5)グラフ

第07回 データ分析(1)国民健康・栄養調査

第08回 データ分析(2)官能評価

第09回 データ分析(3)食事摂取基準

第10回 データ分析(4)費用効果,費用便益

第11回 データ分析(5)ハリスベネディクトの式

第12回 推測統計(1)点推定

第13回 推測統計(2)区間推定(1)標準誤差

第14回 推測統計(3)区間推定(2)95%信頼区間

第15回 まとめ

第01回 情報処理基礎(1)デジタルデータの取り扱い

PCで出来ること

デジタル化されたデータを取り扱うことができる

デジタル化されたデータ

数値,文字(記号),音,絵,映像・・・・
画像の例
kmuipt2024-0103.png(301950 byte)
kgufd20170120-10.png(252875 byte)
情報通信技術の活用による効果的な学修環境の構築について より)
色深度(bpp)
1bit
2bit
3bit
私たちの物理空間が連続の世界(アナログ)に対してサイバー空間は不連続(離散)の世界(デジタル)である.
サイバー空間が物理空間の世界に近づく(追い越す)には不連続なものを細かくして大量に集めることで連続に近づく
上記は色の不連続なものを細かくした件

情報量

bit:シャノンの情報理論
AなのかAじゃないのか?明確に指定できる情報・・・1bit
事象の起こる確率によって決まる。確率の低い事象を確定する情報ほど大きくなる
I=-logP 事象の起こる確率によって情報の量が決まる
それぞれの事象の起こる確率が等しいならば選択肢の数(T)に書き換えると I=logT → 何が起こるのか想定しないと情報は取り扱えない・・・想定外の事象の情報量は計算できない(無限大)

デジタルの世界では1と0の情報の組み合わせであらゆるデータを取り扱っている
(但しデータの定義が必要)

情報量の定義

yes/Noを区別(選択肢2つから1に)させる情報・・・1bit

選択肢4つから1にさせる情報・・・2bit
選択肢8つから1にさせる情報・・・3bit
選択肢は2のるい乗(べき乗)になる。

対数(log)・・・るい乗(べき乗)を求めることが出来る→選択肢から情報量を求められる

例題 東西南北の話

文字の情報量

英数字・・・7bit
+カナ・・・8bit=(1byte)半角文字

漢字は倍の2byte(Shift-JIS)(全角文字)

情報量は文字数×1文字あたりの情報量

EXCELの利用

起動してみましょう.
kmuipt2024-0101.png(223463 byte)
kmuipt2024-0102.png(245774 byte)

キーワード

セル
セル番地
数式バーとセルの表示
計算式
関数
セルの参照(絶対,相対)
グラフの作成
保存は大切
保存形式はありのままなら,標準形式(xlsx),データだけならcsvが便利
注意点
デジタルの世界はアナログと違って自在に複写や移動が出来るので,表現する内容(素材)を最初に作ってそこからデザインを考える方が無難
全体の出来上がりイメージを持つのもいいが,変わるケースが多い
演習1-1
EXCELを起動し,二種類の図形を描きそれぞれに自分の好きな色(上位ふたつ)塗って下さい

オープンデータ

joho20170721-05.png(360104 byte)
オープンデータで読み解く地域包括ケア -不足の観点からみる医療2.21- より)
近年は国や地方自治体から様々なデータが提供されている
厚生労働統計一覧(厚生労働省)
https://www.mhlw.go.jp/toukei/itiran/index.html

内部で取り扱うデータ

業務で発生するデータなどは,プライバシーに関する情報も含まれたりするので内部で利用するケースが多い
ログ等大量に発生するものもある.
joho20140730-31.png(262460 byte)
本物のウェブアクセスログを使用した、機械学習による異常検知(全データ/ソースコード公開)(WAF「Scutum」)
https://www.scutum.jp/information/waf_tech_blog/2021/01/waf-blog-077.html

「統計」は集団のデータを取りまとめることで個々の状態ではなく集団の状態を可視化したり,推測したりする
あるモノやコトからデータとなり情報そして知識の流れ.データや情報や知識をまとめて「情報」ということもある
nmuhlthstat1_2024-0101.png(303517 byte)
joho20140730-32.png(402275 byte)
「保健医療分野の情報化」これまでからこれからへ より)

CSV形式

ohsustat2020-0108.png(321674 byte)
演習1-2
示すファイルを用いてアプリケーションや文字コードによってデータがどのように表示されるか確認せよ
xlsx形式(Excel標準)のファイル

csv形式(文字コードはwindows標準のShift-JIS形式)

csv形式(文字コードは世界中で使われるUTF-8形式)

kmuipt2024-0104.png(285052 byte)
kmuipt2024-0105.png(269287 byte)
kmuipt2024-0106.png(272090 byte)
kmuipt2024-0107.png(295939 byte)

<参考>UTF-8:Tech Basics/Keyword(@IT ITmedia Inc.)
https://atmarkit.itmedia.co.jp/ait/articles/1603/28/news035.html

01回目ここまで


非構造化データ

構造化データ・・・表形式のようにデータが定義されていて処理しやすいもの(例 住所録)
氏名 住所 電話番号
〇〇一郎 大阪府 06-XXXX-XXXX
山田△〇 奈良県 0742-XXXX-XXXX
ルールがわかりやすく示されているので,見る方も理解できる

非構造化データ・・構造化データと違いデータが定義されていないもの(例 文章)

構造化されていない例

〇〇一郎さん知ってますよ,大阪府にお住まいで,連絡は06-XXXX-XXXXに電話したら取れると思います.
山田さんですか,ちょっと待ってくださいよ.奈良県に引っ越されたんですよね.連絡先は0742-XXXX-XXXXです
演習1-3
chatGPTが作成した以下の文章(非構造化データ)よりエクセルで表を作成せよ
プロンプト「都道府県別人口のトップテンについて人口は千人単位で表記した説明文を作ってください」

承知しました。人口を千人単位(例:14,002千人=14,002,000人)で表記した説明文を作成します。
---
2025年1月1日時点の推計人口によると、都道府県別人口のトップテンは以下の通りです。
第1位は東京都で14,002千人と全国最多を誇り、首都機能を背景に国内外から多くの人々が集まっています。第2位の神奈川県は9,203千人で、横浜市を中心とした首都圏の大都市圏を形成しています。第3位は大阪府で8,772千人、西日本最大の都市圏を有します。
第4位は愛知県で7,484千人、自動車産業を中心とする製造業の拠点です。第5位の埼玉県は7,374千人、第6位の千葉県は6,312千人で、いずれも東京都への通勤圏として人口が集中しています。
第7位は兵庫県で5,394千人、神戸を中心に都市機能が集まっています。第8位の福岡県は5,087千人で、九州の中枢都市として人口が増加傾向にあります。第9位は北海道で5,045千人、広大な面積を持つ一方で人口密度は低いのが特徴です。第10位の静岡県は3,576千人で、首都圏と中京圏の中間に位置する立地条件から一定の人口を保っています。
このように、人口上位の都道府県は首都圏・近畿圏・中京圏などの大都市圏に集中しており、日本の人口分布の偏りが鮮明に表れています。
---
演習1-4
演習1-3のchatGPTの記述で間違っているところを指摘せよ

<参考>
統計表における機械判読可能なデータの表記方法の統一ルールの策定(総務省)
https://www.soumu.go.jp/menu_news/s-news/01toukatsu01_02000186.html

02回目ここまで


第02回 情報処理基礎(2)スプレッドシートソフトの取り扱い(1)代表値と散布度

データ形式(Excel)

kmuipt2024-0201.png(303065 byte)
演習2-1
kmuipt2024-0202.png(258948 byte)

演算と関数

四則演算 +-×÷ → + - * /

セルの参照

極力手打ちでデータを入力しないように.(人は間違える)
エクセルに,どのセルの値なのか場所を教えてあげる
演習2-2
kmuipt2024-0203.png(337203 byte)

【代表値】平均

average(その集団でとりまとめたデータを数値一つで表す。excelはaverage関数で算術平均を出すが、代表値の代表ということだからと解釈しています)

算術平均

mean
excel関数【average】 1/n・Σxi
パレートの法則(80-20の法則)
代表値なのに実在しない場合がある → 集団の指標(重心)であって、事象を代表する値そのものを示しているとは限らない
演習2-3
演習2-2の結果より合計金額と平均金額を算出する
よく使う計算は関数が用意されている場合が多い.
合計はsum関数 平均はaverage関数
kmuipt2024-0204.png(333973 byte)

演習2-4
以下のデータより合計と算術平均を求めよ
kmuipt2024-0301sjis.csv
なお合計は【sum】関数,算術平均は【average】関数を用いること
それぞれA事業所の算出に用いた数式をそのままB事業所,C事業所の欄にコピーして計算の事

幾何平均(相乗平均)

全て掛け合わせて累乗根をとる
例えば1と2と4の平均
算術平均 (1+2+4)/3=2.3333
幾何平均  √(1×2×4)=2
演習2-5
2,4,8,16,32 の算術平均と幾何平均を求めよ

加重平均

重みづけ平均
例えば ミニテストと期末試験の平均をとる → そのままの平均で良いの?
ミニテスト30%期末試験70%
それぞれ40点,70点の場合
40×0.3+70×0.7=12+49=61
演習2-6
以下の成績より理科と数学について2倍の重みづけをして平均を求めよ
またそれぞれの順位を【RANK.EQ】関数を使って求めよ
ID 国語 英語 数学 社会 理科
1 57 96 55 65 56
2 99 99 83 98 85
3 50 73 95 91 95
4 96 75 89 57 80
5 84 96 84 58 67
6 93 82 57 83 99
7 88 99 55 52 87
8 79 52 99 65 59

03回目ここまで(10/3)

【代表値】中央値

median(別名第2四分位数)
量的変量を順序尺度の性質で処理した代表値
順番に並べたとき真ん中の順位にきた個体の値
個体数が偶数の時は真ん中2つの数値の平均値

【代表値】最頻値

mode(流行,はやり)
違う意味で数の理論(多数決)の世界
量的変量を名義尺度の性質で処理した代表値
名義尺度でわかることは一緒か違うか
階級毎に度数をカウント
一番多いところの階級値
一位が同点の時は併記
演習2-7
演習2-6のデータより科目別の平均値【AVERAGE】,中央値【MEDIAN】最頻値【MODE.SNGL】を求めよ

平均値と中央値の考え方の違い
nmuhimstat2021-11.png(10453 byte)
平均値(14.55)
nmuhlthstat202102-01.png(21147 byte)
こちらは分布なんて関係なく中央値(15) データの分布に依存する(パラメトリック)=平均値 と データの分布に依存しない(ノンパラメトリック)=中央値,最頻値の関係がわかるかなと思います
例えば5が0に変わってしまうと平均値は大きく変わりますが,中央値は変わりません
パラメトリック・・・数値に依存する(数値の分布によって値が影響を受ける)というとイメージしやすいのかな?

【散布度】範囲

ある値~ある値までの広さ

範囲

Range
R=最大値-最小値

特徴
 外れ値もひらう
 算出が用意

最大値と最小値がわかればその集団のバラツキがわかる
最大値maximum excel 【max】関数
最小値minimum excel 【min】関数

【散布度】四分位範囲

小さい順(昇順)に並べて集団を4分割
分割する所の値を小さい方から第1四分位数(Q1),第2四分位数(Q2)=中央値,第3四分位数(Q3) 四分位範囲IQR(interquartile range)=Q3-Q1
四分位数の話
四分位数は出し方が何種類かあります.近年は高校で教育されていますがその方法も従来のものと異なるので細かい話はやめておきます
【QUARTILE.INC】関数で第一四分位数(Q1),第三四分位数(Q3)求められます

【散布度】偏差

Deviation
ある基準とする値からのズレ
それぞれのズレの平均を求めたら良いのだろう・・・
nmubiostat2016-0302.png(3064 byte)

分散 標準偏差

variance
excel関数は【VAR】【STDEV.P】
偏差の平均
表の右に偏差を列を設けて計算します
偏差の平均を求めると・・・
偏差平方和の平均=分散
偏差の和が0になるので平方するとバラツキ状況が示せる
【VAR.P】だがいろいろ出てくる
標準偏差=分散の正の平方根
標準偏差が出せます. 関数を使うと一発で出せますのでご確認を
二種類の関数でも出してください【STDEV.P】

記述統計と推測統計(概要)

対象としている集団が全体の一部だった時,全体を推測しなければ全体の事は語れない
平均値は全体を推測する際にそのまま用いても良いのだが,標準偏差はそのようなわけにはいかないので関数も用意されている
(推測統計の話は関西医大では保健統計学での取り扱いで奈良医大も同様なのですが,どうしても今知りたい場合は,奈良医大の保健統計学Ⅰの当該箇所をご覧いただき必要に応じてご連絡ください)
第03回 推測統計(1)点推定(奈良県立医科大学 保健統計学I2025(医学部看護学科))
https://medbb.net/education/nmuhlthstat1_2025/#3

nmuhlthstat1_2023-0201.png(18729 byte)
演習2-8
演習2-6のデータより科目別の範囲,四分位範囲,標準偏差を求めよ

04回目ここまで(10/10)

第03回 情報処理基礎(3)スプレッドシートソフトの取り扱い(2)度数

度数は質的データでも量的データでも求めることができる
詳細は「情報活用論」で取り扱いました

質的変量の度数

エクセルにおけるセルの参照

セル参照は入力したセルをコピーした場合,コピー先のセルの位置に基づき参照する場所も変わると説明しておりました
便利なのですが,参照する場所を固定したい場合も勝手に移動するので,その場合は動かないように指示する必要が出てきます
先週までのものを「セルの相対参照」と言いますが,数式をコピーしてもセル番地が固定されたものを「セルの絶対参照」といいます
以下のブログ参照ください
セルの絶対参照,相対参照(エクセル)(Medbb's blog)
https://medbb.hatenablog.com/entry/2022/07/18/120000

単体で存在する場合

nmuhlthstat1_2024-0102.png(9516 byte)
上記のCSV形式ファイル(nmuhlthstat1_2024-0102.csv)
演習3-1
上記のデータより度数を求めよ

文章の場合

文章(非構造化データ)の場合は形態素に分解して出現頻度を測定することが出来る

羽衣国際大学の学科の特徴を出現した名詞の度数から探る

大学の人材養成に関する目的(羽衣国際大学)
https://www.hagoromo.ac.jp/guide/spirit02
演習3-2
各学科の人材養成に関する特徴を確認し端的に表してください
演習3-3
学科それぞれのテキストデータを抽出し形態素解析器を用いて語句を抽出し全体とそれぞれの学科における語句の出現度数をそれぞれ求めよ
その結果と演習3-2と比較すること
Web茶まめ(形態素解析ツール) https://chamame.ninjal.ac.jp/

文書中の語の出現頻度を基にした分析例

指定教科書の分析

jhim39-05.png(306680 byte)
jhim39-06.png(326162 byte)
jhim39-08.png(335311 byte)

アンケート調査(自由記載の部分)の分析

kmuipt2025-0301.png(401812 byte)