1. HOME
  2. ブログ
  3. 「データサイエンスの基礎」を学べる新刊ガイド

BLOG

ブログ

「データサイエンスの基礎」を学べる新刊ガイド

東京大学大学院 学際情報学府 修士課程
堀江源輝

1. はじめに

筆者は現在、学際情報学府に所属していますが、2023年度までは滋賀大学データサイエンス学部に在籍していました。当時授業で取り組んだ内容を、本の一部として執筆する機会を2年前に得て、今年9月に新刊「この1冊ですべてわかる データサイエンスの基本」が出版されました。本ブログでは、書籍の概要とデータサイエンスの魅力を紹介します。

 

2. 書籍の概要

本書では、初学者でもデータ分析の基本が理解できるように、理論だけではなく、身近な事例を複数交えて様々な手法を解説しています。

【目次】
第1章:「聖地」としての大津市 ~オープンデータを知る~
第2章:化粧水の分析 ~個票データと集計データなどを知る~
第3章:年齢とお茶の味覚の関係 ~箱ひげ図、対応分析を知る~
第4章:生活時間の分析 ~可視化、主成分分析を知る~
第5章:観光スポットの人気を高める方策 ~スクレイピング、テキスト解析、決定木分析を知る~
第6章:経済発展と環境保護の関係 ~重回帰分析を知る~
第7章:Virtual YouTuberへの投資 ~ロジスティック回帰分析などを知る~
第8章:救急車の最適配置 ~区間推定を知る~
第9章:ペットボトル茶の分析 ~統計的仮説検定を知る~
第10章:企業・自治体のデータサイエンス活用の最前線

どの章に関しても、「問題提起→データ分析→まとめ→理論解説」の順番で構成されており、初学者でも分かりやすい内容となっています。また、理論解説やプログラム(R・Python)もあるため、中級者以上にも最適な本となっています。筆者の執筆した部分は「第4章:生活時間の分析」です。執筆内容の紹介は次のパートで行います。

3. 執筆した部分の紹介

① 導入
1日が24時間ということは人間誰しも平等です。しかし、その使い方は国・地域・人によって様々です。例えば、日本人が先進国の中で睡眠時間が少ないことはよく知られています。また、年間の余暇に使う時間も先進国の中では少ない方であり、これはワーク・ライフ・バランスの充分な実現にはまだ至っていないことを示しています。「第4章:生活時間の分析」では、ワーク・ライフ・バランスの実現に関係してくる自由時間の使い方や、人間誰しもに必要な睡眠・食事について、各都道府県・地域、あるいは男女で差があるかどうかを見ていきます。本ブログでは分析のうち一部を抜粋して紹介します。
② 使用データ

今回使用したデータは、2016年度の「社会生活基本調査」に基づいて作られています。データの値は各項目について行動を行った人数を全対象者(10歳以上)で割った割合を示します。データのうち、「0_学習・自己啓発・訓練の総数」、「00_スポーツの総数」、「00_趣味・娯楽の総数」、「00_ボランティア活動の総数」、「0_旅行・行楽の総数」を選び、これらについて各都道府県別の差があるかどうかを考察しました。分析では、5つの項目(変量)を整理・統合するための統計的な手法である「主成分分析」を適用して、分析のための視点を洗い出しました。
③ 分析と考察
5つの項目(変数)をさらに統合し、図解しやすい1〜2個の(統合された)変数で、各都道府県の特徴を浮かび上がらせられるとより分析がわかりやすくなります。この目的のために、「主成分分析」という手法を用いることにします。主成分分析を行うと、表のような結果となります。

第1主成分は「ボランティア」の値はほぼゼロになり、それ以外の項目はすべて負の値となりました。その中でも「旅行・行楽」や「学習・自己啓発・訓練」の絶対値が大きくなりました。寄与率は0.69でデータ全体の7割近くを第1主成分で表現できています。
第2主成分は「ボランティア」と「旅行・娯楽」の値が正で他の項目は負の値となりました。「ボランティア」の値が大きく、「趣味・娯楽」は負の値ではあるがほぼゼロとなりました。第1主成分と第2主成分の累積寄与率は0.87となり、データ全体の8割5分以上を表現できています。
この分析結果より、各主成分をどのように解釈できるかを考察します。第1主成分は「ボランティア」のみが他の項目と正負が異なっていることより、「自分のための活動」であると解釈できます。また、第2主成分は「ボランティア」のみが大きな正の数を示していることから、「他人と関わりが深い活動」であると解釈できます。
結果として、最初の5つの項目(変数)を2つの新しい結合変数、「自分のための活動」と「他人と関わりが深い活動」にまとめることができました。
さらに、都道府県ごとの主成分得点を可視化すると図のように、都道府県ごとの特徴を確認することができます。本ブログで省略した分析や主成分分析の解説は、本を読んで確かめてみてください。

4. データサイエンスの魅力

本の紹介からは離れますが、データサイエンスの魅力について考えてみましょう。
① 新たな視点による問題解決能力の向上
データサイエンスは、ビジネスや社会問題に対する新しい視点を提供します。大量のデータを解析することで、隠れたパターンやトレンドを発見し、意思決定をサポートします。たとえば、マーケティングでの顧客行動の予測や、医療分野での診断の精度向上など、多岐にわたる応用が可能です。
② 客観的な意思決定
データサイエンスによって、感覚や経験に頼る意思決定だけではなく、データに基づいた客観的な判断を行えるようになります。これにより、信頼性の高い予測やプランニングが可能となります。例えば、政策決定をデータに基づいて実行することは「EBPM(Evidence Based Policy Making)」と呼ばれています。政策立案のためには各種の信頼性の高いデータが必要であり、その実行は容易ではありませんが、現在日本でも政府レベルで、各自治体でのEBPM実行を後押しする試みが様々に行われています。
③ 最先端技術の活用
データサイエンスの中心的な要素である機械学習とAIは、現代の最先端技術の一部です。例えば、GPT(Generative Pretrained Transformer)やDiffusionモデルといった、最新の深層学習モデルを活用することで、従来では不可能だった複雑なデータ解析や、まるでアーティストが創作したかのような魅力的な作品の創作が可能となります。

5. まとめ

生活時間の分析を授業で行った当時、グループワークを通して問題提起から実際の分析、そして最終発表までとても楽しかったことを思い出しました。「データ」に隠れた潜在的な情報を発見する試みは、人間が未開の地を探検するようなワクワク感があり、非常に魅力的であると思います。データ分析に少しでも興味がある人は、1度本を手にとってみてください。現時点で、本郷キャンパスと駒場キャンパスの図書館にそれぞれ1冊ずつ所蔵されています。この本を通して、データサイエンスの魅力を実感していただけると幸いです。また、もっと実践的なデータを分析してみたいと思ったら、毎年春学期と秋学期に開講されている「データサイエンス実践演習」を履修してみてください。初心者大歓迎で、DSS提携企業が所有するデータをチームで分析でき、企業の方の前で発表することもできます。きっと良い経験になるはずです!

 

2024年11月3日

ブログ