実践課程修了者インタビュー
応用課程は実社会で
必要とされているデータ分析作業そのもの
他にないほど実践的
Q. 最初に出身の研究科など経歴を教えてください。
東京大学 工学部 計数工学科を2014年に卒業し、大学院は修士・博士課程とも同大学の情報理工学系研究科 数理情報学専攻 数理第6研究室(数理6研)に在籍し、2019年に学位取得しました。数理6研は機械学習の数理的側面から応用までを幅広く扱う研究室でDSSの運営にも協力しています。
宮口 航平
IBM 東京基礎研究所
研究員
Q. データサイエンスに興味を持ったきっかけはなんですか?
大学に入学する以前から人間の知能や共感と呼ばれるものの仕組みに興味がありました。そこから知能を理解するためにそれを工学的に実現する方法を考える人工知能、ひいては機械学習という分野にたどり着き大学院へ進学しました。まだこの時点での関心は知能にあり、データに隠された現象を紐解くデータサイエンスとは隔たりがあったのですが、大学院進学後に2つの転機がありました。
一つ目の転機は所属した数理6研が機械学習の数理的側面を研究しつつも、様々なデータの特性に合わせたモデリングにも軸足を置いていたことです。特に研究を通じて、機械学習の手法の考案とデータの特性を見極めたモデル設計の表裏一体性を強く意識する様になりました。また後者の「データの特性を見極めたモデル設計」を実践する場として、自然とデータサイエンスにも興味を持つようになりました。
二つ目の転機は就職活動を通じた社会との関わりでした。結局は進学したのですが、修士課程在学中には就職活動も行いました。その過程で、データはあるがそれを何にどう役立てたら良いか分からないというニーズと、それを解決するデータサイエンティストという仕事が社会で重要になっていることに気づかされました。これは情報理工学系研究科で得た知識や技能を仕事に生かすには絶好の場だとも感じました。このような経験から積極的にデータサイエンス的な技術を身につけてみたいと感じる様になりました。
Q. DSSに興味をもったきっかけはなんですか?
DSSには博士課程在学中に参加しました。上で述べたようにデータサイエンスへ興味が向いてきていたところ、所属研究室が運営に協力していることからDSSを知り挑戦してみたくなりました。
Q. 基礎課程では何を学ばれましたか?またどの点が役にたちましたか。
・線形数理要論、解析数理要論、確率数理要論
これらは数学に関係する科目で、数学の基礎力形成には欠かせなかったです。幅広い項目を、上部だけでなく基礎からしっかりやってくれるところが助かりました。これらの知識無しでは現在の自分は無いと言っても過言では無いと思います。
・クラウド基盤構築
この講義ではCUI越しにサーバーを操作する経験を積むことができました。この技能は応用課程で役立ちました。
・算法設計要論
この講義では動的計画法やグラフ関係の離散アルゴリズムなどを勉強しました。データサイエンスはコンピュータサイエンスの上に成り立っているものですから、ここで得た知識も非常に役立っています。
・知能情報論
この講義ではBoostingやBaggingなど機械学習の初歩的な手法を幅広く抑えることができました。一人で勉強するより大分効率的に知識を獲得することができるのでおすすめです。
Q. 応用課程では何を学ばれましたか?
まず知っている手法でもそれを実際に動かすのには時間がかかるということを身をもって学びました。特に一番大変だったのがデータの前処理です。数理6研では幸いにも先輩やデータ提供元が既に整理してくれているデータを触る機会しかありませんでした。それに比べてDSSで触ったデータは機械学習をナイーブに動かすにはサイズが大き過ぎ、また機械学習モデルで直接取り扱える形式にもなっていませんでした。この様な点を乗り越えるためには泥臭い作業が不可欠で、これは実際の現場でも必要となる技能だと思います。また開発の行程をゼロから設計する作業も非常に実践的で勉強になりました。例えばデータの特性に合わせてモデルを選ぶことや、システム全体のデザイン、更にはデータ処理のあるステップでどの技法を使うかなど、様々なテクニックやアイディアを実践的に活用して生のデータを解析する経験はとても新鮮でした。
また企業担当者の前で分析の成果を発表する最終報告会も良い意味で強いプレッシャーを受ける非常によい経験となりました。特に分析を進める中でも”結果として良く分かっていません”の様な中途半端な状況で発表するのは許されないというプレッシャーを常に感じていました。最終報告会の決められた期日までに何ができるかを考えて、やるべきことを取捨選択し、クオリティはともかくきちんと形にする作業を体験したことは非常に新鮮でした。これは普通に授業を受けたり、研究していたりするだけではなかなか得ることのできない経験だと思います。これは社会に出た今とても役に立っていると感じるスキルです。
Q. 実践課程での研究を初学者にもわかるようにお聞かせください
どの様に知能が実現されているかという問いに関して最小記述長(Minimum Description Length, MDL)原理という仮説・理論体系があり、その拡張を研究しました。良く言われるのですが機械学習の理論が扱えるモデルは、分かりやすい単純なモデルから始まって複雑な方向へ進んでいくことが多いです。そのため実践的に有用だとされるモデルから見ると単純過ぎて意味がないとも思われがちなモデルを対象とすることが多いのも事実です。MDLも例外ではなく、解析しやすいモデルが研究されてきた歴史背景があります。これを受けて私の博士論文ではMDLを実践的なモデルへ適用できるための拡張を試みました。より具体的には、パラメータ数が非常に多いモデルをMDLで取り扱うための理論的な道具をいくつか作りました。これにより例えば、近年注目を集めている深層学習などを含むモデルの学習の理論的限界を示すことができ、またその限界を達成する手法を実装することができる様になりました。
Q. 卒業後の進路をお聞かせください
大学院卒業後はIBM 東京基礎研究所で研究員として働いています。
Q. DSSで学んで一番よかったことを教えてください
DSSでは研究と違ってビジネスの文脈でデータ解析技術を捉え直す必要があったのが印象的でした。巷でよく言われていることですが解釈可能性は特に重要だと感じました。人に解析結果を説明するためには単にデータで遊ぶ以上のことが必要で、性能以外の指標で妥当性を検証できるようにすること、そして解析結果をビジネスの文脈に引き戻すところまで見通してモデルを設計することなど、よりメタなデザインセンスを身につけることが出来たと思います。これは現職にも通じる大事な要素だと感じていて、データ解析のコンサルティングではもちろん、自身の研究をデザインする上でも役に立っています。
Q. データサイエンス全般に関して今一番エキサイティングなトピックは何だと思いますか?
なぜ深層学習がうまくいくのか理由がまだ完全には分かっていないので、そこに未知の領域が広がっていると感じています。これはより応用的な観点からとらえ直せば深層学習がうまくいくデータの特徴を捉える問題とも言え、これが明らかになれば今は手当たり次第試してみるしかない深層学習の応用範囲がどこまで広いのか見通しがつくかもしれません。
Q. データサイエンス全般やDSSに関して後輩に向けてメッセージを下さい。
データサイエンスは一つの大きな数学と実社会の交差部分だと思っています。数学などの理論が専門の学生は社会との接点を体感できる貴重な場になりますし、逆に数学に親しみのない学生でも数学の重要性・楽しさを知ることができる領域だと思います。その中でもDSS、特に応用課程は他に類を見ない実践的な授業です。応用課程で取り組む一連の活動は実社会で必要とされているデータ分析作業そのもので、データサイエンスで学んだことを社会へ還元するとはどういうことなのかが詰まっている授業だと言えます。応用課程に参加される方は、それを意識して取り組むと有意義な経験になるのではないでしょうか。
DSSに参加してみませんか?
東京大学大学院の学生であれば誰でも履修できます。
情報理工学系研究科以外の学生の参加も歓迎します。