実践課程修了者インタビュー
DSSの最大の魅力は
未解決の課題へチャレンジできること
Q. 最初に出身の研究科など経歴を教えてください。
東京大学工学部計数工学科システム情報工学コースを卒業しました.その後に興味が統計などに移り,大学院進学時に同大学大学院数理情報学専攻へ進みました.修士課程では中川裕志教授の下で,差分プライバシーに関する研究を行いました.中川教授の退官に伴い,博士進学時に数理4研 (駒木文保教授) へ移りました.
南 賢太郎
株式会社Preferred Networks (PFN)
リサーチャー
Q. データサイエンスに興味を持ったきっかけはなんですか?
きっかけとなったのはアカデミックな興味でした.ちょうど学部時代の後半(2012-2013年ごろ)に機械学習が流行り始め,まずはC. M. Bishop著のPattern Recognition and Machine Learningなどを輪読していました.その後,卒業研究に携わった半年間,数理統計や統計的決定理論を勉強して傾倒していきました.また,統計検定の1級が設置されたのも学部時代でした.当時,計数工学科で統計を教えられていた竹村彰通先生の「現代数理統計学」で勉強して受験したのですが,この時に得た知識も興味の土台となりました.修士課程進学後には,外部の研究者たちによる論文読み会が中川研で開催されていて,楽しそうに論文を読んでいる人たちを間近で見た影響も大きかったです.
Q. DSSに興味をもったきっかけはなんですか?
DSSは専攻のメーリングリストの案内で知りました.また,研究室の教員からの勧めもあったので,比較的余裕のある博士1年目に応用課程を受講しました.研究テーマが理論よりで応用から離れ過ぎていたので,プログラムを書く良い機会だとも思いました.
Q. 基礎課程では何を学ばれましたか?またどの点が役にたちましたか。
・連続情報論
私が受講した当時は数理4研の先生でもある地震研究所の長尾大道教授が担当されていて,データ同化を扱っていました.具体的にはRを使ってカルマンフィルタを実装したりしました.Rもカルマンフィルターも触ったことがなかったので良い経験となりました.
・線形数理要論,解析数理要論,確率数理要論
これらは数学の基礎に関わる科目で非常に大事だと思います.数学を重視するのは私が所属していた数理情報学専攻の文化でもあるのですが,実際にこれらの講義で得た知識は現在までの研究生活で基礎となっています.この知識がなかったら今どうなっているかわからないと思います.内容も分かりやすいのでおすすめです.
・計算機システムの数理的意味論
これは圏論という数学の一分野に関する講義でした.私が在籍していた当時は理学部の蓮尾一郎先生が担当されていました.まず,講義は全て英語だったので,英語を利用した数学の議論法・発表法を勉強できました.また,内容に関しては,物と物と間の関係性から普遍性を導出する圏論は何もかも他分野の数学とは違い刺激的でした.
Q. 応用課程では何を学ばれましたか?
新日鐵住金(現・日本製鉄)のデータを分析しました.この課題は問題の枠組みやベースラインとなる手法もできている状態でスタートすることができたので非常に分析し易かったです.企業側の担当の方も熱意のある方で,かつグループメンバーも開発力が高く,人材的にも非常に良い条件が整っていました.このように恵まれた環境でデータ分析を心置きなく進めることができたのは良い経験でした.
Q. 実践課程での研究を初学者にもわかるようにお聞かせください
構造的スパース正則化と呼ばれる高次元統計学の一分野で研究を行いました.まず高次元統計学について説明すると,これはデータの数よりもパラメータの数が多いという条件の下での推定問題を対象とする学問です.これは古典的には(30年程前の常識では)難しい問題でした.そこでブレークスルーとなったものが線形回帰問題におけるLASSOと呼ばれる手法です. これは真の分布のパラメータの内で非ゼロの成分がごくわずかしかない(これをパラメータのスパース性という)という低次元構造を仮定して問題を解く枠組みです.ただし,スパース性の仮定の下で回帰問題を解くのは,膨大なパラメータの組合せの中から有効なものを探し出すという離散最適化が絡むために,計算量の意味で非常に困難となります.これを回避するためにLASSOでは,L1正則化と呼ばれる凸正則化項を導入し,連続最適化によって比較的高速に近似解を与えます.また,次に問題となるのは,LASSOによって得られた近似解が統計的なリスクの意味でどの程度よいものかという点ですが,これについても数理統計や学習理論の分野で広く研究されてきました.
私の研究では,複雑な低次元構造がある場合でもLASSOのような凸正則化がうまく働きうるということに着目して,より一般的な状況での理論解析を行いました.例えば,グラフ上の信号を推定する問題において,その信号が区分的に定数であるという仮定はスパース性の拡張だと言えるのですが,このような場合における正則化法の統計的な性質を明らかにしました.
Q. 卒業後の進路をお聞かせください
株式会社Preferred Networks (PFN) でリサーチャーとして機械学習の基礎研究をしています.また会社の業務外ではありますが,学会や研究会の手伝いもしたりしています.
Q. DSSで学んで一番よかったことを教えてください
良いプロジェクトにはどのような条件が必要なのか学ぶことができた点です.まず,担当されていた企業の方は問題を非常に良く分かっていて熱心でしたし,熱意の方向性が分析者である私たちと一致していたので,共感を得ながら分析を進めることができました.さらに,私たちが出した分析を適切に評価してくれて,前向きに議論へも加わってくれました.また,班員の実装能力も非常に高く,密度の高い提案を行うことができました.このような好条件が重なることで,企業側も含めて良い雰囲気が生まれるというのを肌で感じられました.これは,どのような条件を整えればプロジェクトが上手く回るかを知るという意味で非常に良い経験だったと感じています.
Q. データサイエンス全般に関して今一番エキサイティングなトピックは何だと思いますか?
大きく分けて2つあります.まず一つ目は汎化誤差に関する研究動向です.古典的には,バイアスバリアンス分解で説明されるように,複雑すぎるモデルを使うことが過学習につながると理解されてきました.しかし今日の深層学習の成功を見ると,この理解はあまり現実を反映していないように見えて来ます.現在,世界中の研究者が新しい汎化の理論を作っては壊しという試行錯誤を重ねており,非常に面白い瞬間だと思います.
次に,論理や因果などといった抽象的な知識を帰納バイアスとして機械学習モデルに組み込むという研究動向も興味深いです.もしこれが実現されると,例えば私たちが持っている常識を踏まえて賢く行動・学習する機械を実現できるため非常に有望です.これは近年注目を集めるメタラーニングの抱える問題意識にも関わっており,こちらもまとめて動向が気になります.
Q. データサイエンス全般やDSSに関して後輩に向けてメッセージを下さい。
昨今のAIブームによって世間からのデータサイエンスへの要求や期待が高まっていて,ここ数年で研究人口も爆発的に増えています.この状況は私でも非常にプレッシャーを感じますし,ましてやこれから新参者としてこの領域へ踏み込む皆さんは大きな非常に大きなハードルを乗り越えなければいけないと思います.
このような状況だからこそDSSは非常に助けになるはずです.まず,DSSのコンセプトはデータ解析のスキルを身につけて問題解決をしようというものでした.その中で,スキルの習得自体は現在ではハードルが低くなっており,最悪独学でもなんとかなる類のものです.その一方で,解決すべき問題の方は,一般に問題の当事者でない限り知りえない情報なので非常に価値が高いです.未解決の問題を親身に紹介してくれる人は現実社会にはなかなかいません.この点に関してDSSでは非常に手厚いサポートを受けることができます.解決できる既知の課題よりも未解決な課題が沢山ある現実を,学生の間に肌で感じることができるのは他の講義などでは得られない経験でしょう.
DSSに参加してみませんか?
東京大学大学院の学生であれば誰でも履修できます。
情報理工学系研究科以外の学生の参加も歓迎します。