早稲田大学の教育・研究・文化を発信 WASEDA ONLINE

RSS

読売新聞オンライン

ホーム  > オピニオン  > 文化・教育

オピニオン

▼文化・教育

堀井 俊佑(ほりい・しゅんすけ)/早稲田大学グローバルエデュケーションセンター准教授  略歴はこちらから

早稲田大学における全学データ科学教育の独自性

堀井 俊佑(ほりい・しゅんすけ)/早稲田大学グローバルエデュケーションセンター准教授
2021.2.22

 ここ数年,データ科学あるいはデータサイエンスの重要性が声高に叫ばれ,大学の間で、データサイエンス学部を開設したり,データサイエンスに関連したセンターを設立したりする動きが広がっている.早稲田大学では2017年にデータ科学センター(以下CDS)が設立され,2021年度からは全学部学生を対象とした「データ科学認定制度」が開始される.

 データサイエンスが重要であると言われている理由については,例えばインターネットで「データサイエンス 重要」と検索すれば様々な意見が見られるであろうし,CDSセンター概要所長挨拶にも書かれているので,そちらをご覧いただきたい.本稿では,実際にデータ科学の講義を担当している教員の視点から,我々が提供している講義や認定制度の独自性について少し詳しく述べたい.

データから合理的で明確な意思決定や論証を導くための学問

 先述のデータ科学認定制度の対象科目の1つに「データ科学入門シリーズ」という講義がある.この科目はグローバルエデュケーションセンター(以下GEC)のデータ科学教育を担当する教員とCDSの教員が協力して作成している講義である.この講義の初期の段階で次のような図が講義動画に現れる.

waseda0222_img_1.jpg

1 数理的アプローチによる問題解決の考え方

 この図は,何らかの問題を解こうとするときに,その問題の本質部分を抜き出して,それを抽象化することで,解くべき問題を数学の問題へと落とし込むという,数理的アプローチによる問題解決の考え方を説明した図である.例えば,製造業などにおいては需要量の予測というのは重要な問題の一つであるが,需要量と他の要因(気候や経済指標など)との関係性を数学的(例えば統計的)に表現し,予測誤差(予測された需要量と実際の需要量の差)を最小化する問題に抽象化することで,(統計的)予測問題として扱うことが可能となる. 

 このようなアプローチはデータ科学に限らず様々な学問分野で取られるが,我々は,データ科学という学問を「データから合理的で明確な意思決定や論証を導くための学問」と位置づけており,合理的で明確な意思決定の為には,このような数理的アプローチが必要不可欠であると考えている.

 データ科学に関連する理論というと「統計学」や「機械学習」といったキーワードを思い浮かべる人も多いと思うが,一般的にそれらを扱う講義では,図1の右側に相当する「数理モデルにおいて解を得る方法」に主眼が置かれる.ところが,実際にデータ分析により有用な知見を得ようとした場合,図1の上下段部分(抽象化や具現化)も非常に重要である.

 少し話は逸れるが,CDSでは,本学の学生・教職員向けに「データ科学研究相談」という,データ科学を活用するための支援サービスを提供している.これはデータ科学を研究に活用したい学生や教職員に対して,データ科学を専門とする教員がアドバイス等を行うものであるが,ここに寄せられる相談には「何を明らかにしたいか」よりも「どのような分析手法を使うか」が先に来てしまっているものも多い.分析手法は問題解決のための手段であり,手段が目的に先行してしまうと,有益な知見を得ることは難しい.解きたい問題に対して適切なデータ分析手法を選択するためにも,様々なデータ分析手法が,どのような仮定のもとで,何を目的としていて,何が保証されているのかということをしっかりと理解した上で,取り組みたい問題に適した数理モデル化を行う能力を育成する必要があると考えている.

カリキュラム全体の一貫性

 図2は,我々が提供しているデータ科学認定制度対象のデータ科学科目のカリキュラム・マップである.

waseda0222_img_2_2.jpg

2 CDSGECが提供するデータ科学科目のカリキュラム・マップ

 リテラシー級に位置する「データ科学入門α〜δ」では,統計学や機械学習の内容をベースに,図1の数理的アプローチの全体像が学習できるようになっている.これらの科目では,図1の右側部分の詳細よりも,全体的な考え方を重視しており,個別の理論の詳細については他の講義に譲る形としている.例えば,仮説検定や区間推定などの伝統的な統計学の手法の詳細について学びたければ,初級に位置づけている「統計リテラシーα〜δ」という科目で学習できる.

 また、初級の「データ科学実践」という科目では,

  • ・問題に対するデータ分析の目的
  • ・意思決定の入力と出力
  • ・意思決定の評価基準

 などを明確にする方法や考え方を学習する.実際に問題をデータ科学的な方法に基づいて数理モデル化して解を得るというプロセスを通じて,実践的なデータ科学による問題解決能力を育成することが狙いである.

 少し裏話をすると,この「データ科学入門α〜δ」の講義内容を決めるために,1年かけてCDSGECの教員が毎週ミーティングを行い,講義資料も毎週議論を重ねながら作成した.統計学や機械学習などの個別のデータ分析手法ではなく,図1のカリキュラム全体で一つの学問であるという,我々教員のデータ科学という学問に対する考え方のエッセンスが盛り込まれた,他に類のない講義になっているという自負がある.

 ただ、データや問題の構造の多様性から,問題の数理モデル化の仕方にも様々なバリエーションが存在し,「データ科学入門α〜δ」という4つの科目で紹介できる範囲には限りがある.そこで,これらのバリエーションの中で実問題の中で共通してよく出てくる構造のものを抽出して詳しく扱うのが、中級に位置するC群科目とよばれるものである.これらの発展的な科目においても,リテラシー級で学ぶデータ科学入門の背後に存在するデータ科学哲学は失われておらず,カリキュラム全体の一貫性も特徴の1つである.

データ科学の可能性

 データ科学が重要であると言われている理由の1つとして,ビジネスへの直接的な応用が見えやすいという点が挙げられると思うが,データ科学の応用先はビジネスに限らない.この原稿を書いている20212月現在,COVID-19は未だ脅威であるし,COVID-19のニュースで埋もれてしまっている感もあるが,地球環境問題など国・世界レベルで取り組むべき問題が山積している.データ科学によりこれらの問題が解決できる,というと言いすぎかもしれないが,少なくともデータ科学がこれらの問題解決の助けになるのは間違いないであろう.

 多くの人がデータ科学を学び,問題解決の手段として使いこなせるようになることを期待し,良質な教育コンテンツを提供していきたいと考えている.

堀井 俊佑(ほりい・しゅんすけ)/早稲田大学グローバルエデュケーションセンター准教授

平成16年早稲田大学・理工・経営システム卒.
平成23年同大学院数理科学研究科博士後期課程了.博士(理学).
現在,早稲田大学グローバルエデュケーションセンター准教授.
主に情報理論,統計的決定理論,統計的因果推論に関する研究に従事.電子情報通信学会,IEEE会員.