酒折 文武 【略歴】
酒折 文武/中央大学理工学部准教授
専門分野 統計科学
近年のデータ計測技術や計算機性能の急速な向上により、これまでになかった様々なタイプのデータが計測・蓄積され、計算機をフル活用した統計分析技術が開発されてきています。まさにこれからの時代、先端科学技術から身近な生活までの至る所で、こういったデータを活用した判断が求められることでしょう。そうした中で、統計科学の重要性はますます増してきていると言えます。
私の研究分野は統計科学であり、さまざまなタイプのデータに対する新たな統計手法の開発が研究目的です。しかし今回は応用の観点を強調して、本研究室の研究テーマから「関数データ解析」「多重検定法」について応用例とともに紹介します。また、企業との共同研究で進めているスポーツの統計分析についても紹介します。
先に述べたように、近年の計測技術の発達によって様々な形式のデータが取得されるようになりました。そのようなデータ形式のうちの一つに関数データというものがあります。個々のデータが関数、すなわち曲線(あるいは曲面)の形で得られているものです。そのような関数データを扱う統計手法が関数データ解析です。
この図は、ある高速道路での、通行する車の平均速度のパターンの一例を表したものです。横軸が時間(0時~24時)、縦軸が速度を表します。青い道路は24時間ほぼ一定の速度であり、赤や緑の道路は速度が落ちるいわゆるラッシュアワーが存在することがわかります。これらのデータは実際には5分ごとの計測であるため離散点で得られているのですが、本質的には曲線が計測されると考えられます。
こうした関数データが多数得られているとき、その変化パターンの似ている道路ごとに分類することが考えられます。私たちは、適切なグループ数を模索しながら、速度の高低の情報を生かしてその変化パターンごとに分類する方法として、混合効果モデル、ガウス混合分布モデル、ノンパラメトリックベイズモデルといった複雑なモデルを併用した新たな統計分析法を現在開発中です(図はモデルのイメージ)。
こういった様々な統計モデルを用いることにより、複雑なデータを眺めているだけでは見えてこない、データの奥に潜んだ構造があらわになるかもしれません。
多重検定というのは、複数の仮説を同時に検証するための方法です。
例えばゲノム解析の分野では、遺伝子発現データ(図)を用いて遺伝子間の制御関係を探る遺伝子ネットワーク推定や、一塩基多型(SNP)による疾患関連遺伝子の同定などの問題において、多重検定法をはじめとした種々の統計的手法が用いられています。
こうした分野では一般に、同時に検証すべき仮説の数がとても多く、それらが互いに未知の関連性をもち、場合によっては疎(極少数の観測値のみが影響を与えている)な構造をもつため、古典的な統計分析では歯が立ちません。
そこで用いられるのが、並べ替え法、ブートストラップ法といった計算機を活用した統計分析です。しかし、現在ゲノム解析の分野で標準的に用いられている方法は理論的な保証が与えられていないどころか、理論的な不具合を指摘する論文がここ数年でいくつも出されています。現在私たちは、こうした多重検定法の理論的な妥当性の検証と、新たな多重検定法の開発に取り組んでいます。多重検定法などの統計手法の整備は、まだまだ未知の部分が多いゲノム解析の分野で新たな世界を拓くきっかけとなることでしょう。
スポーツの世界でも統計分析が活用されています。適切な戦術の選択、選手の評価、チーム編成のマネジメントなど様々な面で客観的な評価を行うためには統計分析が欠かせないのです。統計分析の面でもっとも先進的なスポーツのうちの一つ、野球についてを中心に紹介しましょう。
アメリカでは、1980年頃よりセイバーメトリクス(SABRmetrics、アメリカ野球学会の略語SABRと計量を表すmetricsを合わせた造語)呼ばれる野球の統計分析が盛んに行われてきました。貧乏球団を強豪へと変貌させたビリー・ビーンの話などを通じて、セイバーメトリクスのことをご存知の方もおられるかもしれません。
セイバーメトリクスは、伝統的な価値観ではなくデータに基づいて客観的に戦術や選手評価を考えようとするものです。例えば、打者の評価として日本では打率や打点、本塁打数などが用いられますが、これらではチームの勝利にどれだけ貢献したかを適切に測ることができません。四球でも単打でも実際は同じ結果であるにも関わらず四球が評価されない、塁上に走者がいないと打点は稼げない、などの理由からです。セイバーメトリクスではこれらの指標の代わりにOPS(出塁率+長打率)など独自の指標で選手を評価します。この指標は得点との相関が高いこと、得点・失点は勝敗との相関が高いことから、OPSのような指標を用いることで勝利に対する選手の貢献を測っているといえるのです。同様にして、投手、捕手、野手の守備・攻撃に渡る評価を客観的に測る指標が次々と提案されてきています。
そして現在のアメリカでは、投球時のボールの軌跡や守備時の野手の動きの軌跡などをデータ化し、高度な統計分析を用いてそれらを分析・活用しはじめています。しかしながら日本の状況は、残念ながら、アメリカより数十年遅れているといっても過言ではありません。典型的な例として送りバントが挙げられます。送りバントによりその回にとれるであろう得点の期待値(や得点確率)はむしろ下がってしまうことが統計分析により明らかであり、アメリカでは送りバントはほとんど行われません。しかしながら、日本人的な自己犠牲の精神に合致するからか、日本では基本戦術として用いられています。スモールボールと言われる日本の状況は違うのではないかと思われるかもしれませんが、残念なことに、日本でも送りバントにより得点の期待値(や得点確率)は減少してしまうことが確認されています(私自身も傾向スコア法という統計手法を用いて分析し、同様の結果を得ています)。
私たちは現在、先発投手の正しい評価法について研究を行っています。日本のプロ野球では、投手の評価として防御率、勝利数、敗戦数などが標準的に用いられますが、これらの指標は投手の評価として適切ではありません。例えば、先発投手が好投しても打線の援護がなければ勝利には結びつきませんし、後続の投手が打たれてしまうと勝利投手の権限は失ってしまいます。あるいは逆に、大量失点をしても打線の援護で勝ちを拾うこともあります。そこで、もし打線の援護や後続投手が「標準的」であったならばその先発投手は果たして何勝(あるいは何敗)したかという観点で、Support Neutral Win(Loss) という指標を用いることができます。その投手以外の要因を排除し適切に先発投手の評価を行うための指標です。現在はこの指標の日本版の作成を行っているところです。
以上では野球に的を絞って話をしてきましたが、今後はサッカーの統計分析にも取り組みたいと考えています。2010FIFAワールドカップでの日本の躍進は記憶に新しいことと思います。本大会では、各選手の1試合の走行距離が算出されました。日本人では、遠藤選手や本田選手などが1試合あたり11kmも走っていることなどが話題に上りました。この走行距離は選手やボールの動きをカメラで追跡した軌跡データから算出したものです。しかし、走行距離を出す程度ではこの軌跡データの情報を十分に生かしきれていません。私たちは、せっかくの宝が眠るこのようなデータを活用し、当該スポーツ競技の更なる発展と、新たな統計モデルの開発による統計科学自身の発展を目指して研究を進めたいと考えています。
研究室で取り組んでいる研究テーマを、その応用的な側面とともに紹介しました。様々な分野で統計科学は活用され、新たな知見を生み出すための武器として役立てられています。私たち統計科学の研究者は、そうしたニーズに答えるため日々新たな理論や手法の開発に努力しています。
上述のような先端科学技術や専門分野に限らず、私たちの身近な生活においても統計的なものの判断が重要視されてきています。例えば、テレビ・新聞などメディアでは様々なグラフを扱いますが、その中には明らかに統計を誤用(悪用?)したものが少なからずあります。情報を正しく判断して賢い市民として社会生活を送っていくためには、それぞれが統計的なリテラシーを身につけることが重要です。新学習指導要領において小・中・高の算数・数学科で統計・確率の内容が重要視されたのもその表れです。私たちのグループが開発したデジタル教材(2009年、科学技術振興機構の支援により製作)をはじめとした様々な教材提供や、様々なイベントや運動を通して、学界をあげて統計の普及に取り組んでいます。本稿を読んでいただいたのをきっかけにして、ぜひ統計科学に興味をもっていただければ幸いです。