デジタルトランスフォーメーションがマーケティング領域のみならず、IoTなど事業プラットフォームにまで広がる中、データ利活用が事業成長に必要不可欠になっている。そのような状況において、注目を集める職種の一つに「データサイエンティスト」があるが、データサイエンティストに期待される業務は多岐にわたり、またその数は非常に不足していると言われている。
必要不可欠と言われる「データサイエンティスト」とは、どのようなスキルを持った人材であるのか、またどのような教育・育成をすることでそのスキルが身につくのかは、理解しづらいと言われている。そこで本稿では、データサイエンティストの定義と役割、そして企業におけるデータサイエンティスト活用のポイントについて紹介する。
データサイエンティストとは
デジタルトランスフォーメーションと呼ばれる、ITの浸透により人々の生活があらゆる面でより良くなっている中で、主に広告などのデジタルマーケティングが一般化して久しく、またDMPの構築や活用が活発化したこともあり、データ分析という業務、そしてその業務に精通したデータサイエンティストという役職・能力を耳にする機会が増えたのではないだろうか。2014年にデータサイエンティスト協会はこれからの時代に求められるデータサイエンティスト像として、「データサイエンス力、データエンジニアリング力をベースにデータから価値を創出し、ビジネス課題に答えを出すプロフェッショナル」と定めた(※1)。
データサイエンティストが担当するのは、ある商品を購入した顧客がどのような情報を閲覧し、どのメディアに接触して他に何を購買しているかの分析や、同傾向をもつ集団を抽出して、その集団が希望する製品機能を分析するなど、今後のマーケティング活動(4P)に活かすための情報分析などである。そうした分析に使われるデータは主に、顧客の取引実績、商談情報、性年齢や居住地といった顧客の基本情報などであり、複数の企業間で共通したIDを付与することでそれらの情報をアノニマス(無記名)なまま収集し分析することができる(例えばクレジットカード会社とEC会社、アパレルのポイントカードなどが所持していた場合でも収集・分析は可能だ)。また、そうした活動を支えるインフラ整備や、分析結果から得られた示唆をもとにした施策を導入するのもデータサイエンティストの役目である。
このように、データサイエンティストの携わる対象は、AIを活用し設備を整えてどのように運用していくかを考える機械学習エンジニアのような働き方から、実際にビジネスの現場で課題を発見してコミュニケーションをしていくようなコンサルタントのような働き方まで幅広い。また企業によっては、データサイエンティストの定義は近年までは曖昧であったこともあり、企業側の人材の期待役割と実際のスキルセットの間でのミスマッチが起きてしまい、能力が十分に発揮できない状況も発生している(図1)。
図1:データサイエンティストの定義が不在だったことによる課題(※2)
●データサイエンティストに要求される3つのスキル
データサイエンティストと業務のミスマッチを解消するには、データサイエンティストが一般的に持つスキルセットについて理解を深めることが重要である。
データサイエンティストに必要とされるスキルセットについては「ビジネス力」「データサイエンス力」「データエンジニア力」の大きく3つのスキルカテゴリが挙げられている(図2)。言い換えると、様々な業務がデジタルに置き換えられる、デジタルトランスフォーメーション時代でのデータ活用に必要なスキルはこの3つである。
図2:データサイエンティストに求められるスキルセット(※1)
1.ビジネス力
データアナリシスを行う上で「どのようなアウトプットを導きたいのか」を分析・設計する力であり、また現状収集し得るデータや事業背景を踏まえた上でのビジネス課題を整理する力の他、データ分析に関わる工程を計画・推進する力を指す。データ分析にあたっては、必ずしも情報とアウトプットを整理して依頼されるとは限らないため、課題設定から始めなければならない状況に対処できる能力である。これは一般のコンサルタントと呼ばれる職種全般に必要な能力と同じあり、極論を言えば、課題設定能力やプロジェクトマネジメント力と言い換えてもよいだろう。
2.データサイエンス力
統計学をベースとし、情報処理・AIに関する処理系のロジックやスキーム(情報科学系の知恵と言われている)を使う力を指す。多くの場合、処理ロジックをアルゴリズムで処理を行う。いわゆるデータのコレクション(収集)や加工、分析をどのような論理(ロジック)で行うか、どのような処理プロセスを経て、目的データを導けるかを設計する能力である。これはいわゆる論理設計にあたるため、極論を言えば、論理力・アルゴリズム設計能力と言い換えても良いと思われる。
3.データエンジニアリング力
データサイエンスにおいて設計されたデータの加工・処理プロセスを実際に行うためにシステム・インフラなどを整備し、実行し、データを意味のある形にして使えるようにする力、またそれを管理・運用できるようにする力を指す。これには機械学習におけるPythonやデータベース言語のPHPのようなプログラム言語を使いこなし、コードを書く力も含まれるため、この領域に強い人は通常自らを「機械学習エンジニア」と自称することが多い。
定義上でも3つのスキルカテゴリを組織内に持つことまでが必要とされているが、この3つの能力全てを「一人のデータサイエンティスト」が持つことは難しい。また、さらに詳細なスキルリストも公開されている(※3)。
●データサイエンス「業務」プロセス(タスクフロー)
各スキルセットが必要とされている業務も大きく異なる。データサイエンティストの業務としては、日常的にウェブサイトへのアクセスを解析するような定常業務型をイメージされるかもしれない。しかし、デジタルトランスフォーメーションをする際には、社内の課題を定義し、一定期間プロジェクトとして問題解決に向けてデータ解析を行うプロジェクト型での業務が必要になる。
情報処理推進機構(IPA)では、2017年にデータサイエンス領域でのプロジェクト型でのタスクフローを公開している(図3)。データサイエンティスト業務のタスクフェーズごとに必要とされるスキルセットを順に以下で説明する(図4)。
図3:データサイエンティストのタスクフロー(※4)
図4:課題解決フェーズごとに発揮が必要とされるスキルのイメージ(※1)
フェーズ1:目的・テーマ設定
最初に、目的・テーマを明確にした上で仮説を検証するための分析プロジェクトの立ち上げを行う。このフェーズでは、様々なスキルを持つ他のデータサイエンティストをまとめて、チームを組成しプロジェクトの設計をしていくことが必要とされる。そのため、「ビジネス力」の中でも、課題背景をきちんと理解した上でプロジェクトマネジメントをする力が重要となる。
フェーズ2:問題定義
問題定義のフェーズでは、何を分析によって明らかにしていくのか問題を定義していく必要がある。このフェーズでは「ビジネス力」の中でも論理的な思考力、「データサイエンス力」の中でも既存の設備でデータ取得や分析アプローチの設計が可能かを判断する力が重要となる。
フェーズ3:アプローチの設計
アプローチ設計のフェーズでは、分析的なアプローチを採用するために、具体的にどのようにデータを収集・蓄積するべきか、どのように解析手法を用いるか設計をしていく。このフェーズでは、具体的な解析手法についての知識や技術が要求される「データサイエンス力」が重視されることになる。また、データを収集・蓄積するための仕組みの構築や、特殊なIT技術が要求される場合もあり、「データエンジニア力」の中でもデータの収集・蓄積・管理・運用に必要なシステム・インフラを活用する力が要求される。
フェーズ4:処理・分析
収集・蓄積されたデータは、入力が適切にされていないことで、すぐに使えるような状態になっていない場合もある。そうした中でデータを解析するための形式に合わせるための前処理が必要であり、「データエンジニア力」の中でもプログラムを用いた各種加工処理能力がより重要となる。データサイエンティストというと、この後のデータ解析に主に時間をかけるイメージがあるかもしれないが、タスク全体にかかる時間全体の8割がこの前処理工程に費やされるとも言われている。
データが整ったところで、データ解析をすることになる。BI(Business Intelligence)ツールを用いて、場合によってはRなどのプログラミング言語を用いて解析を進める。また、社内で情報を共有するためにデータや解析結果をわかりやすく可視化することも要求される。そのため、「データサイエンス力」の中でも実際に手を動かして解析し、解析結果を解釈して人に伝えるところまで含めて予測、検定・判断などの統計や機械学習の手法に関する専門的な知識を活用する「データエンジニア力」の中でもデータ構造、データ加工などを実施する力が重要になる。
フェーズ5:解決
最後に、解析結果を評価してそこから着想した施策について業務へ組み込みをしていくことになる。このフェーズでは、実際に課題の起きている現場に変化を起こす必要がある。解析結果を評価し、その内容を踏まえて、割り当てられた予算や現場の状況を加味した判断を下すことが求められ、「ビジネス力」の中でも施策を現場に実装していく力が重要となる。
一人のデータサイエンティストが全ての領域に対して高い専門性を持つのは困難であるため、フェーズごとに異なる専門性を持ったデータサイエンティストが主に担当することでタスクを進めていくことが多い。
ここからもデータサイエンティスト業務というものが、いわゆるデータアナリティクスだけに留まらないだけでなく、幅広い領域にわたるハイレベル人材であることがわかる。
●データサイエンティスト育成を取り巻く大きな潮流
このように高い能力を要求されるデータサイエンティスト業務であるが、そういった人材を育成するために、また少しでもデータ活用にかかる業務負荷や必要能力を低減するために、3つの大きな潮流がある。「データ教育の推進」、「データ解析ツールの発展」、「データ解析のコンペティションサイト普及」である。
データ教育の促進
正確には、データサイエンティストに求められる諸能力を身に着けるための教育プログラムの整備である。
内閣府の開催している「総合科学技術・イノベーション会議」では、「人材・育成関連のAI戦略について議論しており、デジタル社会の読み・書き・そろばんである数理・データサイエンス・AIの基礎などの必要な力を全ての国民が育み、あらゆる分野で人材が活躍する社会」を目指すべき社会であると定義している(図5)。
その取り組みの中でも文部科学省が主催している「データ関連人材育成プログラム」では、大学や企業等がコンソーシアムを形成し、博士課程学生・博士号取得者に対してデータサイエンスのスキルを取得できるプログラムを開発・実施している(図6)。
図5:データ人材育成プログラム(D-DRIVE)の事業概要(※5)
図6:AI時代に求められる人材育成に関する主な取り組み(※6)
ここで目指していることは、データサイエンティストという職種と育成するのみならず、データ分析や利活用に対するリテラシーを様々な職種や業種において底上げしていくことを志向していることであろう。2020年に予定されている教育改革である「考える力をもつ人材育成」(※7)も理系脳や論理人材などと様々な言われ方をしているが、結局はデータサイエンティストに必要とされる3つのスキルがその大勢を占めていることも留意すべきであろう。
現在では、マーケティングの作業を合理化するMAツールをはじめとするBIツールの普及によって、専門性の高い数理的な知識がなくても、統計「処理」を行うことができるようになってきた。
例えば、マーケティングROIという、オンラインからオフライン、また気候や競合製品価格などの因子を解析し、それぞれの因子の影響評価をしたうえで広告やプロモーション活動のパフォーマンスを評価する、というデータサイエンスの活用領域があるが、博報堂グループにおいては、分析モデルを構築するサービスであるマーケティング・ミックス・モデル分析(m-Quad)を持っている(※8)。これは高度なデータサイエンスを駆使し、高い精度でのモデル化を実現し、適切な施策の影響評価と次の打ち手や予算配分に対する示唆を提示してくれる。
一方で、おおよその傾向や影響を把握したい、という企業にとっては単純相関や偏相関などの簡単な統計分析をするだけでも十分な場合もある。そのためにはXICA mazellan「オフライン広告の効果を数値化する広告分析ツール」によって簡易に分析することも可能である(※9)。
また、アウトプットや分析支援ツールとしても、Tableauはマウス操作で直感的に解析を行うことができ、100万行以上にも及ぶ組織内のデータをビジュアライズすることが可能となるため、データ分析業務であるドリルダウンや軸を変えた集計などを感覚的に行うことができる(※10)。
データ解析コンペティションサイトの普及
また、2018年ごろからデータサイエンス領域でのコンペティションが広まっている。ハッカソンやオープンイノベーションと銘打った、ビジネスモデルコンテストや共創の企画が広まる中で、データサイエンティストのナレッジ共有や能力の底上げとネットワーキングを目的としたアルゴリズム構築やモデルづくりに特化したコンテストが開催されている。
海外最大手のコンペティションサイトであるkaggleでは、企業が課題と賞金を設定することでデータ処理のコンペティションを開催できる(※11)。コンペティションでは世界各国から分析モデルが投稿され、精度の高いモデルには、サイト内でのデータ解析能力を示すためのスコアと賞金が与えられる。企業にとっては、コンペ開催を通して優良な分析モデルを獲得し、総合スコアの高いデータサイエンティストに対して案件の委託やジョブオファーができる(図7)。
このようにコンペティションサイトの活用により、社内の課題に対しては、社外のデータサイエンティストの力を借りることが容易になると同時に、ある課題に対して解決しうる社外にいるデータサイエンティストへコンタクトするすべを手に入れたともいえる。
図7:データ解析コンペティションサイト「kaggle」(※11)
●データサイエンティストを活用した経営を行うための準備
前述したように、データサイエンティストに求められるスキルは幅広く、そうしたスキルを持つ人材を集めることや育成することはすぐに対応できるわけではない。一方で、ツールやネットワーキングのインフラなども整備されているため、うまく使いこなすことができれば、データサイエンスを経営に活かすことは十分可能な状況になりつつあると言える。
では、企業はデータサイエンティストを効率的に活用し、データ利活用を進めるためにどのような準備をすればよいのだろうか。
STEP1 全社的なデータの管理・運用
営業部門、情報システム部門、管理部門などの間でデータが一元的に保持されていない状況が発生しがちである。もちろん、もともとのERP(エンタープライズリソースプランニング)は、企業のリソース情報を一元管理する仕組みではあるが、その多くは製造過程の半製品や原材料などの直接原価や人工などの間接原価までがその対象であり、いわゆるIoTデータ(工程におけるパフォーマンスセンシングデータ)や人員のデータ(就労状況など)、まして顧客行動のデータを一元管理まではできていない。
このような状況では、あくまで利用する用途を定めた上であるが、データを一元的に収集し、管理・運用する全体設計を行うことが要求される。また、これまでの小売流通における流通BMSや金融における全銀フォーマットのようなデータ統一フォーマットのように、企業や部門をまたがってもデータが収集・共有できる状態をつくる必要がある。小さくは、例えば市場推計を行うデータは統一することなどから始まるのであるが、事業部をまたがる際のKPIの生成ロジックなど、BI(ビジネスインテリジェンス)に関するデータが財務会計以外では統一されていないことが多い。
日本政府としてもデータ形式の統一に着手するなどの動きもあるが(※12)、まずは企業ごとに全体と個別を同時に集計・分析できるデータ管理・運用設計をまず行う必要がある。
STEP2 課題に基づいたデータサイエンス設計
データサイエンティストに求められる一つ目のスキルであるビジネス理解力でも述べたように、「データサイエンス」を経営や事業運営に活用する場合、活用ゴールである社内の課題を設定することがまずは必要である。
もちろん、課題設定自体をデータサイエンティストが行うことが理想ではあるが、マネジメント層がまずは現状問題を洗い出し、課題と解決方向性仮説を出す。この役割はいわゆるマネジメント層や経営企画といったHQ(ヘッドクオーター)の役割である。その際に課題解決に紐づくデータとデータ分析を行い現状認識と課題解決の方向性仮説を導くことが求められる。
可能であれば、まずはこのタイミングでもデータサイエンティストによる分析の支援を仰いでもよい。いわゆる経営コンサルティング会社の行うような財務・会計領域だけでなく、生産や在庫、流通やマーケティング(価格や市場認知率など)の他、収集すべき対象と分析すべき内容は多岐にわたっており、仮説検証において必要なデータの定義や収集方法と評価ロジックをあらかじめ設計することが必要である。この初期設計を行い、有用な示唆を出せるような準備が求められる。
大阪ガスのビジネスアナリシスセンター所長の河本薫氏は、自身の著書「会社を変える分析の力」の中で次のように話している。「(ITでどんな分析でも、誰でも簡単にできるようになった時代では)分析を実行する力よりも、どんな分析を実行するか構想する力が問われるのです。」(※13)
自分が今の企業にいるからこその視点で課題に対して仮説を出し、目的設定や要件をデータ分析の担当者に明確に伝えることで、必要なデータを収集し適切に分析することが重要になってくるだろう。
STEP3 分析結果の解釈と意思決定の体制とプロセス
データ分析結果を取得することで、自然と課題が解決できるわけではない。分析結果を読み取り、社内外の状況を踏まえた上で、課題に対してどのように対応するのか「判断」を経て実施方針が定められ、各部がその意図を理解して事業活動を行うことでようやく解決へと動き出すのが実態である。特に、分析と構想で終わらせず実際の現場のオペレーションに照らし合わせた時に、施策を導入するのが良いのか、また彼らがデータに基づいた合理的な判断を受け入れてくれるのか、そういった判断とともに根回しが必要になる。つまり、データサイエンスを用いた後に、それを実際に活用するための組織や手続きをあらかじめ用意しておく必要があるのである。
特に散見されるのが、データを活用した新規事業開発や業務改革のプロジェクトである。これらは、PoC(コンセプト確認・実証実験段階)でストップしてしまうことが多々あり、その原因として、例えば適切なデータによって現状分析や取るべき施策が選択されたとしても、業務中で信奉されてきた勘や経験が現場で支配的であったり(現場の実感値と合わない)、オペレーションを変えることに対して現場からの抵抗があったり(現場のことを理解していない)、費用対効果が現場の期待するものに適合しなかったり(机上の空論)などが挙げられる。この事態を防ぐためにも、実行に向けた組織とプロセスの準備は社内合意も含めて事前に行う必要がある。
以上、データサイエンティストの潮流と、今後求められるデータドリブンな経営を行うための準備を方法についてご紹介した。このように、データサイエンティストによる課題設定から実装までの一連のプロセスを行うための体制が必要となるが、多様な知識・スキルを持つ集団を整備するには、社内のリソースだけでは対応が難しい場合もある。そのような場合は、知見のある外部人材の手を借りながら、まずは期間を定めた上でのプロジェクト型の課題解決の検討を進めていくことをお勧めする。
博報堂コンサルティングでは、データ活用に関する知見の他、部門横断的な風土形成やデジタルフォーメーションの知見を活かし、企業における組織的マーケティング活動における戦略構築から活動実行まで一気通貫での支援を行っている。
より詳しく内容をお聞きになりたい方は、是非お問い合わせください。
※1: データサイエンティストのミッション、スキルセット、定義、スキルレベルを発表 データサイエンティスト協会、2014-12-10、 https://prtimes.jp/main/html/rd/p/000000005.000007312.html
※2: 一般社団法人データサイエンティスト協会発足について、データサイエンティスト協会 https://www.datascientist.or.jp/news/2013-07-16/、2013-07-16
※3: 「データサイエンティスト スキルチェックリスト ver.2」および「データサイエンス領域タスクリスト」を発表、 https://www.datascientist.or.jp/files/common/PR_skillcheck_ver2.00.pdf、2017-10-25
※4: 新たな2つの領域に向けたスキル強化の指針“ITSS+(プラス)”を策定、「セキュリティ領域」「データサイエンス領域」を公開、情報処理推進機構(IPA)、
https://www.ipa.go.jp/about/press/20170407.html、2017-07-12
※5: データ関連人材育成プログラム(Doctoral program for Data-Related InnoVation Expert(D-DRIVE))、文部科学省、
http://www.mext.go.jp/a_menu/jinzai/data/index.htm、2018-08-23
※6: AI戦略(人材育成関連)、総合科学技術・イノベーション会議(第43回)、https://www8.cao.go.jp/cstp/siryo/haihui043/haihu-043.html、2019-04-18
※7: 学習指導要領のくわしい内容、文部科学省、http://www.mext.go.jp/a_menu/shotou/new-cs/1383986.htm
※8: 構造モデリングなどを用いて現場マーケッターの意思決定を支援する 新しい形のMMMサービス 「m-Quad」提供開始https://www.hakuhodody-media.co.jp/newsrelease/service/20140806_8362.html
※9: XICA mazellan、https://xica.net/magellan/
※10: Tableau 公式HP、https://www.tableau.com/ja-jp
※11: kaggle、公式HP、https://www.kaggle.com/
※12: ビッグデータの統計的利用に向けて、総務省 統計委員会担当室、http://www.soumu.go.jp/main_content/000554053.pdf、2018-05-23
※13: 会社を変える分析の力 河本薫(2013)、講談社