Data Science

  1. 組織全体でデータリテラシーを上げるには
    1. ビジネストランスレーターとは?
  2. データサイエンスとは
  3. キーテクノロジー
    1. データエンジニアリング
    2. データ解析
    3. 価値創造
  4. データサイエンスの分野の分類
    1. データの集計とグラフ化
    2. 統計的推測ないしは予測
    3. 人工知能(AI)
  5. わかりやすい例をいくつか
    1. ダイドードリンコの事例(常識を覆す結果が出た例)
    2. Intelの事例
    3. 農業での活用
    4. 埼玉県の事例
  6. データサイエンスのキーワードを簡単にまとめ
    1. ビッグデータとは
    2. データサイエンティストの内訳
    3. データアナリスト(分析者)
    4. データエンジニア(データ整備人)
    5. 機械学習エンジニア(開発者・技術者)
    6. コンサルタント(プランナー)
    7. データアーキテクト(モデラー)
    8. データサイエンスの実施方法
    9. 問題定義
    10. データ収集・整理
    11. データ分析
    12. 課題解決・提言
  7. データサイエンスが期待される背景
    1. データ量の増大とデータサイエンスの応用分野の拡大
  8. データサイエンスがビジネスにもたらす変革と組織
      1. 十分なデータ量と分析課題
      2. データに価値を置く文化
      3. データサイエンス人材の育成
      4. 組織開発
  9. データサイエンスを導入するポイント(参考情報として)
      1. 効率的なデータ収集と分析
      2. データ統合と規格の統一
      3. 開発チームや他部署メンバーとの連携
      4. 環境構築や運用体制の整備
      5. 意思決定層との連携
  10. 国内におけるデータサイエンス市場の現状
  11. データサイエンスを推進する上での課題は人材不足
  12. まとめ
    1. 発展途上の技術
    2. プラットフォームとして簡単に使えるか? どう活用するか?
    3. 研究分野の総合力と実践力が試される

組織全体でデータリテラシーを上げるには

第4回:組織全体でデータリテラシーを上げるには
全社的もしくは部門全体でデータ活用に取り組もうとしている企業が増えている。ただ、現場の社員の方向けに研修してみると意外な声を聞くことが少なくない。今回は組織でデータ活用を阻害する原因について考えてみたいと思う。

ビジネストランスレーターとは?

上記の記事の中で、ビジネストランスレーターという概念が説明されています。昔の経営者の考え方だと、「よし、データーサイエンティストを雇って、新分野に挑戦するぞ」と号令をかけるでしょうが、どうやら今日では、そういった簡単な「英断」ではうまくいきそうもありません。Decision makerもかなり深く理解していないと的はずれなことに大金をつぎ込むことになりかねません。一般に知れ渡っていることですが、データサイエンティストは高額ですし、すぐに転職していなくなるので、全く別の人事的ノウハウがないと事業継続が難しいでしょう。

画像2

冒頭で、ちょっとやる気をなくすことを書いてしまいましたが、まずは、基本的内容の説明からまとめてみました。

データサイエンスとは

データサイエンスの分野は昔からあるものですが、デジタルの技術によって近年急速に進歩してきました。私はデータサイエンスの専門家ではありませんが、ビジネスにどのように関わってくるか、そしてDXソリューションに応用するにはどうすればいいのかといった観点から説明をしていきたいと思います。これらの内容は、私がいろいろな情報源からとりまとめたもので、私自身は、この専門家ではありませんので、ご理解の程よろしくお願いいたします。

データサイエンスを構成する主な要素を列挙すると

  • Big Data
  • データ解析のツール
  • 解析を実行するプラットフォーム
  • 結果をわかりやすく表現するソフトウェア

学術的な観点から見ると

  • 数値データ分析に関する歴史的な蓄積がある統計学
  • 高度な解析モデルを支える数学
  • ビックデータのインフラを構築する計算機科学
  • 使いやすいツールを開発する情報工学(IT)
  • 画像や音声の解析に用いられるパターン認識や機械学習(AI)
  • 視覚化・可視化に役立つデザイン情報学(IT)

応用分野で見ると

例えば、

  • 会員の行動を予測し、売上の向上が期待できるクーポンを発行する
  • サイト上のログイン履歴のデータを分析し、イベントチケットの価格を変更して販売する
  • 機器の故障を予測し、設備の稼働ロスを防ぐ
  • 画像診断技術を用いて、医師(人間)が感知できなかった腫瘍を発見する

など、多くの分野で使われています。

私の知っている卑近な例でいうと、アパホテルの変動価格制、コンサートチケットなどで有名になったダイナミックプライシングも応用例ではないかと思います。(アパホテルは、AIではなく店長が人力AIになっていた?)

あまりデータサイエンスっぽく見えませんが

キーテクノロジー

データエンジニアリング

データを抽出・加工して使える形に整え、収集したデータを蓄積・統合して分析に適した環境やシステムを構築する技術です。データを格納するストレージ容量が拡大しコンピュータの処理能力が向上したことにより、ビッグデータと呼ばれる膨大なデータも活用の対象となっている。

データ解析

分析や解析に関する手法そのものをあらわすこともあれば、データからパターンや法則などを抽出するというアナリティクスに近い意味で使用されることもあります。集計・グラフ化などのデータ可視化や統計学的手法でのモデル作成などもデータアナリシスと呼べるでしょう。

価値創造

データエンジニアリングで処理し、データアナリシスで分析した結果得られた示唆や知見を、ビジネスなどの課題解決に活用することはデータサイエンスの重要な役割です。さまざまなデータソースから得られる情報を磨き上げ、新たな価値を創造すること。そのためには、ビジネスや商機を理解し、データ取得の道筋や収益化をも含めた計画を描くことが求められます。

データサイエンスの分野の分類

データの集計とグラフ化


社内に蓄積されたデータから課題解決に役立つデータにあたりをつけたとしても、それだけではなかなか有効活用はできません。定量的なデータは集計してこそ現場で使いやすくなるものですし、グラフにして視覚化を図るのも大切です。最新のデータサイエンスは、これらを瞬時に行います。

注)よく「見える化」という言葉を聞きますが、一般に言われている見える化より数段レベルの異なるものを指していると思います。今まで全く予測できなかった、意外な事実、または、一般の予測に反すること発見するといったことが起こっているようです。

統計的推測ないしは予測


与えられた豊富なデータを用い、統計的に推測することはデータサイエンスに期待されている役割の1つです。また、機械学習にとって精度の高い予測は得意な分野です。最新のアルゴリズムや手法を利用することで、従来型のモデルよりも正確な推測ないしは予測を行うことに取り組みます。

人工知能(AI)


ビッグデータに含まれるデータは、数値などの構造化データだけではありません。テキストや画像、動画、音声などの非構造化データも含まれます。そのようなデータ解析で注目されるのが深層学習(Deep Learning)です。データサイエンティストはAIモデルの作成やパラメータ調整などでも活躍します。

わかりやすい例をいくつか

応用例は多数ありますが、理解しやすいものをいくつか調査しました。具体例をいつくか見てください。

ダイドードリンコの事例(常識を覆す結果が出た例)


ユニークなCM放映でも有名な「ダイドードリンコ」では、消費者アンケートで集めたデータと「アイトラッキング・データ(ユーザーの自動販売機での目線の動きをデータ化したもの)」を活用しています。
アイトラッキング・データを分析したところ、「ユーザーの視線は左上からZ型で動いている」といった定説が覆る結果となりました。
これらのデータを参考に、自動販売機の人気製品の陳列の順番を左上ではなく左下に変更しました。結果売上が増加し、ビッグデータの有用性が証明されています。
今後は集計して利用するのに時間が掛かる販売データを、どうマーケティングに利用するかが課題となっています。

  • その他の事例を総務省のウェブサイトより(下記)
総務省|平成27年版 情報通信白書|(3) 国内ビッグデータ活用事例

Intelの事例

半導体大手「Intel」では、チップの市場投入に関してビッグデータを活用しています。
ビッグデータを分析することでチップ製造の際の品質検査を一部のチップだけに絞って行えるようになり、製造コストが300万ドル削減されるといった高い費用効果を発生させました。
ビッグデータを活用した予測分析は、コスト削減にも一役買います。

農業での活用

農業は第一次産業として、人の経験則や勘に頼る部分が大きかった分野です。安定的な生産とナレッジの共有のために下記のような取り組みが行われています。

  • IoTセンサーを用いて現実の気象状況を測定し、生産計画を可視化する
  • 気象データからリスクを予測して被害を抑える対策をする
  • 既存農家の経験をデータ化して新機能業者に提供する

埼玉県の事例

埼玉県は24時間の平均交通量が全国4位だったりと、交通量が伸びているのに道路整備が追い付いていない課題を抱えていました。そこで自動車メーカーの「ホンダ」と組み課題解決を図っています。
ホンダのカーナビシステムはリアルタイムで自動車に関する情報を収集可能で、これを活用して車の通過時間データや急ブレーキ発生データなどを分析しました。結果的に1 か月間の急ブレーキ数が70%減少、人身事故件数が20%減少など大きな成果を残しています。

参考:クリエイティブ ぼうそう 第88号ー特集「ビックデータとオープンデータの利活用」|千葉県市町村総合事務組合 千葉県自治研修センター

http://www.ctv-chiba.or.jp/jichi/jigyou-shoukai/kuribou/creative/pdf/88-13.pdf

データサイエンスのキーワードを簡単にまとめ


データサイエンスの手法には相関分析や回帰分析、ロジスティック回帰やニューラルネットワーク、シミュレーションなどとても多くの種類があります。機械学習の教師あり学習、教師なし学習、データの解析や予測、パターン認識などといった目的に合わせ、手法を選んで使用しましょう。

ビッグデータとは


インターネットの普及により、膨大な量のデータが瞬時に集まるようになってきました。また、そういった大量のデータの格納が可能なデータベースやクラウドコンピューティングサービスが開発されデータの保持・保管も以前より低コストで行えるようになっています。

さらにCPUやGPUなど計算処理するマシンパワーも指数関数的に向上しました。この3つの要因により誕生したのが、巨大なデータ群であるビッグデータです。

ビッグデータにはテキストや音声、数値や動画などといった、多種多様なデータが含まれています。そのような膨大なデータを有効活用するのが、データサイエンスというわけです。

データサイエンティストの内訳


学術研究の世界だけでなく、ビジネスシーンにおいてもデータを活用した科学的な問題解決に取り組むのがデータサイエンティスト(データサイエンス人材)です。

同じデータサイエンティストといってもプロジェクトでの役割やデータとの関わり方・扱い方によって、主に次の5つのタイプに分けられます。

データアナリスト(分析者)


データサイエンスを支える1つにデータアナリシスがあります。データアナリスト(分析者)は、統計解析の知見をもとにデータを分析し、ビジネス上の問題解決や意思決定をサポートします。SASやSPSSなどの統計ツールを利用したり、BI(ビジネスインテリジェンス)・BA(ビジネスアナリシス)のツール導入を支援したりすることもあります。

データエンジニア(データ整備人)


ビッグデータを利用するためのインフラ環境を整える役割がデータエンジニアです。データレイクやデータウェアハウスなどデータ基盤となるプラットフォームを導入し、データの収集・加工・活用の一連のパイプラインを処理します。サーバー環境にクラウドを利用する割合が増えており、AWSやGCP、Azureなどの知見が必要です。

機械学習エンジニア(開発者・技術者)


ビッグデータの中から共通したパターンを発見するのに役立つのが機械学習。機械学習のライブラリやフレームワークを利用してシステムを実装したり、機械学習を組み込んだITシステムを構築・運用したりするのが機械学習エンジニアの主な仕事です。扱うデータにより、画像認識系のエンジニア(画像データ)と自然言語系のエンジニア(テキストデータ)などに分けることが可能です。

コンサルタント(プランナー)


データサイエンスの知見やAI活用の経験をもとに、ビジネスへの応用を考えたり、問題解決へ役立てたりするのはデータサイエンティストの大事な役目。データ収集や開発などの技術領域はエンジニアに任せ、有効な適用範囲を提案したり戦略を立案したりするのがプランナーやコンサルタントと呼ばれるビジネス職での役割です。

データアーキテクト(モデラー)


IT分野のモデラーは、業務の流れやシステム化の概念を形式的なモデルに落とし込みます。データを使用しやすく保管するためにガイドラインやテンプレートを使用して因果関係を図で表現します。データ管理者やデータエンジニアとも協業してデータマネジメントを実施します。

データサイエンスの実施方法


データサイエンティストが仕事をする際の、データサイエンスの具体的な実施方法は次の4つです。

問題定義


データサイエンスに限らず、仕事を行う際に重要なのが、最初に解決する問題を定義することです。このフェーズにおいて対象や課題があやふやなままでは、望む結果が導き出せません。データサイエンティストの場合はデータを有効に利用して得られるだろう成果やプロジェクト目的を定義します。

データ収集・整理


課題解決の方向性や解決すべき問題を定めたら、必要なデータの収集や調査に着手します。実際のデータに目を通したり、基礎分析のような形でグラフ化・集計を行ったり、具体的な分析手法やアルゴリズムについても検討します。機械学習や深層学習ではデータが大量になることがあるので、データの保管場所や更新など環境を整えることもデータサイエンティストの大切な仕事です。

データ分析


収集した大量のデータは、そのままでは単なるデータのままです。データサイエンティストは目的に適した分析手法でデータを分析し、問題解決に役立つ新たな知見を導き出します。すぐに高い精度を出せることは稀なため、モデルやデータの調整をおこないながら試行錯誤を繰り返すことになります。

課題解決・提言


データ分析・解析で新たな知見が得られたなら、それを課題の解決に結び付けます。また、結果の評価や組織体制・人材育成などに関する提言を行うのもデータサイエンティストの仕事です。評価をレポートにまとめ、経営層にプレゼンして事業に役立てます。

データサイエンスが期待される背景


データサイエンスが大きな注目を集めているのは、期待される様々な理由や背景があるからです。

データ量の増大とデータサイエンスの応用分野の拡大

SNSやスマートフォンの普及によりデジタル化が加速し、さまざまな情報を取得・活用できるようになりました。また、IoT(モノのインターネット)を活用したサービスの増加に伴い、工場や家庭など電子機器や家電・自動車などからも様々な情報が収集・格納されています。これらの巨大化したデータは、企業にとって新しいサービスや価値を生み出す源泉となっています。このデータをクラウド上に格納し、活用することによってデジタルトランスフォーメーション(DX)に取り組む企業が急増しているわけです。今日では、産業のあらゆる分野でデータサイエンスが利活用されております。

米国の調査会社IDCによると、国際的なデジタルデータの量は飛躍的に増大しており、2011年(平成23年)
の約1.8ゼタバイト(1.8兆ギガバイト)から2020年(平成32年)には約40ゼタバイトに達すると予想されて
いる

データサイエンスがビジネスにもたらす変革と組織


本題であるDX推進にはビッグデータを取り扱うデータサイエンスが不可欠ですが、高度で複雑な手法が必要となるだけでなく、データサイエンティストや、冒頭で述べたトランスレータなどを組織的にうまくつかいこなさなければなりません。優秀なデータサイエンティストを確保したとしても組織や会社の風土が最適化されていないと、定着することは難しいでしょう。それでは、データサイエンスを実務で活用できるような組織とは、どのような組織なのかいくつかの観点からまとめてみました。

十分なデータ量と分析課題

データサイエンスを活用するためには、大量のデータを収集・保管している必要があります。つまり、分析するデータが十分に揃っていなければ、いかに高度な教育を受けたデータサイエンティストといえど能力を発揮するのは困難です。データマイニングや統計解析に長い年月をかけて取り組んだ上で、最新のデータサイエンスを活用することになります。

データに価値を置く文化

データサイエンティストが活躍する組織の土壌として、ビジネスに対する科学的なアプローチやデータドリブンな意思決定を推進するカルチャーが求められます。定量的な根拠やデータを重視する文化がないままに採用や育成などデータサイエンスの内製化をすすめても、離職などで人材が定着しません。

データサイエンスにより有益な知見を手に入れたとしても、情報に価値を見出さない組織では有効活用できないだけではなく、分析組織や体制を維持する費用が無駄になってしまいます。そうならないためには、現場の人間から企業のトップ層に至るまで、データに価値を置く組織文化を育む必要があります。

データサイエンス人材の育成

ビジネスの現場で統計的な問題解決の手法を実践するためには、データサイエンス人材が必要不可欠です。とはいえ統計学や数学に加え、情報系のプログラミングなどに精通した人材は不足しており、なかなか正社員として雇用できないのも事実です。そこで重要になってくるのが、社内での配置転換や人材育成です。情報システムやIT部門の担当者や分析業務に意欲のある人材を対象に、勉強会などを開催して育成に努めるのが肝心です。ただ、そういった人材が皆無である会社も多いのも事実です。

組織開発

今月のDXのテーマは「組織開発」になっています。上記の内容はまさに、データサイエンスを実際に導入しようとしても「組織開発」がベースとして実行されていないと失敗してしまうわけです。ただ、技術の面だけを見てビジネスが成り立つ時代の終焉がきているように思います。

データサイエンスを導入するポイント(参考情報として)


自社の置かれている状況と今後の新規事業の観点からすると、下記の内容は不要ではありますが、データサイエンスを導入しようとする企業の場合、どうういうことに留意しなければならないかという情報は、知っておいてもよいかと思い掲載します。(自社には適用外の内容です)

効率的なデータ収集と分析

データサイエンスを効果的に活用するために欠かせないのが、データの効率的な収集と分析です。社内の部署間の連携が悪い場合、なかなか必要とするデータが手に入らないことがあります。またこれは、機械学習や深層学習などのAIに関する実務でも同様です。データサイエンティストが効率的にデータの収集・分析ができるよう、社内の環境を整えておくのが大事です。

データ統合と規格の統一

データ活用の背景や目的により使用する単位やツールなど望ましい出力形式は異なります。最終的なアウトプットはデータを集計・加工して変更可能ですが、元となるデータが格納される際の形式は極力統一すべきです。そのため、共通のIDや規格を使用してデータの名寄せや統一をおこなう必要があります。個人情報など閲覧に制限を加える箇所はありますが、社内の様々な場所に分散するデータを紐づけて様々な切り口で分析できるように統合するのです。

開発チームや他部署メンバーとの連携

データサイエンティストが作成した機械学習モデルも、実際の課題に適用して初めて意味を持ちます。本番環境へのデプロイやシステム実装には開発者が活躍しますし、ビジネスでは事業部門のスタッフとも連携が必要です。そのため、異なる得意領域を持つメンバー同士が協力できるようチーム体制を整える必要があります。PMやマネージャーが橋渡し役となり、ビジネス部門や開発メンバーとデータサイエンティストがストレスなく連携できる環境を整えることが大切です。

環境構築や運用体制の整備

開発者と分析者が協調して効率よく仕事を行うためには、統一された環境の構築や、IT運用の手間の解消が欠かせません。そこで重要なのが開発環境や運用体制の整備です。人材の調達とあわせITタスク、プロセス、コンテナなどの管理を自動化するオーケストレーションツールの導入やMLOps(機械学習基盤)、CI/CDなどを実践することでモダンなIT運用の体制を整える必要があります。分析をスムーズに行えるようデータを整えるほかに、アプリケーション側でAPIを開発して接続したり、テスト環境と本番環境でOSSのバージョンを揃えておくなど様々な点で連携が必要になります。

意思決定層との連携

エンジニアやアナリストなど分析を担当する人材と部門長・経営層などビジネスオーナーとの十分な連携が、データサイエンス導入の鍵となります。意思決定のプロセスそのものや経営判断の裏付けとしてデータサイエンスにより導き出された示唆が利用されることで、よりスピーディーな意思決定や正確な判断が可能です。予測モデルや認識システムなどテクノロジーを事業部門で利用し業務効率化や売上向上につなげることもデータサイエンスに注力するという経営層の強い意思表示が必要です。

国内におけるデータサイエンス市場の現状


日本国内におけるデータサイエンス市場は、順調に伸びているのが現状です。金融や情報通信などIT投資が盛んな分野では堅調な需要がありますし、製造・エネルギー・農業などの分野でも効率化に取り組む企業が増えてきました。

デジタルマーケティングを推進する広告業界や消費者向けの小売、美容、ファッション、人材紹介、転職などのビジネス、旅行・宿泊、医療や介護の現場では患者や高齢者の行動をデータ化し、事故防止や仕事の簡略化につなげています。

また、タクシー業界ではデータをもとに、利用客の多いスポットを割り出して売上をアップさせています。このように様々な分野で、データサイエンスの活用の場が広がっているのです。

データサイエンスを推進する上での課題は人材不足


データ分析やビッグデータを活用する需要自体は広がりつつあるものの、企業内に散在するデータを統合したり、予測精度を向上しシステムとして組み込むなどデータサイエンスをさらに推進するためには乗り越えなければならない内製化の課題があります。

その課題とは、データ分析やAI実装などの実務経験を持つ人材の不足です。高度な統計処理の仕事を一人でこなせるようになるには、統計や分析、プログラミングや機械学習などの専門教育に加え、実務での経験が必要です。

未経験者やジュニアクラスの人材を育成できる指導者やトレーナー的なデータサイエンティストはまだまだ不足しており、今後の計画的育成が望まれます。

国内データ分析関連人材規模予測
国内データ分析人材規模 by 屋の経済研究所

まとめ

以上、あまり馴染みのないデータサイエンスというDX Componentの説明をして来ましたが、ひととおり調査していくつかの気がついて内容をまとめておきます。

発展途上の技術

データサイエンスの多くの記事をみていると、既に技術は相当進んでいるように見えますが、実際に応用し実用化出来ている企業は全体からみるとまだ僅少といえそうです。こんご、CPU/GPUのハードウェアが桁違いに進化してきたときに本当の真価を発揮することでしょう。AIと共に今後大きな発展がきたいされる技術分野です。

プラットフォームとして簡単に使えるか? どう活用するか?

プラットフォームについては、先月号にて詳述いたしましたが、データサイエンスについては、まだプラットフォームとして活用出来る段階にはないように思われます。従って、自社の場合には、まだデータサイエンスを利用して何かをするということは、いましばらく考えなくてもいいと思いますが、将来に向けて知見を高めることは重要です。

研究分野の総合力と実践力が試される


データサイエンスは、数多くの研究分野の集合体であるという側面を持っています。そのため技術や学術研究の動向には注意が必要です。精度高いモデルを作成するためのアルゴリズムや統計処理の手法は海外論文などにも目を通しながら確認する必要があるでしょう。データを保管したり加工するためのクラウドコンピューティングやツールなど技術要素についてもキャッチアップは欠かせません。また、実践にはPythonやRなどでコードを書いて実装することも大切です。そのような点から研究分野の総合力と実際の課題に適用し分析スキルを磨くなど実践力が試されるのが、今後のデータサイエンスであるとも言えるのです。