PINTO!株式会社PLAN-Bの情報発信メディア

2017.11.17

箱根 祥雅

DMP/AI

近年、話題の「ビッグデータ」|企業の活用事例と分析手法について

目次
    1. ビッグデータ活用の事例
      1. 本田技研工業
      2. スシロー
      3. サンタクルーズ市警
      4. MLB(メジャーリーグベースボール)
    2. ビッグデータ分析
      1. データ収集の種類
      2. データレイク
      3. データマート
    3. まとめ:ビッグデータの今後

2010年ごろから耳にし始め、2013年-2014年頃にバズワード化したのがビッグデータです。

最近では世の中に浸透して、ビッグデータの活用方法が色々と世の中に出ていますが、ビッグデータとはなんなのか?どのようなデータをビッグデータと呼ぶのか、今一度整理してみたいと思います。

ビッグデータとは大量のデータという意味だけではなく、それ以外の要素も含んでいると個人的には感じております。まず、一般的なビッグデータの特性を3つのVで表してみます。

  • Volume(データ量)
    量の規模(数十テラバイト以上の規模)
  • Variety(データ種類)
    種類の多様さ(テキスト、画像、音声、Iotなどのセンサーデータ、位置 etc)
  • Velocity(データ発生頻度)
    要件が異なる(リアルタイム、ストリーム etc)

1年間ほど徐々に増えていくデータを見守ってきた感覚から、3つのVに加えてビッグデータとは子供のおもちゃ箱のようなデータで、以下のような特徴もあると個人的に思います。

  • 散らかっていて、整理されていない
  • 様々な物が詰め込まれている
  • 探せばもしかしたら価値のあるデータが見つかるかもしれない

ビッグデータ活用の事例

ビッグデータを活用してできることは様々です。以下にいくつか例をあげました。

ビッグデータ活用例


本田技研工業

会員車両から送信される走行データを分析して渋滞を回避するルート案内を提供しています。毎月送信される走行データは毎月1億キロにのぼるようです。


スシロー

回転すしのスシローではお皿につけたICタグによる鮮度管理とタッチパネルを用いた人数管理(大人・子供)によってリアルタイムでの需要予測を行っているようです。


サンタクルーズ市警

米カリフォルニア州サンタクルーズ市では犯罪が発生する場所や時間帯を予測し、犯罪を防ぐ試みを行っています。分析するデータとしては犯罪発生率、前科者の有無、街灯の有無などになります。

結果としては17%犯罪が減少しているようです。マイノリティ・リポートのような未来に近づいている気がします。


MLB(メジャーリーグベースボール)

メジャーリーグベースボール(以下MLB)では全てのプレイのデータをすばやく取り込みリアルタイムに分析し提供しています。

上で紹介しただけでも、交通・飲食・公共・スポーツなど様々な分野で利用されています。その他にも通信・金融・流通・運輸・小売・製造・医療・農業などでも利用されています。


ビッグデータ分析

ビッグデータの分析手法には色々ありますが、Hadoopが良く利用されています、実際の分析にはHadoop上で動作するHiveなどを利用して分析を行います。HiveはSQLを使用することができるので、分析がかなりカジュアルになります。

その他にもHadoop上で動作するPrestoなどもあります。Prestoはメモリ上にデータを展開するので、Hiveに比べて高速にデータを処理することが可能です。以下に分析の流れと種類をまとめました。


データ収集の種類

データ収集の種類

大別してデータ収集はバルク型ストリーミング型に分けられます。

従来はバルク型の方法が用いられてきましたが、最近ではモバイルアプリの増加やIotなどから送信されるセンサーデータの増加などから、ビッグデータの世界ではストリーミング型の手法が多く用いられています。

ストリーミング型で送信されたデータはリアルタイムに処理します。これをストリーム処理と呼びます。また、バルク型で送信されたデータを処理することをバッチ処理と呼びます。それぞれの処理には以下のような特徴があります。

ストリーム処理はリアルタイムに処理を行うため、中長期的なデータの処理には向きません。リアルタイムに集められたデータを一定の間隔で処理します。

一方で、例えば1日分の処理をまとめて行う場合などはバッチ処理を用います。これをクエリエンジンに少し乱暴に当てはめると、リアルタイムに処理する場合のクエリエンジンにはPrestoを用いて、1日分のデータを処理する場合にはHiveをクエリエンジンに用います。

最近はHive、Presto以外にも選択肢はたくさんあります、AWSなどを使っている場合はKinesis Streamsとkinesis Analytics などを組み合わせたり、EMRを用いた分析手法も考えられます。


データレイク

データレイクとはデータを貯めておく場所の事です。個人的にはデータをほぼ無尽蔵に貯めておけて、データを取り出す仕組みがある場所であればなんでもよいかなと思います。AWSサービスでいえば、S3が一番用途に適しているかと思います。

データ形式に関してもCSV、JSONなどがありますが、形式がそろっていれば良いかと思います。1つだけルールがあるとすれば、生データが保存されているということです。


データマート

データレイクに対してデータマートは加工されたデータの保存場所です。一般的にはMysqlやPostgreSQLなどのRDBMSが思いつきますが昨今はもっと選択肢があります。

データマートは主にダッシュボードや、BIツールなどから参照される事を想定しています。またデータマートに対しても分析を行う事もあり、分析手法としてはSQLが多く用いられます。

ビッグデータの分析にはパターンのようなものが存在し、すべてが当てはまるわけではありませんが、パターンに当てはめて考えることで効率よくビッグデータを処理できます。


まとめ:ビッグデータの今後

  1. 機械学習の活用
  2. 深層学習の活用
  3. AI
  4. Iot

上記のようなワードがビッグデータを取り巻く今後かなと思います。今後は様々な形でビッグデータ分析がもっとカジュアルになり、データサイエンティストだけの物ではなくなって来るかと思います。

一方でデータ量は増加し、データ種類は複雑化することが予想され、さらにリアルタイム化とスピードが求められるでしょう。

ビジネス分野でもAIが取って代わる分野も今後出てくるかと思います。ビッグデータに関する見解は様々ではありますが、個人的には昔映画で見た世の中に近づいていることにすごくワクワクしています。