PINTO!株式会社PLAN-Bの情報発信メディア

2018.10.02

五十嵐 和希

MARKETING

アナリティクスのサンプリング|GoogleAnalyticsはどうやってデータを取っているの?

目次
    1. Googleアナリティクスはサンプリングで数値を取得している
      1. サンプリングとは?
      2. サンプリングの対象となるケース
    2. Googleは、なぜサンプリングを行うのか?
    3. 精度優先か速度優先かを選ぶことができる
    4. 過去のGoogleアナリティクスと今のGoogleアナリティクスの対応の差について
    5. より正しいデータを見たい時はどうしたらいいか?
    6. まとめ:分析の基本なのでしっかり理解しておこう

Googleアナリティクスを入れているサイトでは、ツールが毎日自動的に解析データを集めてくれています。

360もありますが、アナリティクスは基本は無料で利用できるツールなので、誰もが利用していますよね。そのアナリティクスの数値の取り方について詳しく知っている人、実は少ないのではないでしょうか?

今回は、アナリティクスの数値の取り方についてご紹介します。


Googleアナリティクスはサンプリングで数値を取得している

Googleアナリティクスは、表示するデータをサンプリングで表示する場合があります。つまり、全てが正確なデータではないということです。

サンプリングとは?

サンプリングとは、調査を行いたい母集団から,調査の対象となる部分を抜き出すことを意味します。

サンプリング

簡単にいうと、常に正しいデータだけを表示してしまうと処理が重くなってしまうため、ある程度の母数データから必要な値をサンプリングで表示しているという状態です。この処理のおかげでたくさんのデータが集まっているサイトでも、アナリティクスの表示が速くなります。

サンプリングの対象となるケース

以下の条件の対象になるとサンプリングの値が表示されるようになります。(アドホックデータクエリでサンプリングを行うかどうかは、次のしきい値で判断されます。)

  • 標準のアナリティクス:選択した期間でプロパティ単位のセッション数が 50万件
  • アナリティクス 360:選択した期間でビュー単位のセッション数が1億件

今後変わる可能性はありますが、現状は上記がひとつの目安となっています。


Googleは、なぜサンプリングを行うのか?

では、なぜGoogleがここまでサンプリングを行うのでしょうか。それは「より速くユーザーに解析データを見せたいから」という理由です。

すでに収集できているデータを表示するだけであればそこまで時間はかかりません。では、どこを高速化しているかというと「新しく定義されたデータ」を表示するときにサンプリングを利用しています。なぜかというと、今まで定義されていなかったデータ母数は、すぐに処理して数値を出すことができないからです。

サンプリングを行う理由

人間でも、Aという解析してある状態で『Aのデータ見せて』と言われればすぐに出せますが、『Bのデータ見せて』と言われるとすぐには出せないと思います。しっかり解析してからBのデータを出す必要がありますよね。そこで、GoogleはこのBのデータをできる限り素早く、正確に表示させるため、サンプリングを利用しているのです。

精度ももちろん大切ですが、ツールを常に使ってもらうためにはスピードも大切な指標になるため、このような仕様になっています。


精度優先か速度優先かを選ぶことができる

ユーザーサマリー

現在のGoogleアナリティクスでは、「ユーザーサマリー」の右の緑のチェックマークを押すことで精度優先か速度優先かを選ぶことが可能になります。

  • 精度優先::サンプル数を最大にして、完全なデータセットのサンプルとして最も精度が高いデータを表示します。
  • 速度優先::サンプル数を減らし、データ表示を高速化します。

上記を条件に表示されますので、求めるデータごとに設定を変更すると良いでしょう。基本的にはより正しいデータで分析するべきですので、精度優先で問題ありません。


過去のGoogleアナリティクスと今のGoogleアナリティクスの対応の差について

アナリティクスでは新しいレポートが定期的に追加され、指標の計算方法に変更が加えられることがあります。レポートの対象期間に、新しいレポートが追加される前、または指標の計算方法が変更される前の期間が含まれる場合、アナリティクスはアドホッククエリを発行してデータをサンプリングすることがあります。

「ユーザー数」指標と「アクティブ ユーザー」指標を含むレポートに 2016年9月以前のデータが含まれている場合は、データのサンプリングが行われます。

引用:アナリティクスヘルプ|データのサンプリングについて

『「ユーザー数」指標と「アクティブ ユーザー」指標を含むレポートに2016年9月以前のデータが含まれている場合は、データのサンプリングが行われます。』がひとつの差ですが 、2016年9月以前と今ではサンプリングが行われるかどうかが違います。

過去のデータから遡って数値を分析する場合には、注意するようにしましょう。


より正しいデータを見たい時はどうしたらいいか?

より正しいデータを見るためにはどうしたらいいのでしょうか?対策方法は2つあります。

より正しいデータを見るためには

  • 標準のアナリティクス: 選択した期間でプロパティ単位のセッション数が50万件に達しないように期間を絞る
  • アナリティクス360を利用する

アナリティクス360について知らない人のために補足で説明すると、360は標準のGoogleアナリティクスの各種機能とレポートに加え、非サンプリングレポート、BigQuery Export、データドリブン アトリビューションといった高度なツールまで入っている解析ツールです。ただ、使用量が月額100万円以上と高額なため、大規模なサイトでないと導入は難しいかと思います。

小規模サイトの場合は、対象に引っかからないように数値の取得期間を短くしてサンプリング対象から外すという方法がおすすめです。


まとめ:分析の基本なのでしっかり理解しておこう

サンプリング値について理解しておくことは分析の上で必須です。もしこの記事で初めて知ったという人はGoogleの公式ヘルプページを読み込んだり、サンプリングという考え方について復習してみてください。

これから新しい知見を手に入れて、読者の皆様がより正しくデータを扱えるようになることを期待しております。