Sign in

Сэмплирование в Google Analytics

В двух словах:

  1. Негативных последствий сэмплирования можно избежать:
    • уменьшив временной диапазон.
    • увеличив точность выборки.
    • сегментируя данные с помощью представлений.
    • с помощью GA Query Explorer.
  2. Язык R — язык программирования, позволяющий писать собственные скрипты для выгрузки данных из Google Analytics.

Если посещаемость сайта перевалила за 250 000 хитов в месяц — сэмплирования не избежать. Сэмплированные отчеты — это довольно неприятная вещь для любого аналитика, так как они не дают возможности полноценно проанализировать всю ситуацию, а лишь приоткрывают завесу. Но решение этой проблемы существует, и не одно.

Google Analytics Premium

Эта форма подписки на GA была введена гуглом специально для крупных клиентов, чья посещаемость перевалила за миллиард в месяц. По сути тут все тот же набор функций за исключением одного нововведения — при генерации отчета можно выбрать опцию “Отчет без выборки”. В итоге отчет выдается в виде сырых данных, которые можно выгрузить и обрабатывать в Excel. сэмплирование вырезает часть всех данных, предоставляя в отчете неполную информацию

Все бы ничего, но стоимость подписки — $150 000 в год.

Уменьшение диапазона по времени

Иногда сэмплирование возникает при просмотре отчета посещаемости за год. Если уменьшить временной промежуток до полугода или до месяца, сэмплирование может не включиться.

Но перебирать каждый месяц, создавая годовой отчет — занятие не самое приятное.

образование одного отчета из трех отчетов за разные промежутки времени

Увеличение точности выборки

При создании отчета в настройках можно увеличить точность до максимума. Во многих случаях это не избавит от сэмплирования, но точности прибавит.

К примеру, если до увеличения точности сэмплирование было до 10%, то после его включения порог увеличится в два раза.

Сегментация данных с помощью представлений

Можно создать несколько представлений с оптимально минимальным количеством фильтров в каждом из них, и уже по ним генерировать отчеты. Если на проекте есть долгосрочная перспектива сегментации данных, то это решение может оказаться эффективным.

Google Analytics Query Explorer

Этот инструмент работает с Core Reporting API. Относительно несложный и бесплатный.

  • Преимущества
  • До 7 размеренностей можно использовать для выгрузки информации
  • Можно стягивать данные из нескольких профилей сразу
  • После выгрузки данные можно объединить с другими данными, например из CRM-системы
  • Недостатки
  • Не более 10 метрик в отчете
  • Не более 7 параметров при генерации отчета
  • Не более 10000 строк в день в результате запроса
  • Не более 10 параллельных запросов для профиля
  • Не более 10 запросов в секунду с одного IP

Отличительная особенность этого инструмента — возможность строить отчеты, которые включают в себя более 10 000 строк. Для этого нужно правильно выстроить параметры запросов, их всего 4 — max-results, start-index, start-date, end-date.

В итоге очередь запросов для выгрузки, к примеру, 30 000 строк должна быть построена примерно так:

Запросы 1 2 3
max-results 10 000 10 000 10 000
start-index 1 10 001 20 001
start-date 1.01.2015 1.01.2015 1.01.2015
end-date 31.12.2015 31.12.2015 31.12.2015

Также стоит отметить, что в результате такой выгрузки все запросы будут склеены в один .csv файл, что в некоторой степени упрощает их анализ в сравнении с поинтервальной выгрузкой данных напрямую в GA.

Язык R и его дополнение RGA

Пожалуй, наиболее мощный среди бесплатных инструментов. Он поддерживает Windows и Mac OS, а также с некоторых пор довольно стабильно работает под Linux. Для работы с ним нужен сам язык R. Для работы с языком понадобятся Rtools, а также Rstudio, в некоторой степени упрощающая работу с языком.

Преимущество данного решения в его гибкости. Возможность настройки скриптов делает персональную настройку реальной. К тому же он не так уж и сложен в использовании.

Кирилл Рекецкий

Свяжитесь со мной

kirill@onthe.io

Аналитика для медиа

.io 2017 Privacy policy Terms of use Contacts Work