如何理解Google Analytics中的数据抽样!

在这篇文章中你将了解:

1、什么是被抽样数据和它与完整的数据集有什么不同2、什么是数据抽样和它是怎么计算的3、数据抽样存在什么问题?为什么它会损坏你的分析4、如何确定你的报告是否抽样5、用户查询(临时报告)和数据抽样的关系6、GA数据表(包含访问表和被处理表)7、单天和多天处理表8、报告查询与转化路径限制9、GA什么时候开始抽样10、如何修复数据抽样问题11、GAP与数据抽样

undefined
当你使用GA视图的时候,你是否注意到右上角有这样的一个提示,你可以知道GA数据是否被抽样以及抽样的严重程度。
在GA官方的文档中:

抽样数据是完整数据的一部分,并不等于完整数据抽样是指从整体中抽取一部分数据集,用于分析整体的情况

简单的说:抽样是广泛应用于统计分析很大数据集的一种有效方式。只要抽取的数据具有代表性,通过分析这个样本的数据集的结果与分析整体全部数据的结果基本及一致,但是如果抽取的数据并不能很好的代表整体,得出的结果可能与实际的大相径庭。
GA对数据的数据有个限额,这个限制只要出于计算资源和存储字段的考虑,当低于这个限额的时候,数据不抽样。
GA是选择抽样数据做分析还是抽取一分部做分析取决于用户的查询,当GA是抽取一部分数据集做分析时,这时的维度报告不能很好的代表整体的数据情况。抽取的数据比例越低,报道的准确度越低,也就是只有数据没有抽样的时候,报告才是最准确的。当你调整抽样的比例的时候,电子商务的转化,利润报告的数据可能会随着改变

1、抽样数据可能会严重影响你的分析报告
如果你遇到抽样问题,部分或所有的报告的维度包含有‘sessions’, ‘users’,’pageviews’, ‘bounce rate’, ‘conversion rate’, to ‘revenue’ ,一般会是抽样在10%~80%之间。

例如,GA报告中最近一个月的利润是在120万,但实际上却 只有95万。你可以通过比较其抽样的版本与采样的报告确定这种数据差异,然后计算各指标之间的差异百分比。确保在你做决策之前通过上述方法得到的数据在统计上具有意义。

2、你如何能确定是否你正在查看采样的 GA 报告?
如果你看的是非抽样报告,你将会看到这样一条信息在报告的顶部,“This report is based on …..(100% of sessions)”
undefined
只要你的报告只基于100%,这个报告就是没有抽样的。

如果你看的是抽样报告,你将会看到这样一条信息在报告的顶部“This report is based on …..less than 100% of sessions)”
undefined

例如,基于45%的sessions报告比基于4.58%的Sessions的报告有更少的抽样问题,当你看到一个抽样报告的时候,你可以调整抽样的比例
undefined
选择“响应更快,精度较低”,GA快速加载报告,意味着被抽到的数据集更小。这是为了加载速度牺牲数据的准确度的报告。
选择“响应较慢,精度更高”,GA计算更加准确,意味着需要更长的加载时间,这是为了准确度而是报告加载变慢。
我会推荐使用“慢反应,高精度”的设置,在一些GA账户中有些不同的抽样设置:
undefined
你可以通过调整按钮的位置来调整精度
? ? ? 注:即时你通过API出去数据也是有可能得到抽样数据的。

3、用户查询和数据抽样
数据抽样取决于用户查询,抽样比率可以通过查询后得到。每一个GA视图都包含一组非抽样的预处理数据,用于快速展现非抽样报告。用户可以通过报告的交互界面或通过API去查询得到GA的数据,查询的结果可能是非抽样的和已经GA已经聚合好的未包含抽样的数据,用户的查询可能是标准报告也可能是临时报告。

标准的查询是查询特定时间段内的一份报告或运行特定维度的一份报告。

任何用户可以完全满足已有的非抽样和预聚合数据的是标准查询。任何特设查询不能完全满足已有的非抽样和预聚合数据。

特定查询可能是:

1、标准报告中加高级细分2、标准报告中加二级维度3、自定义报告4、在自定义报告中应用二级维度或高级细分

如果特定查询是抽样的,你将会在右上角看到“This report is based on …..less than 100% of sessions)”:
undefined
如果特定查询满足现有的未抽样和预聚合数据时,GA不抽样。换句话说,GA并不总是抽样的,因为你可能在标准报告应用高级细分或二级维度或跑自定义报告。
当计算的session超过50W的时候,GA抽样的概率将会增加,GAP的是2500W。
但当计算的满足已有的非抽样和预聚合数据的时候,即使Session数量超过限额,也是不抽样的。
总而言之,GA并不总是抽样的,因为计算是基于Session的限额和是否满足已有的非抽样和预聚合数据的。而GA官方并没有说明那些是非抽样和预聚合数据,所以只能看右上角的提示。

GA数据表
GA数据报告是以表格的形式展现,表格中的数据是抽样或非抽样取决于用户的查询字段。每个数据表有行和列构成,行表示维度,列表示字段
undefined
每个维度都有该维度的数值。基数(第一行的汇总数)是该维度去重后的求和,并不是所有值的加总。通常会小于会等于所有书的直接加总。

例如:维度‘device category’ 有三个值: desktop, tablet and mobile. 所以这个维度的基数是3
undefined
一些维度像‘keyword’ 或‘page’ 有成千上百个唯一值,这些被称为高基数维度。包含高基数维度的报告都是抽样的,这类报告会包含‘(Others)’这样一行数据。
如果你的报告包含高基数的维度,你注意右上角会出现:
undefined

在数据抽样中,有两种类型的GA数据表格

1、访问表2、处理表(也被称为预聚合表)

非常抽样数据通常从访问表产生,访问表通常用于存储每个回话的原始数据
处理表通常用于存储常见需求报告的预聚合数据,处理表可以让常见需求报告更快加载和没有抽样。当用户的查询数据不存在于处理表时,GA用访客表去查询相关信息

单天处理表
单天处理表包含一天的所有数据,这些表是逐天处理,也被称为单天表
GA标准版一天能处理5W行的唯一数据,GAP能处理最高7.5W行,如果GAP用户使用自定义报告,单天处理表能高达20w行。当用户查询的记录超过上述数据的限额,GA就会将降低的维度归并到Others。GA仍然跟踪哪些被归并到Others的维度,并逐天处理,有些维度在今天可能被归并到Others,但第二天却没有归并到Others。

多天处理表
多天处理表包含多天的所有数据,这些表时处理多天数据,有多个单天表组成。
GA标准版一张多天表最多能处理10W行的唯一数据,GAP最高是15W,当用户查询的记录超过上述数据的限额,GA就会将降低的维度归并到Others。

报告查询限制
对于单天表和多天表多有一些限制:对于任何时间区间,GA最多可以方位100W行记录。当用户查询的记录超过上述数据的限额,GA就会将降低的维度归并到Others。

转化路径限制
对于单天表和多天表都有转化路径限制:对于任何时间区间,GA最多能返回20W条转化记录,当用户查询的记录超过上述数据的限额,GA就会将降低的维度归并到Others。

什么情况下出现数据抽样:

1 用户查询是临时查询时,即它不能完全满足现有的未抽样和预聚合数据。2 对于GA标准版,非多通道漏斗报告的数据抽样发生在属性级别。所以过滤器会影响的样本大小。3 对于GAP,非多通道漏斗报告的数据抽样发生在视图级别。所以过滤器不会影响样本大小。4 在多渠道报告的抽样发生在视图级别。查看过滤器不会影响样本大小。5 当用户查询数据限制为一天或多天处理表。6 当用户查询报告查询或转换路径限制。7 查看多通道漏斗报告是基于超过 100 万会话。

解决办法:

1、缩短时间区间2、不使用过滤视图3、不使用高级细分或二级维度4、不用自定义报告5、下载原始数据再计算6、使用GAP7、使用piwik等开源工具

GAP和数据抽样
如果你使用GAP,你可以通过下列不走获取非抽样报告:
1、打开你想要的非抽样数据报告
2、在Export中选择Umsampled Report
3、给文件命名和选择时间区间和频率
4、点击生成csv文件

总而言之,GA并不总是抽样的,因为计算是基于Session的限额和是否满足已有的非抽样和预聚合数据的。而GA官方并没有说明那些是非抽样和预聚合数据,所以只能看右上角的提示。

来源:https://www.optimizesmart.com


来源:GA小站

深入理解Google Analytics中的会话

GA如何定义一个会话?
在GA中,会话是一群在给定时间内用户记录的交互。可以是与网站的交互,将数据发给GA服务器,如PV,屏幕浏览,事件,交易等。一个用户可以产生一个或多个会话,所有的GA会话都会有过期时间,最长不超过4个小时。

网站的会话和GA的会话有什么不同?
网站的会话是在给定时间内一系列HTTP请求和和HTTP相应在浏览器和服务器之间交互,而GA中的会话是一群在给定时间内用户记录的交互。所以网站的会话和GA的会话是完全不同的东西,这对你了解两者间的差异很重要,比如当你跟你的开发谈论GA的会话的时候,他可能会疑惑。
对于开发,直接说会话就是指网站的会话,所以如果你提到的是GA的会话的时候,你需要告诉你的开发这两者间测差异。

GA的会话什么时候过期?

1、超会30分钟没有hits发送2、过了午夜3、从新的广告系列url进来

例1:如果一个用户第一次是通过自然搜索进来,15分钟之后通过付费搜索广告进来,这是将会产生新的会话,因为是从新的广告系列url进来的
例2:如果一个用户第一次是通过付费搜索广告进来,15分钟之后再次通过同样的搜索广告进来,如果开启了给Ad的自动标记功能,将会产生新的会话,因为是从新的广告系列url进来的。GCLID的值已经改变了,如果开启了AD的自动标记功能,每个GCLID都有唯一的值,该值的不同表示广告系列的不同。
?例3:如果一个用户第一次是通过付费搜索广告进来,15分钟之后再次通过同样的搜索广告进来,如果只是用普通标记而没有开启AD自动标记,就不会产生新的会话,应该没有从新的广告系列进来。
?例4:如果一个用户通过自然搜索进来,15分钟后通过直接访问回来,不会产生新的会话。
?例5:如果一个用户通过自然搜索进来,30分钟之后通过直接访问回来,就会产生新的会话,因为GA默认会话的过期时间是30分钟。
?例6:GA的会话再30分钟内不会过期,即使期间用户访问其他站点后返回。

如何更改会话的过期时间?
系统默认的会话过期时间是30分钟,你可以通过GA view的设置更改会话的过期时间,一个GA的会话过期时间可以是在1分钟到4个小时之间,如需更改,可以按照以下操作步骤:
1、点击Admin到GA view点击Sesssions Setings:
undefined
2、更改会话时间后点击apply:
undefined

如何强制GA会话开始和结束?
有时候你可能需要强制会话的开始或解释,因为访客一直没有交互,你可以通过会话控制配置参数去发送hits去实现。会话控制配置参数是用去控制会话的时长,它有两个值,开始和结束,开始是强制一个会话开启,结束时强制当前会话结束,如:

ga(‘send’, ‘pageview’, {‘sessionControl’: ‘start’}); // start a new GA sessionga(‘send’, ‘pageview’, {‘sessionControl’: ‘end’}); // end current GA session

来源:https://www.optimizesmart.com


来源:GA小站

Google Analytics在APP推广上的应用

下面是介绍GA去和区分APP推广渠道的,用的是网址构建器生成不同的广告组用于ADword推广,原理有点类似UTM,但由于是经过Google Play的,又有些特别:

Google Analytics在APP推广上的应用
原理如下:通过网址构建器生成不同的广告系列用于AD推广,用户点击跳转到google play下载安装,打开应用则Referral后面的数据通过传回google analytics,可以再APP嵌入另一套SDK,同时将是否成功注册传回AD,不过这里的成功是以用户打开某一特定页面作为准则,原则上Ga和AD的数值应该是一致的。
参数基本与UTM的一直,但这里参数后面用的是&还有关键字referrer,形式如下:

Google Analytics在APP推广上的应用

https://play.google.com/store/apps/details?id=com.ichdata&referrer=utm_source%3DQP76501%26utm_medium%3Dint%26utm_campaign%3Dweb_Newest

GA得到的结果如图:

Google Analytics在APP推广上的应用

另外我不会告诉你,我们为了防止竞争对手的分析,加了一层简单加密,用不同的数值代表具体的广告位。这里的new user是是first open才记录的,如果用户安装了但并未打开,是不会被Ga记录,但会被Google Play记录,所以会出现GA的记录数少于Google Play的情况的。

更多资料参考:https://developers.google.com/analytics/devguides/collection/android/v4/campaigns

国内的只能定位到应用市场,google play和 appstore能传递campaign参数,是因为两个应用市场都有一个传递和发送机制.所以国内应用市场只能通过内嵌ID的形式。


来源:GA小站

Leave a comment