宝田网

首页 » 科技 » 正文 »

有效数据治理的6大原则

2019-12-01 16:10:38 热度296

如果您经常担心数据的准确性,并且花费大部分时间处理数据,而不是思考和分析业务,那么您需要很好地管理数据。

我不知道你是否有这种感觉。看完数据后,你看起来很困惑。你不知道表格和字段是什么意思。看看其他同事写的sql。sql语句有数百行,并且各种表是相关的。然后你问你的一个同事,他说,“别客气。不允许这些数据。我差点被数据折磨死!”这时,你想死吗?无泪哭泣...

这背后的原因是负责人只是因为问题。没有人敢保证数据的准确性。没有总体规划。一步错了,另一步错了。数据最终变得越来越重。查询变得越来越复杂。没有人敢保证数据的准确性。同时,修理的难度也大大增加了。

要想很好地控制数据,需要遵循以下六个原则,合理地制定数据中间表模型,控制从埋点收集到应用的整个过程。

原则1:关键概念的多党共识

如果关键概念涉及多方,例如交易客户的定义,则有必要确保公司内部和与客户相关的所有业务人员都理解相同的概念。

你可以说交易客户不容易理解,即购买我公司产品并签订合同的客户是交易客户,但实际情况远非如此。作者在处理该板块的业务时,询问了不同的业务人员,得到了不同的结果,造成了数据索引统计的模糊性,甚至数据不准确。

原则2:当某一类型的值频繁变化时,公共字段冗余值需要是冗余的

作者深受伤害,每个月底前需要找到开发人员,业务人员再来数据,例如:

查询原始指标:来源类型为甲、乙的任务产生的金币数量为消耗指标,sql对此指标进行了类型筛选。总有一天,企业经营者会启动一项新任务。丙类任务将贡献金币和自来水,但开发没有通知数据人员,导致原始关键指标值出现错误。

处理过数据的学生都知道某个指标的实现可能与其他几个关键指标有关,因此该指标的异常调查需要逐一检查哪个相关指标出现故障,查找原因的时间可能是2-3天。但是,如果开发人员事先有多余的公共字段来表示这种类型的消费指标,那么无论业务人员上线多少种消费类型的后续任务都不会影响原始指标。

原则3:每个实体都有一个唯一不变的标识,最好没有实际意义。

一个是实体的唯一性,另一个是表关联或更新不受业务影响。

原则4:对于涉及协作的数据,应该从修改源中发现问题,以确保下次获得正确的数据。

协作数据可以说是一个系列的过程。源数据将逐层影响底层数据。不要为了暂时方便而只修改当前发现问题的地方。从修改源代码开始,以方便他人。

原则5:写一份操作清单。手术前请三思。

数据之间有相关性。数据之间的相关性应清晰显示,注意事项应清晰标注。操作前逐一检查。验证小数据量无误后,将执行大数据量。

原则6:系统工程方法管理数据,尽可能多地使用系统,监控数据错误并及时修复。

使用系统循环图中的数据绘制相关方,观察数据错误发生在系统的哪个环节,以及它如何影响后续环节,以避免恶性循环的发生。

产品的存在是为了解决某些用户群体的需求和痛苦,并在此基础上获利。数据分析的存在还有助于挖掘和发现潜在用户的需求,以及优化和操作。

然而,数据的准确性和数据检索的效率取决于底层的数据收集和中间层数据中间表的构造。

有关底部数据采集方法的详细信息,请参考产品经理的正确姿态,以提高对开发埋葬点的需求。

用户的需求隐藏在用户的行为中,数据中间表是从聚集用户行为的角度构建的,以方便数据查询和分析。

用户行为分析模型

就用户观看短视频的行为而言

构建包含完整用户行为的中间数据表

构建的业务指标体系的高效计算和快速有序的呈现依赖于数据仓库中中间表的构建。如果中间表设计不合理,会导致满足基本业务分析需求时一步无法计算,逻辑关联会导致实时计算等待时间过长,从而增加数据分析的等待成本和业务人员查询的成本。

因此,数据中间表应该包含用户的完整行为信息和动态属性信息,并且为了描述用户的完整行为,需要根据用户行为模型记录上述信息,但是实际情况是我们记录的表数据是分开的。

例如,观看视频只会记录与视频相关的信息,以及用户的信息将如何以及在哪里被划分到其他表中,从而增加了表关联的复杂性,并且逻辑复杂性不利于分析。因此,我们需要构建一个用户行为的中间表,其中包含上述五个方面的详细信息。

同时,通过事件名称,某种隐藏点行为数据可能是多余的。例如,与财务相关的隐藏点可以作为值传递给事件名称,因此在检查与财务相关的隐藏点数据时,只能检查此中间表。

除了用户行为类的中间表之外,还有一个存储用户基本信息的表,因为除了与用户行为相关的动态信息之外,还有特定于用户的静态信息,例如年龄、性别、注册时间、注册地点等。

数据中间表中的底层数据来自基本埋点数据。基础埋点数据的准确性是基础的基础。然而,隐藏点数据的收集通常涉及产品侧、数据侧、业务侧和技术侧。如果四方合作不好,数据的准确性将受到影响。当需要数据时,将会发现数据收集错误,并且只能等待下一个版本的修订。效率低,时间延迟。

因此,有必要整理出一套隐点流程规范,以提高整个协调流程业务支持的效率、数据准确性和及时性。

如果有数据产品角色,第二部分主要是数据产品的责任,数据分析师应该与数据产品密切合作,因为最终需要分析数据的是数据分析师。

我认为在管理数据之后,至少可以节省50%的数据修改时间,并且可以在业务分析上花费更多的精力。同时,数据是准确的,可以正确地指导业务决策。

另外,降低了sql的复杂性,产品操作等业务人员可以通过简单的sql查询要查看的索引。常用指标包括:次数、人数、人均次数、总量等数字指标,可与数据中间表中构建的各个维度相结合,实现多维交叉分析。

最后,给出一个sql实现的例子:

从表名中选择ymd、cc、count(*)、count(不同的uid ),其中ymd在“20190701”和“20190712”之间,event _ type =“click task”组按ymd排列,cc顺序按ymd desc排列;

作者:北极星,战略数据分析师,智湖专栏:数据分析方法和实践,致力于通过数据分析进行产品优化和精细操作。

这篇文章最初是由@北极星发表的。每个人都是产品经理。未经允许禁止复制。

主题地图来自unsplash,基于cc0协议。

北京快乐8购买 极速赛车购买 pk拾赛车

返回顶部