开发者论坛 | 海睿思 轻量化数据中台生态引领者

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 80124|回复: 9

数据标签,大数据应用不可或缺的一部分

[复制链接]

1

主题

1

帖子

10

积分

新手上路

Rank: 1

积分
10
发表于 2020-10-21 14:10:02 | 显示全部楼层 |阅读模式
本帖最后由 damngood 于 2020-10-21 14:14 编辑

一、什么是标签
标签是一种用来描述业务实体特征的数据形式。通过标签可以有效扩充业务实体的分析角度,且通过对不同标签的简单操作,便可进行数据筛选和分析。

比如对用户进行刻画时,可以从“性别”、“年龄”、“地区”、“兴趣爱好”、“产品偏好”等角度进行描述。

分析角度片面会导致很多问题,例如:某大学年度调查数据显示,本校计算机系女生中,50%都嫁给了本校男老师。该消息一经公布,就引起了校内外的巨大反响,人们对师生恋、校园恋爱议论纷纷。结果是该大学计算机系只有两名女生,其中一名女生和计算机系老师相恋结婚,由此得来的50%是真实数据。所以尽可能多的扩展分析角度,能够更全面、更准确地对分析对象进行刻画。

二、如何管理标签
(1)标签分类
标签分类的主要目的是方便用户查找标签。对标签分类的方式有很多,大致可以分为几大类:按生成方式分类、按业务主题分类、按技术特性分类、按使用情况分类。

1. 按生成方式分类
从生成方式上来看,标签可分为事实标签、模型标签以及策略标签。

事实标签是基于用户实际信息的记录,经过简单的加工而成,这种标签反应的是客观事实;

模型标签则是通过用户分析模型处理后,二次加工生成的用户洞察性标签;
策略标签是根据具体的业务分析及策略规划制定的群组性标签,供执行人员直接进行活动分组及行为洞察。

2. 按业务主题分类
主题是根据公司核心业务划分的,和业务密切相关。按业务主题划分标签,能够更有针对性的服务于业务分析使用。

3. 按技术特性分类
按标签的更新时效分类:可以分为批量更新标签和实时更新标签;
按标签的访问方式分类:可以分为批量访问和实时访问;
按标签的字段类型分类:可以分为数值类、日期类、枚举类、文本类等等。

4. 按使用情况分类
主要是为了方便用户使用标签,可分为热门标签、普通标签、冷门标签

考虑到同一标签有可能同时隶属于不同的分类,可以从两个层面对标签进行管理,一是物理层面的管理,二是逻辑层面的管理。
(2)标签生成
标签的产生大致可分类手工产出和自动产出两类。手工产出就是通过手写SQL或建模依次产出每个标签。自动产出是一种更高效的方式,通过逻辑配置或者数据挖掘一次性产生多个标签。

要获得能给业务带来实际帮助的标签体系,我们需要在标签体系中引入“假设-测试-验证-定义”的迭代过程,通过不断的迭代挖掘与试验,才会找到可以准确刻画用户的标签体系,找到更多业务增长点。

(3)标签更新
除了少数专用型标签可能仅使用一次之外,其他绝大部分标签上线后必须持续进行更新,否则便成了僵尸标签。

按照标签更新方式,标签大致可以分为批量更新标签和实时更新标签两类。

对于实时更新标签,一旦产生标签的数据发生了变化,就需立即更新该标签。比如最后一次登录APP的时间这个实时标签,只要用户登录了APP,就把标签值更新为此次登录时间。

对于批量更新标签,不管是每天、每周还是每月更新,都是通过跑批方式进行。这里需要注意的有两点,一是为了更新方便,尽量把更新周期相同的标签放在同一个表中。二是标签更新会有先后顺序,对于特别强调逻辑一致性的业务来说,如果该业务相关的部分标签已经更新了,但另一部分还未更新,这时产出的数据结果是不准确。

回复

使用道具 举报

1

主题

3

帖子

14

积分

新手上路

Rank: 1

积分
14
发表于 2020-10-21 16:32:48 | 显示全部楼层
赞,很好的文章,谢谢博主
回复

使用道具 举报

0

主题

6

帖子

14

积分

新手上路

Rank: 1

积分
14
发表于 2020-10-22 10:50:51 | 显示全部楼层
感谢楼主分享,对我帮助很大
回复

使用道具 举报

0

主题

2

帖子

6

积分

新手上路

Rank: 1

积分
6
发表于 2020-10-22 16:25:10 | 显示全部楼层
通俗易懂
回复

使用道具 举报

1

主题

9

帖子

23

积分

新手上路

Rank: 1

积分
23
发表于 2020-10-23 09:25:14 | 显示全部楼层
感谢分享
回复

使用道具 举报

1

主题

10

帖子

25

积分

新手上路

Rank: 1

积分
25
发表于 2020-10-24 10:45:13 | 显示全部楼层
赞赞赞赞赞赞赞赞赞赞赞赞赞赞赞赞赞赞赞赞
回复

使用道具 举报

1

主题

10

帖子

23

积分

新手上路

Rank: 1

积分
23
发表于 2020-10-27 16:38:20 | 显示全部楼层
顶顶顶顶顶顶顶顶顶顶顶顶顶顶
回复

使用道具 举报

0

主题

11

帖子

24

积分

新手上路

Rank: 1

积分
24
发表于 2020-10-28 10:37:39 | 显示全部楼层
nice文章不错
回复

使用道具 举报

0

主题

9

帖子

20

积分

新手上路

Rank: 1

积分
20
发表于 2020-10-29 10:20:31 | 显示全部楼层
回复

使用道具 举报

0

主题

21

帖子

48

积分

新手上路

Rank: 1

积分
48
发表于 2020-10-30 14:23:52 | 显示全部楼层
感谢分享
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|开发者论坛 | 海睿思 轻量化数据中台生态引领者 ( 苏ICP备13008384号-7 )

GMT+8, 2022-7-4 22:22 , Processed in 0.052042 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表