基于大数据的用户标签体系建设思路和实践

在大数据时代,数据在呈现出海量化、多样化和价值化变化的同时,也改变了传统 IT 行业的市场竞争环境、营销策略和服务模式。如何在 ZB 级的海量数据中获取并筛选有价值的信息,是对 IT 企业的一大挑战,通过构建客户标签,支撑精准营销服务,是应对上述挑战的有效解决方案,但是怎么设计一个完善的用户标签体系?怎么打标签?打哪些标签?谁来打?怎么使用用户标签创建商业价值?这些都是产品设计层面需要解决的问题。

在本场 Chat 中,会讲到如下内容:

  • 标签系统的结构
  • 标签的类型
  • 标签的定义
  • 标签建设的技术架构
  • 应用场景

在大数据时代,数据在呈现出海量化、多样化和价值化变化的同时,也改变了传统 IT 行业的市场竞争环境、营销策略和服务模式。如何在 ZB 级的海量数据中获取并筛选有价值的信息,是对 IT 企业的一大挑战,通过构建客户标签,支撑精准营销服务,是应对上述挑战的有效解决方案,但是怎么设计一个完善的用户标签体系?怎么打标签?打哪些标签?谁来打?怎么使用用户标签创建商业价值?这些都是产品设计层面需要解决的问题。

掌上医讯一直以来都致力于打造医生的今日头条和智能化的学习平台,通过大数据技术实现医生学习的智能化和个性化,而要构建这样一个学习平台,最基础的就是要建立用户的标签体系,经过长时间的学习、思考、借鉴和实践,现在已经有了自己的标签构建思路,并且也已经提取出了符合自身业务的标签。我们十分重视用户行为日志的收集,现在已经有了亿万级别的日志数据,正在搭建数据处理和标签计算平台,以下是我们整理的建设思想。

标签系统的结构

标签系统可以分为三个部分:数据加工层,数据服务层和数据应用层。每个层面向的用户对象不一样,处理事务有所不同。层级越往下,与业务的耦合度就越小。层级越往上,业务关联性就越强。

标签体系的分层结构数据加工层数据加工层收集、清洗和提取数据。掌上医讯有诸多的学习模块,同时又有网站,APP,小程序等多个产品形式,每个产品模块和产品端都会产生大量的业务数据和行为数据,这些数据极为相似又各不相同,为了搭建完善的用户标签体系,需要尽可能汇总最大范围的数据。收集了所有数据之后,需要经过清洗、去重、去无效、去异常等等。

数据业务层数据加工层为业务层提供最基础的数据能力,提供数据原材料。业务层属于公共资源层,并不归属某个产品或业务线。它主要用来维护整个标签体系,集中在一个地方来进行管理。在这一层,运营人员和产品能够参与进来,提出业务要求:将原材料进行切割。主要完成以下核心任务:

1、定义业务方需要的标签。2、创建标签实例。3、执行业务标签实例,提供相应数据。

数据应用层应用层的任务是赋予产品和运营人员标签的工具能力,聚合业务数据,构建具体的数据应用场景。

标签的类型

从数据提取维度来看,标签可分为:事实标签、模型标签和预测标签。

事实标签从生产系统获取数据,定性或定量描述用户的自然属性、产品属性、消费属性、资源属性等,以及根据工作人员经验积累的业务规则进行筛选、分析生产的标签,如是否活跃用户、是否是考生等。

模型标签对用户属性及行为等属性的抽象和聚类,通过剖析用户的基础数据为用户贴上相应的总结概括性标签及指数,标签代表用户的兴趣、偏好、需求等,指数代表用户的兴趣程度、需求程度、购买概率等。

预测标签基于用户的属性、行为、信令、位置和特征,挖掘用户潜在需求,针对这些潜在需求配合营销策略、规则进行打标,实现营销适时、适机、适景推送给用户。

从数据的时效性来看,标签可分为:静态属性标签和动态属性标签。

静态属性标签长期甚至永远都不会发生改变。比如性别,出生日期,这些数据都是既定的事实,几乎不会改变。

动态属性标签存在有效期,需要定期地更新,保证标签的有效性。比如用户的购买力,用户的活跃情况。

标签的定义

给用户打标签,建立用户画像,最终都是为了去应用,所以我们要站在应用场景上去定义用户的标签体系,每个标签都有最终的用途。比如我们做考试培训服务,我们需要建立“是否考生”的标签。另外,不同的行业他们的用户特征也是有显著区别的,比如医生用户相比普通用户来说,就多了像“科室”,“职称”,“所在医院等级”等特殊含义的标签。

而标签是有层级关系的,既是为了管理,更好的理解,又是为了控制粗细力度,方便最终的应用。标签深度一般控制在四级比较合适,到了第四级就是具体的标签实例。我们根据公司的业务首先划分了人口属性、行为属性、用户分类和商业属性四个大的分类,下面又分了上网习惯、学习惯、人群属性、消费能力、消费习惯等分类,最末级精确到用户的活跃等级、阅读来源、考试偏好等具体的标签。

针对掌上医讯医生标签的主要维度

标签的维护

每个标签都不会凭空产生的,也不会一成不变,更不会凭空消失。标签的维护需要生成规则,需要定义权重,需要更新策略。

生成规则如第一部分所说,标签分为事实标签,模型标签和预测标签三大类,对于这三类的标签,生成规则的难度和复杂性也是逐级递增的。事实标签只需要考虑从什么地方提取即可,它即包含明确的标签定义,又包含无法穷举的标签集,比如关注的病种;而模型标签需要进行数据的关联和逻辑关系的设计,通过一定的模型对数据进行计算得来;而预测标签相对就非常的复杂,无法从原始数据提取标签,标签的生成准确度就太依赖我们大数据分析和人工智能技术的应用。

为每个标签建立的生成规则说明定义权重一个标签会在多个场景下出现,比如一个疾病标签,它极可能在浏览过程中生成,也有可能在搜索场景下产生,但是对于这两个场景所对应的同一个标签,他们的权重是不同的。浏览相比搜索,权重要小得多,因为搜索的主动需求更大。

更新策略上文我们从数据的时效性上对标签分为静态属性标签和动态属性标签。对于静态属性标签的处理相对比较简单,就不停的累加即可。但是对于动态属性标签,需要对过期标签进行降权甚至删除处理,比如医生考试前和考试后,会影响“是否考生”这个标签的,这就需要制定更新策略。

标签建设的技术架构

标签体系的建设涉及很多环节,数据量也十分巨大,需要有一个健壮且高效的技术架构来支持数据的存储及计算,掌上医讯采用了 sql 数据库和 no-sql 数据库来满足结构化数据和非结构化数据的存储,使用 hadoop 的分布式存储技术及 hive 和 hbase 组件作为数据仓库,使用 MapReduce 和 spark 分布式计算来提高计算速度,使用 kylin 进行多维分析,通过 BI 工具和接口对外提供应用,使用 sqoop 和 kettle 进行数据的抽取及流程的调用。

标签系统的大数据平台

更多的应用场景

用户标签建立已经基本应用在掌上医讯的内容智能推荐的学习场景中,但随着标签的完善以及智能化处理的提升,这套标签体系将有更广阔的应用场景。

1、 智能化学习场景的构建通过用户学习需求的标签的分析进行用户分群,针对不同的用户群在 APP 的功能和内容上进行个性化展示,满足不同学习需求的用户个性化的学习服务。

2、 精准营销推广的建立更细粒度的对用户进行筛选,同时能够精准预测可能存在的目标用户进行推广,从而扩大医生覆盖,提升推广的转化率。

3、 KOL 用户画像的描绘基于该标签模型,增加对外部数据的采集分析,更加完整的生成医生 360 度的用户画像,帮助企业寻找潜在的 KOL 用户,实现用户洞察,辅助市场决策。

标签的建设是一个看似高大上,其实很繁琐、纠结的过程,需要对业务抽丝剥茧,还要应对运营需求的各种变化,不过对公司发展的影响也是深远的。

阅读全文: http://gitbook.cn/gitchat/activity/5dfc73c872bc415d27bbf139

您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。

FtooAtPSkEJwnW-9xkCLqSTRpBKX

<p> <br /> </p> <p class="MsoNormal"> <span style="color:#E53333;">课程简介:</span> </p> <p class="MsoNormal">   </p> <p class="MsoNormal"> 本项目课程是一门极具综合性和完整性的大型项目课程;课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。 </p> <p class="MsoNormal">   </p> <p class="MsoNormal"> <span>本课程项目涵盖数据采集与预处理、数据仓库体系建设用户画像系统建设数据治理(元数据管理、数据质量管理)、任务调度系统、数据服务层建设、</span>OLAP<span>即席分析系统建设等大量模块,力求原汁原味重现一个完备的企业级大型数据运营系统。</span> </p> <p class="MsoNormal">   </p> <p class="MsoNormal"> <span>拒绝</span>demo<span>,拒绝宏观抽象,拒绝只讲不练,本课程高度揉和理论与实战,并兼顾各层次的学员,真正从</span><span>0</span><span>开始,循序渐进,每一个步骤每一个环节,都会带领学员从需求分析开始,到逻辑设计,最后落实到每一行代码,所有流程都采用企业级解决方案,并手把手带领学员一一实现,拒绝复制粘贴,拒绝</span><span>demo</span><span>化的实现。并且会穿插大量的原创图解,来帮助学员理解复杂逻辑,掌握关键流程,熟悉核心架构。</span> </p> <p class="MsoNormal">   </p> <p class="MsoNormal">   </p> <p class="MsoNormal"> <span>跟随项目课程,历经接近</span>100+<span>小时的时间,从需求分析开始,到数据埋点采集,到预处理程序代码编写,到数仓体系搭建</span><span>......</span><span>逐渐展开整个项目的宏大视图,构建起整个项目的摩天大厦。</span> </p> <p class="MsoNormal">   </p> <p class="MsoNormal"> <span>由于本课程不光讲解项目的实现,还会在实现过程中反复揉和各种技术细节,各种设计思想,各种最佳实践思维,学完本项目并勤于实践的话,学员的收获将远远超越一个项目的具体实现,更能对大型数据系统开发产生深刻体悟,对很多技术的应用将感觉豁然开朗,并带来融会贯通能力的巨大飞跃。当然,最直接的收获是,学完本课程,你将很容易就拿到大数据数仓建设用户画像建设等岗位的</span>OFFER </p> <p class="MsoNormal"> <br /> </p> <p class="MsoNormal"> <span style="color:#E53333;">课程模块:</span> </p> <p class="MsoNormal"> <br /> </p> <p class="MsoNormal"> <span></span> </p> <p class="MsoNormal" style="margin-left:21pt;text-indent:-21pt;"> 1. 数据采集:<span>涉及到埋点日志</span><span>flume</span><span>采集系统,</span><span>sqoop</span><span>业务数据抽取系统等;</span><span> </span> </p> <p class="MsoNormal" style="margin-left:21.0000pt;text-indent:-21.0000pt;"> 2. 数据预处理:<span>涉及到各类字典数据构建,复杂结构数据清洗解析,数据集成,数据修正,以及多渠道数据用户身份标识打通:</span><span>ID-MAPPING</span><span>等;</span> </p> <p class="MsoNormal"> <span>3. 数据仓库:</span><span>涉及到</span><span>hive</span><span>数仓基础设施搭建,数仓分层体系设计,数仓分析主题设计,多维分析实现,</span><span>ETL</span><span>任务脚本开发,</span><span>ETL</span><span>任务调度,数据生命周期管理等;</span> </p> <p class="MsoNormal"> <span>4. </span><span>数据治理:</span><span>涉及数据资产查询管理,数据质量监控管理,</span><span>atlas</span><span>元数据管理系统,</span><span>atlas</span><span>数据血缘管理等;</span> </p> <p class="MsoNormal"> <span>5. 用户画像系统:</span><span>涉及画像标签体系设计,标签体系层级关系设计,各类标签计算实现,兴趣类标签的衰减合并,模型标签的机器学习算法应用及特征提取、模型训练等;6. </span><span>OLAP</span><span>即席分析平台:</span><span>涉及</span><span>OLAP</span><span>平台的整体架构设计,技术选型,底层存储实现,</span><span>Presto</span><span>查询引擎搭建,数据服务接口开发等;</span> </p> <p class="MsoNormal"> <span>7. 数据服务:</span><span>涉及数据服务的整体设计理念,架构搭建,各类数据访问需求的</span><span>restapi</span><span>开发等;</span> </p> <p class="MsoNormal"> <span style="color:#E53333;"><br /> </span> </p> <p class="MsoNormal"> <span style="color:#E53333;">课程所涉及的技术:</span> </p> <p class="MsoNormal" style="margin-left:21.0000pt;text-indent:-21.0000pt;"> <span> </span> </p> <p class="MsoNormal"> 整个项目课程中,将涉及到一个大型数据系统中所用到的几乎所有主要技术,具体来说,包含但不限于如下技术组件: </p> <p class="MsoNormal" style="margin-left:21.0000pt;text-indent:-21.0000pt;"> l Hadoop </p> <p class="MsoNormal" style="margin-left:21.0000pt;text-indent:-21.0000pt;"> l Hive </p> <p class="MsoNormal" style="margin-left:21.0000pt;text-indent:-21.0000pt;"> l HBase </p> <p class="MsoNormal" style="margin-left:21.0000pt;text-indent:-21.0000pt;"> l SparkCore /SparkSQL/ Spark GRAPHX / Spark Mllib </p> <p class="MsoNormal" style="margin-left:21.0000pt;text-indent:-21.0000pt;"> l Sqoop </p> <p class="MsoNormal" style="margin-left:21.0000pt;text-indent:-21.0000pt;"> l Azkaban </p> <p class="MsoNormal" style="margin-left:21.0000pt;text-indent:-21.0000pt;"> l Flume </p> <p class="MsoNormal" style="margin-left:21.0000pt;text-indent:-21.0000pt;"> l lasa </p> <p class="MsoNormal" style="margin-left:21.0000pt;text-indent:-21.0000pt;"> l Kafka </p> <p class="MsoNormal" style="margin-left:21.0000pt;text-indent:-21.0000pt;"> l Zookeeper </p> <p class="MsoNormal" style="margin-left:21.0000pt;text-indent:-21.0000pt;"> l Solr </p> <p class="MsoNormal" style="margin-left:21.0000pt;text-indent:-21.0000pt;"> l Prestop </p> <br /> <p> <br /> </p> <p> <br /> </p> <p> <br /> </p> <p> <span></span><span></span> </p>
相关推荐
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页