大数据挖掘之数据标签化处理

房BI 诸葛燕
对大数据进行标签化的一个经典实践就是构建用户画像的标签:经过精细化的加工,配合了大数据挖掘,大数据才能发挥更大的价值,这才能体现出了数据也是一种资产的特点,因为它能切实的带来业务和增长。

1大数据如何更好的发挥价值

大数据的价值在于从海量的原始数据中提炼出对有价值的数据,海量的数据可能是结构性的,也可能是半结构性,这样的数据往往需要经过清洗汇总才能使用,一般清洗的数据会进入数据仓库,有的业务应用可以使用数据仓库中的数据进行使用,比如出汇总报表,或者对外提供业务信息查询,然而这远远没有发挥大数据真正的价值,因为这一步也只是大数据处理。再往前一步,数据需要更加精细的处理,就已经到了目前火热的人工智能的机器学习领域,比如建立模型、对数据进行打标签、跑模型和产出的模型能够进行智能预测,但本文所说的标签化并非单指机器学习的标签化。

对大数据进行标签化的一个经典实践就是构建用户画像的标签:经过精细化的加工,配合了大数据挖掘,大数据才能发挥更大的价值,这才能体现出了数据也是一种资产的特点,因为它能切实的带来业务和增长。(技术服务业务,企业需要盈利,这是技术创新的初衷)。

2大数据标签化的分类

一般对大数据挖掘进行打标签分为三种类型:统计类标签、规则类标签和机器学习类标签。统计类标签这类标签是最基础和最常见的标签,比如对于某个用户来说,性别、年龄、城市、星座,月消费金额、近7日活跃天数等,都是可以从用户的注册数据进行统计得出,在构建用户画像时候,这类标签往往是基础。

规则类标签这类标签是基于用户行为或者某些确定的业务规则产生的,比如对于风控业务来说“近3分钟同一账号登录失败次数<5”作为风控的其中一条触发规则,在实际的系统运行中又会新增规则或者修改规则,这类的规则可能由业务专家、运营人员或者技术分析人员制订。

机器学习挖掘类标签该类的标签通过机器学习挖掘产生,对于用户的某些属性和行为进行预测判断,比如根据用户的一个行为习惯判断该用户是男性还是女性,根据用户的消费习惯去推测用户对某些商品的偏好程度。该类标签需要通过算法挖掘产生。

3、挖掘标签的维度

1)常见的标签和分类

比如用户属性:用户的年龄、性别、生日、住址、注册状态和活跃时间等,这些维度的标签需要按标签类型和标签的一二级分类进行归类,在某个业务场景内,某些标签的定义是通用的,比如电商场景、风控场景和借贷场景等。

2)标签的维度

比如按用户行为的维度有,近xx日行为、用户访问、购买频率、浏览频率和收藏频率等标签,还有用户的订单行为和活跃时间范围等;按用户的消费维度则可以总结出近xx日购买的商品种类、近xx日收藏的商品品类和用户的消费金额区间等标签;按风控维度则可以总结出同一设备多账号登录、经常投诉、经常退货、经常差评、手机号无效、邮箱无效和法院失信人等标签;按社交属性维度,又可以获取用户的90后、00后、常用登录地、上午下午、程序员、文艺青年等标签;其他的维度可以根据具体的业务如营销场景和网络安全等场景再做相应的总结,一般需要业务领域的专家的意见做参考。

4、标签的体系

1)标签的元数据标签应该具备相应的属性:id、标签主题、标签名称、标签维度、标签分类(一二级分类)和计算规则。

2)标签的场景对于标签的制订都是应该按场景来划分,可以建立按场景划分的标签池,里面可以存很多的标签,在某个场景用到时,可以从标签池中取出相应的标签来完成相应的业务应用落地。

3)标签的处理对于统计类的标签一般由数据进行聚合计算汇总可以得到,对于规则类的标签,一般需要指定相应的规则,在流计算的实时计算中一旦满足计算规则则生成标签,对于机器学习类的标签,一般由相应的分类算法产生,对数据进行标注作为训练集,然后通过模型训练,生成分类器,将分类器应用在待分类的数据中,从而获取分类的结果,分类的算法有逻辑回归、K-NN算法、SVM算法、朴素贝叶斯、决策树和随机森林等分类算法,这类的算法现在在机器学习领域属于应用比较广泛的算法。

请扫码关注数字化经济观察网
责编:莎莉
参与评论
文明上网,理性发言!请遵守新闻评论服务协议
0/200