基于大数据技术的用户行为分析平台的设计与实现

2021-05-24 09:55吴荣灿罗嘉龙郑伙群陈正铭
电脑知识与技术 2021年12期
关键词:行为分析大数据

吴荣灿 罗嘉龙 郑伙群 陈正铭

摘要:在大数据时代普遍应用的背景下,多元化商业模式和细分市场得到快速发展,而众多行业面临着高昂获客成本和高流失率的双重挑战。为了解决传统存在的问题,通过对近期状况研究与分析,本文提出了基于大数据分析技术的用户行为分析平台。该平台采用无埋点自定义的监测方案采集用户行为数据,并通过对数据进行统计分析,提供更精细和精准的运营与营销方案。

关键词:大数据;行为分析;无埋点

中图分类号:TP393     文献标识码:A

文章编号:1009-3044(2021)12-0040-03

随着互联网大数据潮流的到来,多元化商业模式和细分市场得到快速发展。然而,机遇与风险并存,大多数行业面临着昂贵的获客成本和高流失率的双重挑战。如何规避风险,成为大数据时代商业发展的主流趋势。常规的用户行为分析是通过对这些数据进行统计、分析,从中发现用户使用产品的规律。基于大数据技术的用户行为分析则通过对这些数据进行更深入地统计、分析,从中挖掘用户行为潜在的规律,并将网站的营销策略、产品功能、运营策略与这些规律相适应,发现营销、产品和运营中可能存在的问题,解决这些问题达到优化用户体验,实现更合理且准确的运营与营销,让产品得到更好的发展,助经营者获得更大的利益。

1 传统企业开发网页系统问题描述

获客成本高问题:传统网页开发为了存储、分析网页用户行为数据往往有两种方式:一是自行开发并实现此功能,这样所需的成本更高;二是接入第三方服务进行用户数据的存储与分析,小企业的不可靠,大企业租用的费用也很高[2]。总的来说,企业传统获客模式的成本高昂,得不偿失。

用户高流失率问题:由于传统网页开发的存储、分析网页用户的方式单一、烦琐,不够人性化,数据不够精准,而且在数据统计视图方面上,开发者为了快速完成一般没有专业做得好,导致众多数据眼花缭乱,让决策者体验感较差,统计的数据就会错漏得多,用户流失高问题就日渐显露了[1]。

安全性问题:目前,有的行业可能采用第三方服务来进行用户数据的收集,而用户数据存放在第三方平台的手上从而导致用户数据不安全,泄露,数据备份等问题[5]。

2 传统企业开发网页系统问题分析

2.1 用户行为分析平台降低行业高昂获客成本,精确定位获客渠道

据统计,时至今日,互联网广告业已被盘石、阿里、百度几大巨头瓜分完毕。涨势艰难的流量入口与日渐上升的获客成本,是每个企业都在面临的严峻挑战。短短五年里,获客成本大幅上涨,个别行业甚至翻了10倍。在互联网金融行业,2013年到2016年,企业的平均获客成本已经从300至500元上升到1000至3000元。在互联网教育行业,类似“少儿编程”“英语四六级培训”等关键词,在百度上点击售价高达100元/次,线下机构获取有效用户单价成本超过1000元/人。总的来说,互联网教育公司的线上获客成本占比高达30%,与线下的已经相差无几。随着各互联网行业的获客成本不断提高,用户行为分析数据平台数据的重要性逐渐体现。本项目通过对用户的行为进行深入统计、分析,精确定位获客渠道,进而降低行业高昂获客成本。

2.2 用户行为分析平台洞察客户流失真实原因,降低行业用户高流失率

用户流失是指在特定时间段内离开产品的用户数量。根据不同的产品及不同业务,时间段的确定也各不相同。用户流失指标从侧面表明产品留住用户的能力[4]。企业会为用户的大量流失而付出惨重代价。谈到用户流失的影响,有研究机构做过统计,获取新用户的成本是留住已有用户成本的五倍。哈佛商学院的报告也指出,用户留存率上升5%可以带来25%~95%的利润提升[6]。同样有数据表明留存用户是企业收入的主要贡献者。根据美国咨询公司高德纳的数据,20%的留存用户将贡献公司未来收入的80%。同时,将产品成功销售给留存用户的概率是60%~70%,而成功销售给新用户的概率只有5%~20%。以上各种数据表明,减少用户流失,提升用户留存对企业(尤其是电商企业)来说最重要并且最有益。

2.3 用户行为分析平台减少接入第三方服务进行统计的风险

由于接入第三方服务进行统计(如诸葛IO,百度统计等),虽然成本较低, 但数据会存在不安全的风险,所有分析数据都暴露给了第三方平台[3],当前第三方平台主要存在的问题:

A. 埋点成本高,且容易出错;

B. 现有埋点功能对数据统计交互不友好;

C. 埋点日志量大,通常很难找到自己想测试的埋点;

D. 显示一整条日志,系统无法判定埋点是否准确,全靠肉眼来看;

F. 接入第三方服务进行统计存在数据不安全。

3 具体实现思路

用户行为分析平台在 Internet 上架建,基于Java语言,运行于IDEA集成开发环境,IDE以“用户行为分析”为主的网站功能平台设计作为本平台核心需求,在当前现有原有埋点方案上,提出无埋点创新监测方案,通过Lucene全文检索交叉分析算法,实现快速并且准确的找出用户的搜索的内容;采用SSM+Maven框架搭建与mysql一级缓存、二级缓存和ECaChe缓存机制,严格按照MVC思想,使代码简洁,方便后期维护的同时提高运行的速度,减少数据库的访问量并且命中率高;实现多维度时间平台实时统计数据、多报表的实时分析数据(通过中国地图展示访问地、柱状图展示各个访问者的终端数据、多折现图实时多维度展示访问者情况)全方面提升管理精细可视化体验感[3]。

当前,第三方统计分析平台的埋点方案总的来说有以下几个方案:

初級:在产品、服务转化关键点植入统计代码,据其独立ID确保数据采集不重复(如购买点击率)。

中级:植入多段代码,追踪用户在每个平台上的系列行为,事件之间相互独立(打开商品详情页,放大商品图片,加入购物车,收藏等),这种方式的好处是数据采集准确,但是埋点成本高,工程量大,并且迭代成本高,维护困难。

高级:联合公司工程,ETL采集海量的大数据,分析用户全量行为,建立用户画像,还原用户行为模型,作为产品分析、优化的基础。这种方式的优势是通过收集大数据,分析用户全量行为可以规避用户在使用产品产生的一些欺诈行为(即误导分析系统的行为),提高了分析系统的准确性和通用性,而且还有助于发掘出一些未知的价值分析,但是技术复杂。

无埋点:又称无埋点监测,即网站无须加入需要维护的特定的代码来实现统计分析, 而是通过简单加入少量的程序代码(又称监测代码)等,使用第三方的通用统计分析平台来实现对网站的监测。为了加强对数据的收集,网站还可以部署专用且通用的事件监测代码,来加强数据的采集,为数据分析提供数据基础。

同时,为了解决传统统计平台存在的问题,平台使用了不同的技术解决:

(1)接入第三方服务进行统计存在数据不安全问题:平台采用了数据存入自己的服务器,第三方平台直接调用的方式,提高网站的整体安全性。

(2)埋点成本高,且容易出错:采用了用户自定义埋点方法,即用户所填写过的内容,平台会根据他填写内容通过a标签埋点,按钮埋点,input标签埋点,获取埋点的id属性,label属性,class属性、提高了埋点的准确性,同时提供特殊属性特点埋点方案,尽可能降低埋点错误。而且前期准备好了埋点方案,通过前后端一起埋点,减少了收集埋点的时间和次数,后期修改也比较方便,降低了成本。

(3)现有埋点功能对数据统计交互不友好:由于该项目使用了用户自定义埋点,并且通过实时记录,平台还对数据库优化,创作了一套根据小时、今天、昨天、一周、一个月、一整年多维度的实时统计算法,比以往的数据统计有了进一步的提升。

(4)埋点日志量大,通常很难找到自己想测试的埋点:使用全文检索算法,可以根据埋点多维度交叉分析搜索出自己测试的埋点,速度快而且精度高

(5)展示一整条日志,系统无法判定埋点是否准确,全靠肉眼来看:平台已经把用户自定义的埋点标签完整记录,并且埋点是可以相互绑定,准确性在记录时已经得到很大的提高。并且在页面展示出来,对于是否正确,平台还提供了一键检测,即可知道是否准确无误的记录。

对于用户行为分析平台来说,数据采集是最核心的问题。统计分析的数据具有数据量大,产生的速度快,类型多,价值密度低的特点。为了获得网站数据,埋点采集是如今网站分析中常用的数据采集方法。本项目致力于打造无埋点监控方案,主要内容包含:前端无埋点实时检测模块,通过前端js代码无埋点监控;自定义监测模块,实现专用绑用实时监控;后端定时检测模块以及特殊属性特定监测模块等,提高用户体验感。应用与用户分析、访客流量分析、终端分析、各类型的事件分析、报表分析等信息,用于决策分析。包含用户分析、访客流量分析、报表分析、终端分析、报表分析等商业渠道。

4 总结

项目应用价值巨大,从网络检测分布分析角度来看,具体体现在如下几个方面:

网络安全方面:实时监听用户在网络行为,来进行垃圾信息和病毒检测,并及时有效处理等;

网络社交的研究方面:以用户行为数据进行留存检测,分析‘用户是去还是留这一预测;

网络市场方面:以用户的属性和行为,来推测用户对哪一类商品、品牌感兴趣,从而实现精准化营销;

网络日志方面:可以用户自定义的埋点记录,并能够一键检测准确性,提供更人性化更精确的记录。

该项目的现实意义体现在,例如:社交网络中分析群体关系从而挖掘出隐藏在其中的商机、以行为和属性去定位用户在产品中角色从而提高市场营销的精准度、病毒传播的监测有效遏制以及自定义更精确的埋点记录,最大限度减少不必要损失。

弱势:虽然本用户行为分析平台采用了无埋点方案,但是仍需将一些js脚本挂载到用户想要监控的网站,导致访问该网站的用户平白无故加载不相关的资源,浪费不必要的流量,从而可能会导致用户体验感不佳,并且传输的过程中还可能会泄露用户的重要信息。

进一步改善的思路:

精简js脚本代码,优化脚本请求频率等,达到既保证了功能的健壮性,又给予用户良好的体验感。

添加预测功能,建立相关模型,通过用户数据不断训练模型,在不同数据分析方面做出一定程度上的预测,给决策者提供有意义的参考, 做出更科学,更合理的决策。

参考文献:

[1] 赖院根,刘敏健,王星.网络环境下的信息用户流失分析[J].情报科学,2011,29(11):1736-1741.

[2] 耿爽爽,宋晓昭.移动互联网时代下社交电商发展模式及典型代表分析研究[J].时代金融,2020(9):109-111.

[3] 罗嘉龙,苏毓洲,方健炜,等.基于大数据分析技术的用户行为分析平台设计与实现[J].电脑知识与技术,2019,15(35):54-56.

[4] 郝增勇.基于Hadoop用户行为分析系统设计与实现[D].北京:北京交通大学,2014.

[5] 王鵬.基于Hadoop全文检索的研究与应用[D].重庆:重庆邮电大学,2017.

[6] 张显达.基于朴素贝叶斯分类器的A公司的产品推荐方法的研究[D].兰州:兰州交通大学,2019.

【通联编辑:梁书】

猜你喜欢
行为分析大数据
基于K?均值与AGNES聚类算法的校园网行为分析系统研究
金融经济中的金融套利行为分析及若干研究
大数据环境下基于移动客户端的传统媒体转型思路
公开课与常态课学生学习心理和行为的表现分析