您的当前位置:首页正文

基于机器学习算法建立用户流失预警模型

2020-01-18 来源:钮旅网
基于机器学习算法建立用户流失预警模型黄栩

(福建省连江第一中学,福建福州,350500)

软件开发

摘要:现如今各种平台、软件App盛行,争夺以及留住用户是个重要的课题。所以,建立合适的模型与编写正确的算法对法在用户流失预测方面是十分必要的,利用逻辑回归,SVM,随机森林等算法建立用户流失预警模型,同时利用机器学习的基本理论,证明本模型的泛化性良好。可以更好解决用户流失这一问题。关键词:人工智能;逻辑回归;用户流失;机器学习0 引言

足够的重视。存在流失用户,这是用户新老交替中不可避免作为服务方,一个软件,网站或是公司对客户必须投入

的,也是软件运行过程中必定存在的问题。但是如果忽视了用户流失这个问题,那么它带来的损失是不可估量的。据统计,中国移动因为其业务的不规范,存在“乱收费”,“文一系列的乱象,损坏了用户的利益,使得用户的投诉率,用字套餐”、“乱篡改用户套餐”,“流量使用完不提醒”等

户的流失率大大增加,根据数据的显示,在移动首次出现用户流失,数量达到2018年,中国说明了公司保留用户的能力及未来的发展趋势。

带来了巨大损失。流失用户的比例和变化趋势在一些方面也400多万,给移动公司

较,决策者们都希望能用最低做APP推广时,我们对获取新用户的成本总是斤斤计大的效益。用户留存率一直是个诟病,同样也是传统互联网(最好是免费)的成本换取最创业者们不得不共同关注的一大核心指标。但事实上,比起对产品完全陌生的新用户而言,找回熟悉你产品老用户反而会有更容易,成本也相对较低,当一个新用户刚接触这个软件时,

成熟追求期、和疲惫衰退期。然而,当用户们进入疲惫衰退4个不同的阶段,分别是接触适应期、 探索成长期 、期时,用户对于软件的需求和使用大大减少,老用户的人数通常首先需要明确的是用户的流失可能并不是永久的,用户会大量的减少,而且这时的老用户一旦流失,就很难再挽回。可能在一段时间内对网站确实没有任何需求,在这种状况下用户很有可能会远离网站一段比较长的时间;或者流失用户会因为网站的某次营销,或者未来的时间里网站质量得到改善,这样一些客观的条件变化之下重新回归。单纯的总流失用户数量对于分析并没有意义,大部分情况下这个数值是一新增流失用户数,以此观察它们的变化趋势,进而进行深入直递增的,我们通过计算总流失用户数占总用户数的比例及的了解和分析,拟合历史数据中的规律,可以帮助及时发现流失中的用户人群,防患于未然。因而挽回流失的老用户,让用户可以继续保持活跃。因此,与其向外拓展新用户,不如回头看看流失的老用户,探讨他们流失的原因,采取合适的运营手段来最大限度的挽回老用户反而更符合成本效益。中的用户流失预警模型中运用了机器学习相关技术提高准目前,国内外在此方面也有一定的研究,如在电信行业

确度当中。关于流失预警的预测也越来越受到了更多的关注和[1],或者是将流失风险预测投入在金融市场的风险预测[2]利用。

性的调研,因此,及时发现具备流失风险的用户群体,再通过针对留下老用户,是十分值得关注的问题。

了解用户侧反馈的产品问题,从而设计改善措施,1 利用机器学习技术解决问题

来分析接下来用户流失的可能性,从而了解到用户流失的概在研究用户流失这个问题时,我们想要通过已有的数据

率,再进一步采取对这些将要流失的用户采取措施。面对这些庞大的数据,人工处理相对于机器处理就显得效率低下,所以,我们试图采用机器学习方法来构建我们的预测模型。并且问题的复杂性以及数据中各种信息的相关性也难以挖掘。

■ 1.1 机器学习方法

一门学科。我们知道人类在过去利用计算机解决问题时,普机器学习是研究如何使用机器来模拟人类学习活动的

码,按照人类的要求解决问题。但是在现实世界中,许多的遍采用的是利用计算机的高效并行计算,让计算机通过代

问题我们并不能完全基于现实设计模型,然而机器学习能够做到的是基于数据的学习,自我优化的建模过程。机器学习对大数据进行挖掘,从实际问题中探寻数据的内在联系以及对问题的影响程度。如今,机器学习在生活中也有着很多的应用,在计算机视觉,自然语言处理,语音识别等多个领域有着越来越广泛的应用。

极大效率地帮助我们训练出预测模型,从而在实际的场景中机器学习在分类和回归问题上的实用性和适用性,可以

得到显著的运用。针对用户流失这个问题,我们在机器学习算法模型的帮助下,能够在一定的数据集中挖掘和分析出用户流失问题的潜在信息,从而适用于现实世界中真实场景进行预测,进而及时挽回用户。本文讨论的流失预警是典型的

二分类问题,因此我们首先利用经典分类算法逻辑回归来构

www�ele169�com󰀁󰀁|󰀁󰀁49

软件开发建算法模型。■ 1.2 逻辑回归的差距,而得到输入特征之间的最佳组合方式的一类算法。回归算法是一种通过最小化预测值与实际结果值之间对于连续值预测有线性回归等,而对于离散值我们也可以把逻辑回归等也视作回归算法的一种。 /类别预测,的内容。线性回归主要用来解决连续值预测的问题,逻辑回线性回归与逻辑回归是机器学习中比较基础又很常用归用来解决分类的问题,输出的属于某个类别的概率。 根据统计学习的知识,线性回归利用称为线性回归方程的最小是一种回归分析。回归模型就是预测一个连续变量。在分类平方函数对一个或多个自变量和因变量之间关系进行建模,说是使用回归算法的分类方法。

问题中,预测属于某类的概率,可以看成回归问题。这可以离真实值越远的数据惩罚越严重。但更大的预测值说明为线性回归中使用的是最小化平方误差损失函数,对偏

的可能性越大,而不应该惩罚的越严重。线性回归更容易受1到异常值的影响,这就会导致预测的概率不够精确。逻辑回归使用对数似然函数进行参数估计,使用交叉熵作为损失函数,对预测错误的惩罚是随着输出的增大,逐渐逼近一个(x1,x2,x3,…,xn)常数,这就不存在上述问题了。对于线性回归,我们用x*=

则z可以表示为:

表示每一个样本,每个样本有n个属性。z=w1*x1+w2*x2+…wn*xn+b

参数,因而其中z为线性回归模型的输出,w*归在线性回归的基础上做了一个重要的转换,即通过一个非z便是我们样本特征和参数的线性组合。逻辑回是线性回归的模型线性函数(Sigmoid连续值输出映射在了介于函数)作为激活函数,因而将原始的

转化为我们的目标—分类问题中的类别概率。在信息科学0到1之间的概率分布上,进而中,由于其单增以及反函数单增等性质,Sigmoid性:函数的取值在被用作神经网络的阈值函数,将变量映射到0,1之间。其特

函数常越靠近0-1之间,且在Sigmoidx=0的取值斜率越大。

0.5处为中心对称,并且Sigmoid的函数图像如图1所示。

f(z)=1/1+e的公式形式:-z

这种转换,我们便可以将用户流失的概率问题基于逻辑回归其中z为上述的样本特征与模型参数的线性组合。通过建模,我们知道当反之越小,从而我们设定阈值来预测类别(流失或不流失)f(z)越接近1时用户流失的概率越大,的可能性,如我们认为概率超过50󰀁󰀁|󰀁󰀁电子制作󰀁󰀁󰀁󰀁2019年08月

50%时,认为该用户流失。

图■1.3.1 定义损失函数 1.3 模型评估1解,而模型的好坏就决定了我们是否能找到正确的用户的流在建立好模型之后,我们对于这个模型的好坏并不了失概率。进而采取正确的措施。因此我们需要构建损失函数来检验我们得出的模型的好坏。

差异的非负实值的函数。通俗地说,损失函数反映出了我们损失函数指的是用来衡量模型的预测值与真实值之间

构建的模型对现实问题的接近程度。损失函数越小,也就准确。

代表着我们模型的鲁棒性越好,即模型对现实的预测更加训练出了相应的参数,逻辑回归采用交叉熵损失函数来定义

我们已经基于逻辑回归算法建立模型,并且在数据集上

我们模型的损失,我们希望最小化损失函数从而使我们的模型预测结果更接近真实情况,从而提高模型的准确率。解决实现我们的预期。

这个问题,就可以减少客户的流失率,从而获得更高的效益,

1.3.2 梯度下降优化

向,即损失函数关于参数的梯度相反的方向为我们损失函数梯度下降法是一个最优化算法,以负梯度方向为搜索方

下降最快的方向。梯度下降法通过迭代计算出每一次循环的最大梯度从而调整损失函数的参数,从而找到令损失函数最小化的参数,确立我们的最优模型。梯度下降法越接近目标值,步长越小,前进越慢。逻辑回归用梯度下降算法循环更新模型参数,最终我们找到一组最优参数,使得交叉熵损失函数得到一个比较小的结果,我们的模型就建立好了。

2 数据集介绍

收到一些包括促销,问卷调查,老玩家回流之类的信息,显日常生活中我们在各种购物,社交,游戏平台上都可能

而易见,对于用户的数据信息,这些平台是可以获取到的,因此,本文利用某平台的一组用户数据进行建模分析用户流失预警模型。

本数据集包括3333个样本,对应3333个用户及17

软件开发

个特征。

地区编码这类整型数据,最近一个月的平均使用时长这类浮“用户流失情况”这样的离散型类别数据。

主要的特征包括如地区,电话号码这样的字符型数据,

所用的数据集比较小,以及集成算法原理上的难于理解,实验过程中并没有用随机森林,ada-boosting等集成算法进行实验。■ 3.3 结果分析

点型数据,以及“是否签订服务条约”,“是否改变过套餐”,

3 实验过程

从业务角度来说,我们需要关注的是具备较大流失可能性的人群,我们接下来进一步在训练好的模型中进行选择,对用户中流失概率较大的那一部分采取后续的挽留补救措施,这也为我们的业务工作大大提高了效率,节省更多的人力和时间资源。

测出真正具备流失可能性的用户,而对于本就不会流失的用户的预测结果并不是特别重要,因此,我们另外还比较了各模型的流失用户召回率,经比较几种传统算法的召回率均在95%左右,综合考虑之后本次实验我们最终选择了准确率最高的逻辑回归模型进行预测。

在本次实验中,由于业务的需要,我们更加关注的是预

基于模型我们已经能够在准确率上得到比较好的效果,

■ 3.1 数据预处理

均值填充,即取该特征所在列的其他数据平均值替代缺失值,我们对离散型数据则采用众数填充。

通常会决定删除该列特征,但只有少量样本缺失该特征时(相对于数据集的样本数不值一提),常选择删除这少量样本,基本保持住了数据的可靠性。

对本实验数据集中的特征我们进行初步筛选,如电话号实验过程中若发现大量样本的某一个特征值缺失严重,

针对数据集中存在缺失值的数据,我们对连续值采用了

码,用户ID这类对流失预测明显不相关的特征,以及部分冗余的特征,我们在预处理过程中选择删除该特征,从而降低数据维度。

类别的离散数据进行二进制转化,将类别变量转换为机器学习算法易于利用的一种形式的过程。

我们最后将数据进行了标准化,数据的标准化对数据中类别型离散数据我们采用one-hot编码,将

4 结论与展望

流失预警模型,最终以经典分类算法逻辑回归作为核心算法,使用Python实现了我们的预警模型,并且在数据集上具备了极好的效果和预测精度。逻辑回归算法原理相对简单,在小数据集的表现也比较好。当然,我们的模型依然存在很大的改进和提升空间,一是我们并没有进行全面的调参,我们对特征的提取也没有做很多的相关性探索分析,并且尚未实践在更加庞大的系统及资源上,因此在将来还有很多的工作可以继续展开,例如短时间内的用户的流失倾向预行改善,从而使算法起到更大的作用和影响。

参考文献本论文基于机器学习算法建立了对实际场景下的用户

(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。■ 3.2 实验结果

逻辑回归作为分类问题的基础传统算法,作为本文的首

测。我们可以进一步发掘用户流失问题中影响较大的因素进

选模型,我们利用sklearn调用了逻辑回归模型对数据进行了训练,实验中我们采用10折交叉验证,初始学习率设置为0.01,模型得到的准确率为93.8%。

行对比,其中采用默认参数的SVM模型预测结果准确率为

同时,我们在实验中也使用了其他传统机器学习算法进

* [1]赵慧,刘颖慧,崔羽飞, et al.机器学习在运营商用户流失预* [2]吴玉轩.机器学习算法在金融市场风险预测中的应用[J].信息系统工程,2019(02):134-135.警中的运用[J].信息通信技术, 2018.

91.2%,决策树算法预测结果准确率为90.1%。由于本实验

(上接第14页)

所谓“绿色”,就是“天然”,强调电梯要与环境相协调,总趋势,有专家预言,谁要想抢占市场并掌握电梯市场竞争主动权,谁就要最先推出具有这三大理念的产品。

要更人性化。总之,“节能、环保、绿色”理念是电梯发展

参考文献* [1]李东,王伟,邵诚.电梯群控智能系统与智能控制技术[J].控* [2]张乐祥.中国电梯设计与制造新特点[J].建设科技,2005,12:34.

www�ele169�com󰀁󰀁|󰀁󰀁51

制与决策,2001,(5).

因篇幅问题不能全部显示,请点此查看更多更全内容