在线客服:
凤凰体育下载 凤凰体育下载
全国服务热线:010-53193650
您的位置:首页 > 新闻中心 >

数据分析和挖掘的常见项目摘要

浏览 117次 来源:【jake推荐】 作者:-=Jake=-    时间:2021-02-23 18:06:02
[摘要] 随着数据规模的日益庞大,仅仅支持查询、统计的产品已经不能满足大部分用户,进而对数据分析挖掘的需求越来越大。提到数据分析挖掘第一反应是各种高深、复杂的机器学习算法,深度学习框架,但对于一个仅支持查询、统计的产品首先需要的是描述度量。二、数据挖掘1、常见的数据分析挖掘项目1.

随着数据量的增加,仅支持查询和统计的产品已不能满足大多数用户的需求,对数据分析和挖掘的需求也在增加。

尽管意识到数据分析和挖掘的重要性,但是数据分析和挖掘可以专门做什么?它可以带来什么具体价值?

本文将从以下角度进行描述:

一、描述性统计

提及数据分析和挖掘的第一个响应是各种高级和复杂的机器学习算法,深度学习框架,但是对于仅支持查询和统计的产品,您需要的第一件事就是描述指标。

1、测量指数

管理大师彼得·德鲁克(Peter Drucker)曾经说过:“如果无法衡量,就无法管理”(“无法衡量,就无法管理”)。为了有效管理,很难规避度量问题。

([1) NBA球员效率指数

例如,对于一个想知道哪个球员最好的新手,如果您告诉他积分,助攻,抢断和其他信息的数量,您肯定会感到困惑。如果您直接告诉他NBA球员效率指数,将会省去很多麻烦。

NBA球员效率指数= [(点数+助攻数+总篮板+抢断次数+盖帽数)-(射门次数)-(罚球次数) -罚球数)-失误数] /球员比赛数

借助NBA球员效率指数,我们可以使用一个数字来全面评估球员表现并比较每个球员的整体表现。

([2)空气污染指数

例如,如果您想了解当天的空气污染状况,则空气污染污染物包括:烟尘,悬浮颗粒物,二氧化氮,二氧化硫,一氧化碳,挥发性有机化合物等。这很困难基于这样的大量数据来测量一天中的空气。用空气污染指数可以简洁明了地表示污染状况。

空气污染指数旨在将常规监测的几种空气污染物的浓度简化为一个概念指数值形式。

空气污染指数分为0-5 0、 51-10 0、 101-15 0、 151-20 0、 201-300和大于300的六个级别,分别对应于六个级别的空气质量。指数越大,含量越高,污染越严重,对人体健康的影响越明显。

([3)年平均成绩

例如,如果您想知道学生在大学四年中的学习成绩,如果您告诉他大一那年他在总测验中得分了多少分,那么告诉他如何表现显然不是很合适他第二年在数学测试中获得了许多分。我们使用GPA进行衡量。

平均绩点(GPA)以学分和平均绩点为基础,用于衡量学生学习的数量和质量。

我们的大学基本上采用100分制,转换为GPA时应遵循以下标准:90到100 = 4、80到89 = 3、70到79 = 2、60到69 = 1 ,少于60分= 0

在申请大学时,您可以基于GPA快速评估学生的综合学习能力。

([4)建立您的业务索引

生活中有各种各样的指标(支付宝芝麻信用,股票投资风险系数,权重IBM指标...),某些计算方法非常简单,某些计算更复杂,并且考虑了许多影响因素。

尽管没有任何索引可以完美地测量问题,但是没有比该索引更简单,更清晰的测量信息了。

此类索引构建通常需要考虑业务需求,参考行业标准,并尽可能全面地考虑影响因素,以使构建的索引具有说服力。

2、并非完全出于统计目的

数据分析的目的是发现数据的特征和变化规律。如果仅告诉您一个数字,例如,昨天的紫外线为100,000,您可以分析什么?紫外线值是好是坏?是变得好还是坏?实际上,您无法得出任何结论。您要做的只是显示数据,而不是分析数据。

在开发的最初阶段,我们经常看到根据各种属性分类的饼图,键值的显示,根据时间的折线图,根据区域和数字的热图以及根据对象和数字的顶部条形图。出于丰富内容的目的,我在整篇文章中没有看到任何真正有价值的信息。

单纯的统计图的价值不是很大,有价值的是能够反映有意义的信息。

以一个典型的折线图为例

([1)查找转折点的原因[2]

下图显示了公司从2015年到2019年的年增长率(虚线)和总收入(列)的变化。

如果您完成绘制此图片,它将无法使用。我们需要关注“转折点”。

2017年是虚线的转折点,有必要结合其他方面来找出异常的原因。

为什么自2015年以来公司的年增长率继续上升,而在2017年突然急剧下降?

比较分析需要数据的另一个维度,例如图中的总收入。显而易见,2017年总收入突然下降。此后,尽管总收入持续增长,但仍无法阻止公司的增长率。秋天。

[结论]

2017年,公司收入太差,导致公司增长放缓;

2017年后,公司收入基本保持不变,难以支撑快速增长的公司,因此公司发展逐渐停滞;

(2)有效预测[2]

转折点的分析显然不足以反映分析的价值。预测是一项非常重要的分析能力。

有许多方法可以进行数据预测。在这里,我们使用回归预测,并且对明年的预测值为XXX(大约0. 09)。

[结论]

由于收入的逐渐增长,除非公司采取措施扩大市场和其他计划以促进收入增长数据挖掘项目,否则公司的增长率可能会保持目前的9%不变或缓慢下降。

(3)之所以有差异[2]

下图显示了五种不同产品A,B,C,D和E在不同时间的销售额。

仅完成绘画还不够。

由于数据波动很大,拐点太多,所以我转向寻找差异。

2010年3月yobo体育官网 ,产品B的销量达到顶峰,而其他产品则下降。这是一个不同点;

尽管产品B的销售在2011年1月也达到了顶峰,但其他产品的销售也有所增长,因此不足以成为一个差异点

我们需要找到差异的原因。

([4)趋势分析[2]

根据产品的发展趋势,提出分析建议

产品B在3年内的月度销售趋势如下。

2009年,它总体上保持稳定,并有小幅上升的趋势,需要更多的投资;

2010年,销售波动很大,并且呈上升趋势。需要控制和优化风险;

2011年没有定期下降,并且产品出现故障;

二、数据挖掘

数据挖掘是指从数据集中自动提取隐藏在数据中的有用信息的重要过程。这些信息的表现形式是规则,概念yb官网 ,法律和模式等。[3]。

1、通用数据分析和挖掘项目1. 1、分组处理(1)分组分割

分组细分的目的通常是准确地营销不同类型的客户,以使利润最大化。

聚类技术经常用于群体细分,群体划分的数量比较麻烦;

当然,如果存储了标签数据,则可以使用监督分类算法,例如决策树;

数据特征的选择应尽可能全面和相关。

群体细分不仅可以实现对客户的分类,而且可以给出每种类型的特征,从而有助于了解小群体的每种类型。

为了针对不同类型的客户进行精确的营销并实现利润最大化,航空公司需要对客户进行细分。

要衡量客户价值,我们需要考虑五个因素:消费时间间隔R,客户关系长度L,消费频率F,飞行里程M和平均折扣系数C。

传统统计数据不便于划分多个指标。我们使用聚类算法来处理它们。

使用K-Means聚类分析航空公司客户价值

根据不同的群体特征设置客户价值,并针对不同类型的客户进行精准营销。

([2)群体社会关系

社交网络是由许多节点组成的社交结构。节点通常是指个人或组织,社交网络代表各种社交关系。通常,社交网络算法用于关系挖掘。

金融欺诈倾向于在群体中发展,我们在金融反欺诈应用中使用社交网络算法来挖掘欺诈群体。

社会关系建设数据可以来自直接关系数据,例如联系数据(用户申请贷款时填写的紧急联系电话)等;它也可以来自间接关系数据,例如通过用户行为数据挖掘共享的移动设备等,从而基于这种关系构建社交网络。

图为一个典型的欺诈集团。红色是被拒绝的用户,黑色是已通过但表现欠佳的用户,绿色是已通过并表现良好的用户。该组的拒绝率为6 6. 8%,这表明该组的平均用户信用价值较低,通过的用户中有9 1. 4%的用户表现为过期,这进一步证明了该组的欺诈性质。组。

([2)组特征挖掘

我知道组划分的结果,并且想知道特殊组的特征,例如付费用户特征,更新用户特征等。

通常使用监督和决策树算法。

从美国1994年的人口普查数据库中提取数据,并希望了解年收入超过5万的群体的特征。可以使用的变量是:年龄,工作类别,工作类别,职业,教育程度,教育年限教育程度,婚姻状况martial.status,职业,社会角色关系,种族,性别,资本收益资本。资本资本损失,每周工作小时数,祖国原住民,收入

蓝色部分是年收入> 50k的组。蓝色越深,基于这些特征的判断就越准确。左至右蓝色组的特征:

1、婚姻状况marital.status713 9. 5

2、婚姻状况marital.status> 4. 5年,学历为教育。num5059. 5

3、婚姻状况marital.status> 4. 5年,教育年限Education.num 8. 5,资本损失capital.loss> 1846

... 1. 2、概率预测

概率是对不确定事件和结果的研究。对于许多不确定的风险,我们使用概率来量化风险,并帮助决策者识别出值得承担的风险。

通常,有监督模型和分类模型,并且有多种算法可供选择。尝试选择最合适的一个。

我们想知道哪些客户可能成为失去的客户,并通过概率预测找到这些客户,并提前采取营销措施以留住客户。

以电信客户流失预测为例:

提供的数据是19个特征凤凰体育 ,例如用户ID,性别,资历,每月费用数据挖掘项目,总费用等。标签信息是用户是否丢失(是或否)。

建立分类模型并使用10种分类算法进行算法选择

Fitting发现10个分类算法中的朴素贝叶斯(Naive Bayes)具有最大的F1分数,因此朴素贝叶斯模型具有最佳效果,并且使用model.predict_proba()来预测客户流失的可能性。 1. 3、趋势和预测

我们需要趋势预测,以便对未来市场的总体方向有清晰的了解。

([1)趋势预测

趋势预测分析方法也称为时间序列预测分析方法,它按时间顺序排列过去的历史数据,然后使用某个数字模型来预测和推断预测方法。

通常使用时间序列算法,例如指数平滑,ARAMA,LSTM等。本质是序列拟合。

自从《涅ez:魔鬼的孩子》上映以来,《同伴的时刻》和《微博》一直以不同的方式出现在安利。在发布的第8天,实时票房已超过15亿。哪zh到底能获得多少票房?用科学预测“内扎”的票房:

通过对历史票房数据进行多项式曲线拟合,建立了票房趋势的“模型”,然后将现有的票房包含在模型中进行计算

假设上映60天,估计票房结果是4 1. 3亿(2)回归预测

回归预测找出影响预测目标的各种因素,然后找出这些因素与预测目标之间的关系。

通常使用监督和预测相关的算法,并且有很多模型可供选择。

以房价预测为例。影响房价的因素包括房屋面积,楼层,车库,建设年份等。

比较随机森林,逻辑回归,线性回归和SVM算法的预测。相比之下亚博集团 ,随机森林的预测效果对此数据集最好,并且在SVM调整后,性能还有提升的空间。

当您提供有关房屋面积,楼层,车库,建造年份等的信息时,您可以预测房屋的价格。

1. 3、路径分析(1)路径挖掘

路径挖掘是一种常用的数据挖掘方法,它是一种查找频繁访问的路径的方法。

通常使用关联算法和社交网络算法

通过挖掘学习者的访问路径习惯来改进教学平台站点的设计,并基于相关算法研究网络教学平台中的频繁访问路径

在数据库中收集用户的页面访问路径信息,并将页面替换为A-K

假设我们得到了这个结构

A-> D ^ E 0. 333333333333

A ^ C-> D 0. 285714285714

A ^ C-> E 1. 0

也就是说,如果用户访问A,则有33%的机会访问D和E;

如果用户访问A和C,则有28%的机会访问D;

如果用户访问A和C,则有100%的机会访问E

这时,我们可以以此为基础基于用户行为来改进网站。 (2)最佳路径分析方法

路径优化(临时发布)

1. 4、推荐系统

推荐系统是一种信息过滤系统,用于预测用户对商品的评分或偏好。

([1)相似的对象/产品挖掘

基于域的协作过滤主要有两种算法,一种是基于项目的,另一种是基于用户的。

协同过滤推荐的本质是找到相似的对象/产品,因此在实施推荐时,我们可以挖掘具有客户导向行为的相似对象。

客户A是已知的,并且想知道数据库中的哪些客户具有与客户A相似的行为?我一直都是产品B,并且想知道某些类型的客户(例如产品B)喜欢其他哪些产品?

例如,协同过滤音乐推荐,基于不同用户对不同音乐的偏好得分,建立协同过滤模型。

算法结果可以反馈每个用户/音乐的相似性。例如,用户1的相似度是:

相似性批判者号码

[(0. 00213,'用户2'),

([0. 0004,'用户3'),

......]

如果向该用户推荐音乐,则可以找到相似度高/满足阈值的用户并推荐他们喜欢的音乐。 (2)其他推荐方法

当然,还有其他推荐方法,例如基于内容的推荐和基于相似行为的推荐。

2、业务需求目标项目2. 1、监督分类模型

受监管的项目需要积累某些业务数据和相应的分类标签信息,并基于长期积累的业务受监管数据构建有价值的分类模型。

通常使用各种分类模型(SVM \ random forest \ xgboost ...)和神经网络,选择范围广。

例如财务记分卡模型,文本分类模型

2. 2、其他

其他业务需求分析

参考资料

[1]“裸体统计”查尔斯·惠兰

[2]趋势分析:

[3]“数据挖掘与数据操作实战”卢辉

老王
本文标签:大数据,数据分析,预测模型

推荐阅读

最新评论