数据关联与挖掘(数据挖掘和数据分析的关系),本文通过数据整理汇集了数据关联与挖掘(数据挖掘和数据分析的关系)相关信息,下面一起看看。

很多人经常搞不清相关性分析和相关性分析。其实两者的区别是很明显的。相关性分析是分析数据列的同增同减之间的关系,而相关性分析反映的是一个数据行中所有元素同时出现或“你在那里,我在那里”的关系。要说相关性分析,就不得不提数据分析中“因果关系”的弱化趋势。

因果关系的弱化

在数据分析领域,我们都在有意无意地追寻和挖掘数据之间的“因果关系”,销售投入的增加是否会导致销售收入的增加,人口的流入是否一定会导致房价的上涨。随着数据分析技术的不断提高和分析经验的不断积累,人们开始意识到事情可能并不完全是“因果,和结果和原因”。很多事件表现出一种松散的、不太符合逻辑的“关联”,这种关联往往出现在数据挖掘案例中,而不是传统的统计学案例中。

分析数据之间的“关联”关系,需要应用apriori算法,目前各类主流数据分析挖掘软件都采用apriori算法。

用于分析的相关指标

在数据中间挖掘“同时存在”或者“你在这里,我在这里”的技术就是关联分析。看下面几个重要的相关性分析算法的基本概念。

支持度

支持度是数据中对应元素同时出现的概率,置信度是统计学中的条件概率。而条件概率在关联分析中有“前一项”和“后一项”两个概念。比如A出现后B出现的概率称为前一项,B为后一项,那么A对B的置信度为:

反之,B对A的置信水平为:

提升度

提升程度的定义,X代表前一项,Y代表后一项,从X到Y的提升程度为:

仅仅计算支持度和信心是不够的,还要计算支持度指数。规则如下:

什么样的数据适合做关联分析?

商超数据

而超市数据是关联分析应用的第一个地方,自然也是关联规则应用的主要地方。商数数据关联分析的主要目的是进行捆绑销售,主要体现在两个方面:

实体店装订:将对应产品的货架放在一起,或者放在相对较近的位置。

网店搭配:根据顾客消费的关联性,做出相关礼包的组合或推荐销售。

财务数据

金融领域也是应用相关性分析的重要场合。两个典型的应用是财务欺诈和关键指标分析。

在金融数据的相关性分析中,有两种相关性:一种是同步数据相关性,一种是有一定时间间隔的相关性。比如,当一只股票的指数表现出某种特征时,两个交易日之后该股涨停。然后,我们需要考虑这两种相关性。

生产质量数据

生产数据也是应用相关性分析的重要场所。其实做法和金融行业很像。我们主要关注不良品率,也识别不良品率高的批次,与相应的生产数据进行关联分析,包括产品批次、供应批次、班次、主级别、车间、电压等数据。

这个网站是个人知识管理的网络存储空间。所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请一键举报。

更多数据关联与挖掘(数据挖掘和数据分析的关系)相关信息请关注本站,本文仅仅做为展示!