数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 [1]
- 中文名
- 数据分析
- 外文名
- Data Analysis
- 别 名
- 数据挖掘
- 目 的
- 最大化地开发数据的功能
- 数据也称
- 观测值,实验、测量、观察结果
数据
播报编辑
芝体照数誉备凳员据也称为观测值,是实验、测量、观察、调查等的结果。数据分析中所处理的数据分为定性数据和定量数据。只能归入某一类而不能用数值进行测度的数据称为定性数据。定性数据中表现为类别,但不区分顺序的,是定类数据,如榜辩永灶泪射肯渗放尝婚性别、品牌等;定性数据中表祖承巩现为类别,但区分顺序的,是定序数据,如和判学历、商品的质量等级等。 [1]
目的
播报编辑
数据分析的目的是把隐藏在一大批看来杂乱无章的数据中的信息集中和提炼出来,从而找出所研究对象的内在规律。在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。数据分析是有组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。例如设计人员在开始一个新的设计以前,要通过广泛的设计调查,分析所得数据以判定设计方向,因此数据分析在工业设计中具有极其重要的地位。 [3]
类型
播报编辑
在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。 [1]
探索性数据分析
定性数据分析
离线数据分析
离线数据分析用于较复杂和耗时的数据分析和处理,一般通常构建在云计算平台之上,如开源的HDFS文件系统和MapReduce运算框架。Hadoop机群包含数百台乃至数千台服务器,存储了数PB乃至数十PB的数据,每天运行着成千上万的离线数据分析作业,每个作业处理几百MB到几百TB甚至更多的数据,运行时间为几分钟、几小时、几天甚至更长。 [1]
在线数据分析
在线数据分析也称为联机分析处理,用来处理用户的在线请求,它对响应时间的要求比较高(通常不超过若干秒)。与离线数据分析相比,在线数据分析能够实时处理用户的请求,允许用户随时更改分析的约束和限制条件。与离线数据分析相比,在线数据分析能够处理的数据量要小得多,但随着技术的发展,当前的在线分析系统已经能够实时地处理数千万条甚至数亿条记录。传统的在线数据分析系统构建在以关系数据库为核心的数据仓库之上,而在线大数据分析系统构建在云计算平台的NoSQL系统上。如果没有大数据的在线分析和处理,则无法存储和索引数量庞大的互联网网页,就不会有当今的高效搜索引擎,也不会有构建在大数据处理基础上的微博、博客、社交网络等的蓬勃发展。 [4]
分析方法
播报编辑
1、列表法
将数据按一定规律用列表方式表达出来,是记录和处理最常用的方法。表格的设计要求对应关系清楚,简单明了,有利于发现相关量之间的相关关系;此外还要求在标题栏中注明各个量的名称、符号、数量级和单位等:根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。 [3]
2、作图法
图表和图形的生成方式主要有两种:手动制表和用程序自动生成,其中用程序制表是通过相应的软件,例如SPSS、Excel、MATLAB等。将调查的数据输入程序中,通过对这些软件进行操作,得出最后结果,结果可以用图表或者图形的方式表现出来。图形和图表可以直接反映出调研结果,这样大大节省了设计师的时间,帮助设计者们更好地分析和预测市场所需要的产品,为进一步的设计做铺垫。同时这些分析形式也运用在产品销售统计中,这样可以直观地给出最近的产品销售情况,并可以及时地分析和预测未来的市场销售情况等。所以数据分析法在工业设计中运用非常广泛,而且是极为重要的。 [3]
分析工具
播报编辑
使用Excel自带的数据分析功能可以完成很多专业软件才有的数据统计、分析,其中包括:直方图、相关系数、协方差、各种概率分布、抽样与动态模拟、总体均值判断,均值推断、线性、非线性回归、多元回归分析、移动平均等内容。在商业智能领域Cognos、Style Intelligence、Microstrategy、Brio、BO和Oracle以及国内产品如Yonghong Z-Suite BI套件等。 [5]
分析步骤
播报编辑
1、探索性数据分析:当数据刚取得时,可能杂乱无章,看不出规律,通过作图、造表、用各种形式的方程拟合,计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。 [6]
2、模型选定分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。 [6]
数据分析过程
播报编辑
识别信息需求是确保数据分析过程有效性的首要条件,可以为收集数据、分析数据提供清晰的目标。识别信息需求是管理者的职责管理者应根据决策和过程控制的需求,提出对信息的需求。就过程控制而言,管理者应识别需求要利用那些信息支持评审过程输入、过程输出、资源配置的合理性、过程活动的优化方案和过程异常变异的发现。 [6]
收集数据
②明确由谁在何时何处,通过何种渠道和方法收集数据; [6]
分析数据
分析数据是将收集的数据通过加工、整理和分析、使其转化为信息,通常用方法有: [6]
数据分析是质量管理体系的基础。组织的管理者应在适当时,通过对以下问题的分析,评估其有效性: [6]
⑤数据分析所需资源是否得到保障。 [6]
案例分析
播报编辑
“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现年轻的父亲身上。 [7]
在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店, 直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布” 故事的由来。 [7]
当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提 出了商品关联关系的计算方法——Aprior算法。沃尔玛从上个世纪 90 年代尝试将 Aprior 算 法引入到 POS机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。 [7]
2、Suncorp-Metway使用数据分析实现智慧营销
Suncorp-Metway是澳大利亚一家提供普通保险、银行业、寿险和理财服务的多元化金融服务集团, 旗下拥有5个业务部门,管理着14类商品,由公司及共享服务部门提供支持,其在澳大利亚和新西兰的运营业务与900多万名客户有合作关系。 [8]
该公司过去十年间的合并与收购,使客户群增长了200%,这极大增加了客户群数据管理的复杂性,如果解决不好,必将对公司利润产生负面影响.为此,IBM公司为其提供了一套解决方案,组件包括:IBM Cognos 8 BI、IBMInitiate Master Data Service与IBM Unica。 [8]
采用该方案后,Suncorp-Metway公司至少在以下三项业务方面取得显著成效: [8]