《智能数据：如何挖掘高价值数据》书评-杂志之家

内容简介

如今，很多企业被淹没在数据洪流之中，数据并没有给它们带来太多好处。企业数字化竞争力的提升也并没有像在公司战略会议上渲染“大数据”这一概念时所描述的那样快。其实，在大多数应用领域，数据量的多寡并不是衡量数据价值创造力的决定性标准。本书描绘了一条走出“大数据带来的失望”的更智慧的路线，适用于那些已经意识到“起决定作用的不是数据量，而是正确地整合数据，物尽其用”的企业。这一路线被称为“智能数据”。

智能数据的出发点是：“在不增加技术、人员和资金投入的情况下，我们如何高效地利用客户数据信息？”其本身就是一种切实可行的方法论。从这个方法论出发，我们可以得出一套不断迭代更新的、在逐步摸索中的、基于假设的行为方式。智能数据的理念是，在你所在的行业内成为数字智能化非常高的企业，在面对直接的数字化竞争时，借助数据分析，能够一步步地打造自身的竞争优势。

一般来说，导致数字变革宣告破产的，并非是技术力量的匮乏，而是源于企业内部的对抗、过于刻板的组织构架和失误的变革期管理。本书介绍了企业如何通过改革自身的管理、企业文化以及组织构架以成为智能数据时代的佼佼者。在大数据时代，少即是多——只要是对的，那么更少的数据将更有成效。今天的企业需要提高“数字素养”。如今，很多企业被淹没在数据洪流之中，数据并没有给它们带来太多好处。企业数字化竞争力的提升也并没有像在公司战略会议上渲染“大数据”这一概念时所描述的那样快。其实，在大多数应用领域，数据量的多寡并不是衡量数据价值创造力的决定性标准。本书描绘了一条走出“大数据带来的失望”的更智慧的路线，适用于那些已经意识到“起决定作用的不是数据量，而是正确地整合数据，物尽其用”的企业。这一路线被称为“智能数据”。

智能数据的出发点是：“在不增加技术、人员和资金投入的情况下，我们如何高效地利用客户数据信息？”其本身就是一种切实可行的方法论。从这个方法论出发，我们可以得出一套不断迭代更新的、在逐步摸索中的、基于假设的行为方式。智能数据的理念是，在你所在的行业内成为数字智能化非常高的企业，在面对直接的数字化竞争时，借助数据分析，能够一步步地打造自身的竞争优势。

一般来说，导致数字变革宣告破产的，并非是技术力量的匮乏，而是源于企业内部的对抗、过于刻板的组织构架和失误的变革期管理。本书介绍了企业如何通过改革自身的管理、企业文化以及组织构架以成为智能数据时代的佼佼者。在大数据时代，少即是多——只要是对的，那么更少的数据将更有成效。今天的企业需要提高“数字素养”。

编辑推荐

面对巨量数据，还能找到宝石和金子吗？

如果谷歌即将踏足你的市场，该怎么办？

成本高昂的IT工具真的能够解决问题吗？

罗兰贝格专家带你突破大数据的价值瓶颈！

作者简介

比约恩布劳卿(Björn Bloching)，罗兰贝格管理咨询公司的高级合伙人、数字化部门全球主管，罗兰贝格数字中枢创建者，经验丰富的营销专家，领导着该咨询公司的国际市场与销售技术中心。拉斯拉克(Lars Luck)，麦德龙集团首席组合战略专家，此前曾任罗兰贝格管理咨询公司合伙人，领导“销售和有针对性营销”实践小组。托马斯拉姆什(Thomas Ramge)，德国著名财经杂志《brand eins》记者，报道领域涵盖技术、IT及营销领域。《经济学人》特约编辑。著作颇丰，曾获得德国《金融时报》颁发的卓著商业图书奖。

在线预览

客户细分黑盒子

客户细分的目的是，基于现有数据的特征，将客户识别为尽可能同质的，或是尽可能彼此异质的群组(簇)。在将相似的要素进行分组或在发现数据中潜藏的模式方面，存在着不同的操作方法，这些方法源自机器学习领域“无监督学习”范畴。最重要的几个分类操作方法如下：

1. 分层聚类分析

这种操作方法是基于前期已经识别出来的数据特征(例如通过识别市场上同质化群组的社会人口统计学特征、使用行为和观念)测算出被观察者(个人或公司)之间的差异，并据此建立矩阵。这个矩阵也分为许多行，同数据库中被观察者的分类占比保持一致。被观察者之间的差异涵盖了所有已识别的数据特征，并且可以通过不同的方法计算出来。在分层聚合的过程中，一对儿被观察者在一个循环流程中被反复概括比对，就连最小的差异也会被发现。这个流程会一直不停地循环重复，直到所有的被观察者都被纳入某一个簇中。这个积聚的过程可以通过多种不同的算法实现。比较常见的算法包括单联聚类法(即SL聚类，又称邻近算法)和凝聚层次聚类(沃德法)。根据算法之间不同的聚合逻辑，会产生不同的聚合结果。采用单联聚类法可以识别出一些较小的边缘群体，若采用凝聚层次聚类法，那么簇的规模一般会比较均衡。

分层分析方法的优点是，不需要事先就知道簇数，而是借助于统计学参数预估出理想的簇数，从统计学的角度出发，理想簇数的确定需要考虑到组内同质和组间异质之间的平衡问题。分层分析方法的缺点是，计算量非常大，且只适用于小规模的数据量。很多时候，分层分析方法被用于分析通过社会调查形式获得的数据。分层分析流程也适用于从大数据中进行随机抽样，目的是获得稳定的分类并且确定簇的数量。后续，数据科学家会采取分区操作，将聚合结果扩展到整个数据库。

2. 划分聚类分析

在分层聚类分析过程中，不需要事先就确定簇的数量，这对模式探索型的聚合分析流程来说是一大优点。然而，在划分聚类分析中，必须要预先就确定好簇的数量。总体来看，划分聚类分析的各种方法间存在共性，都是根据预先确定好的簇的数量选择出相应数量的对象，将每个对象的初始值作为单一簇的平均值或者中心点，然后反复调整聚类划分，直到误差函数最小化为止。其中，最著名且应用最广泛的误差函数是K均值(K-Means)算法：先根据既定的簇数随机选择出相应数量的对象，将这些对象的初始值作为每个簇的平均值，对剩余的每个对象，根据其与初始均值之间的差异程度，将其归入相应的簇。然后再重新计算每个簇的误差函数平均值。这个过程不断重复，直到每个簇中各对象的差异不显著(或者说误差最小化)。划分聚类分析中还有一种算法是K中位数(K-Medians)或者模糊C均值(Fuzzy C-Means)。K均值的较大好处是，它尤其适合大规模的数据分析，因为它在算法方面不像分层聚类分析那么复杂。但是K均值算法的问题在于对异常值的敏感度过大，偶尔会导致十分小的聚类被划分出来。客户细分黑盒子

客户细分的目的是，基于现有数据的特征，将客户识别为尽可能同质的，或是尽可能彼此异质的群组(簇)。在将相似的要素进行分组或在发现数据中潜藏的模式方面，存在着不同的操作方法，这些方法源自机器学习领域“无监督学习”范畴。最重要的几个分类操作方法如下：

1. 分层聚类分析

这种操作方法是基于前期已经识别出来的数据特征(例如通过识别市场上同质化群组的社会人口统计学特征、使用行为和观念)测算出被观察者(个人或公司)之间的差异，并据此建立矩阵。这个矩阵也分为许多行，同数据库中被观察者的分类占比保持一致。被观察者之间的差异涵盖了所有已识别的数据特征，并且可以通过不同的方法计算出来。在分层聚合的过程中，一对儿被观察者在一个循环流程中被反复概括比对，就连最小的差异也会被发现。这个流程会一直不停地循环重复，直到所有的被观察者都被纳入某一个簇中。这个积聚的过程可以通过多种不同的算法实现。比较常见的算法包括单联聚类法(即SL聚类，又称邻近算法)和凝聚层次聚类(沃德法)。根据算法之间不同的聚合逻辑，会产生不同的聚合结果。采用单联聚类法可以识别出一些较小的边缘群体，若采用凝聚层次聚类法，那么簇的规模一般会比较均衡。

分层分析方法的优点是，不需要事先就知道簇数，而是借助于统计学参数预估出理想的簇数，从统计学的角度出发，理想簇数的确定需要考虑到组内同质和组间异质之间的平衡问题。分层分析方法的缺点是，计算量非常大，且只适用于小规模的数据量。很多时候，分层分析方法被用于分析通过社会调查形式获得的数据。分层分析流程也适用于从大数据中进行随机抽样，目的是获得稳定的分类并且确定簇的数量。后续，数据科学家会采取分区操作，将聚合结果扩展到整个数据库。

2. 划分聚类分析

在分层聚类分析过程中，不需要事先就确定簇的数量，这对模式探索型的聚合分析流程来说是一大优点。然而，在划分聚类分析中，必须要预先就确定好簇的数量。总体来看，划分聚类分析的各种方法间存在共性，都是根据预先确定好的簇的数量选择出相应数量的对象，将每个对象的初始值作为单一簇的平均值或者中心点，然后反复调整聚类划分，直到误差函数最小化为止。其中，最著名且应用最广泛的误差函数是K均值(K-Means)算法：先根据既定的簇数随机选择出相应数量的对象，将这些对象的初始值作为每个簇的平均值，对剩余的每个对象，根据其与初始均值之间的差异程度，将其归入相应的簇。然后再重新计算每个簇的误差函数平均值。这个过程不断重复，直到每个簇中各对象的差异不显著(或者说误差最小化)。划分聚类分析中还有一种算法是K中位数(K-Medians)或者模糊C均值(Fuzzy C-Means)。K均值的较大好处是，它尤其适合大规模的数据分析，因为它在算法方面不像分层聚类分析那么复杂。但是K均值算法的问题在于对异常值的敏感度过大，偶尔会导致十分小的聚类被划分出来。

另外，该算法是基于随机选取的初始值，因此在反复调整过程中，划分结果不是很稳定。此外，结果缺乏可再现性也是缺点之一。分层聚类分析可以补偿划分聚类分析的缺陷，因此可以将分层聚类分析中产生出的聚合分类结果作为K均值分析方法的簇数起点值。

3. 密度聚类分析

密度聚类分析背后的逻辑是，将被观察者视为一个空间内的点，尽管这些观察者之间存在很多差异化特征。首先我们要识别出这个空间内的高密度区和低密度区，并以此为基础建立起簇。这种分析方法的核心流程就是所谓的“具有噪声的基于密度的聚类方法”(Density-Based Spatial Clustering of Applications with Noise，简称DBSCAN)。根据这个空间内点之间的距离，我们会识别出密度较高的区域，并将这个高密区内的点作为核心点。还有一些点处于中等密度区域，我们将这些点称为边界点，被归至周边的簇。还有一些点，分布非常稀疏，我们将这些点称为噪声点。DBSCAN分析方法的优点之一，是不需要提前就确定簇的数量，这与分层聚类分析法有异曲同工之妙。与K均值分析法相比，DBSCAN方法具有一个关键优势，即可以识别非线性聚类，并可以有效对抗异常值。但是当空间簇的密度不均匀、间距差相差很大时，DBSCAN聚类质量较差。DBSCAN是相对比较新的聚类分析方法(1996 年才被提出)，目前已经发展成为机器学习领域最重要的算法之一。

4. 模糊聚类分析

目前既存的系统化聚类分析流程都是将一个因素明确地归入某一个簇中，这是所谓的“硬流程”。模糊聚类分析属于“软流程”，即某一个因素可以被归入一个以上的簇，换句话说，就是在识别聚类从属性的不同等级。模糊聚类分析中最有名的算法是模糊C均值(FCM)。首先假定每一个被观察对象都能够或者倾向于被归入一个簇，那么处于簇中心位置的被观察者归入这个簇的可能性高一些，处于簇边缘的被观察者纳入这个簇的可能性相对低一些，或者说簇边缘的被观察者也有可能被纳入其他簇。

从技术层面上看，模糊聚类分析的逻辑与K均值算法类似。模糊聚类分析这一设想的目的是，实现一个被观察对象被归入不止一个簇中，这在某些特定的应用案例中更具现实价值。如果市场和客户细分部门希望获得明确的聚类结果(例如要去评估某一聚类集合的市场潜力)，在对客户针对不同商品种类的消费行为和购买决策进行统计分析时，多维的聚类可能更有意义。例如，为了精准定位并营销旅行社潜在客户，我们可以利用模糊聚类分析方法，通过分析交易数据信息，从而去识别客户的旅行类型。此时，有些客户或被归入多个特征组，例如海滩度假组、城市游组等，这可以帮助我们为客户提供多样化的选择。