当下,大数据是一个热门的话题,很多领域的学者,从不同的角度进行了深入的讨论。本书从大数据的历史、内涵、哲学和技术四个角度,解析大数据,让读者对大数据有更深入的了解。 《品味大数据》共11章,大致分为4块:第1-3章主要漫谈了大数据的有趣的历史,包括数据的启蒙、信息载体的演变和数据管理的发展脉络。第4-6章主要聊聊大数据的内涵,包括大数据与哲学及第四科学范式的关联。第7-9张是大数据的杂谈,包括大数据的用途、可能面临的陷阱以及通过小故事对大数据进行一些烦死,第10-11章主要涉及大数据的技术,包括100余篇大数据论文的漫读及Hadoop的初级实战篇。
品味大数据》与市面上图书不同的是从多维度对大数据的历史、内涵、哲学与技术四个方面对大数据进行了深入的探讨,用百位大牛的观点论辩来帮助读者形成自己的大数据认知体系。
图书行文幽默、结构完整、图文并茂通俗易懂,让读者寓学于乐。
率先采用正反辩论的方法对观点形成阐述,让读者可以从辩证的角度去品味大数据。
张玉宏 留美博士,曾跟随导师Alok Choudhary教授参加了奥巴马总统办公室有关Big Data(大数据)研讨会。
张玉宏 / 在路上,学而时习之 序
及时章 大数据简史漫谈之一——数字的来源及数据思维的发展
人类的“数觉”与计数系统 1.1
1.2 关于二进制的一点讨论
数字的诞生与广泛应用的匹配法 1.3
数学的“问世”与“算法”的祖师爷 1.4
文字的“出炉”与罗马语言的来历 1.5
古代的数据保存之道与文言文的“无奈”精简 1.6
古代的“数据中心”——图书馆 1.7
古代计算工具的诞生及其演变 1.8
1.9 统计学诞生——数据思维的渐起
美国式的人口普查——大数据催生新技术 1.10
1.11 中国式的人口统计与数目字管理
本章小结与思考 1.12
大数据简史漫谈之二——近代存储体系发展中的那些人和事 第二章
2.1 数据复制与传播中的问题及解决方案
影响人类发展进程的几次能源革命 2.2
2.3 不能遗忘的电气时代的传奇——特斯拉
霍尔瑞斯的穿孔卡 2.4
2.5 现代通用计算机的奠基者——图灵和冯 诺伊曼
波弗劳姆的磁带发明 2.6
华人王安电脑的磁芯存储器 2.7
IBM 的传奇磁存储世界 2.8
网络存储世界的兴起 2.9
2.10 本章小结与思考
大数据简史漫谈之三——数据库的发展与大数据的兴起 第三章
3.1 近代“数据中心”之梦殇
“穷”则思变之网状数据库 3.2
浓墨重彩之关系数据库 3.3
突破数据共享封锁线的领头人 3.4
高手对决的数据仓库领域两侠客 3.5
向非结构化进发的数据大趋势 3.6
大数据术语的历史渊源 3.7
现代大数据的诞生 3.8
3.9 在混沌和秩序转化中螺旋上升
本章小结与思考 3.10
第四章 大数据的内涵
从数据、信息到知识、智慧的飞跃 4.1
大数据的多版本定义 4.2
4.3 大数据——新时代的生产资料
信息(数据)化、第二经济与数据思维的转变 4.4
4.5 大数据——来自学术界的青睐
大数据——来自政府层面的重视 4.6
大数据——来自工商业的热捧 4.7
大数据内涵——“岂止于大” 4.8
大数据之“大”有不同(Volume) 4.8.1
大数据之唯“快”不破(Velocity) 4.8.2
大数据之五彩缤纷(Variety) 4.8.3
大数据之价“值”无限(Value) 4.8.4
包括但不限于 4V 4.8.5
4.9 本章小结与思考
大数据时代的一点哲学思考 第五章
5.1 哲学与科学的关系——为什么计算机专业博士也发个哲学文凭(Ph.D)
大、小数据的“质”不同 5.2
5.3 大数据的数理哲学基础——同构关系
大数据认识主体的变化——“替人消灾”式的认识能免责吗 5.4
5.5 波普尔的世界 3——秦始皇的长生梦,找错了空间
大数据认识对象的变化——提升普罗大众的权重 :“长尾理论” 5.6
认识论对大数据研究的指导意义 5.7
科学始于观察——证实主义 5.7.1
证实主义的困顿——来自波普尔的批判 5.7.2
科学始于问题——波普尔的贡献 5.7.3
科学始于数据——大数据时代的科学转机与思考 5.7.4
大数据的悲观思潮 5.7.5
本章小结与思考 5.8
大数据研究的第四范式 第六章
6.1 谷歌公司的“不务正业”
塞吉 布林的“秘密”病情 6.2
布林病情的“治疗”方案 6.3
詹姆斯 格雷的科学第四范式 6.4
科学研究的其他三个范式 6.5
6.6 本章小结与思考
大数据,大有为 第七章
洞察带来价值 7.1
7.2 案例 1 :谷歌是如何“越俎代庖”地预测流感的
流感治疗网络化 7.2.1
“无意间”生产的搜索数据 7.2.2
谷歌工程师们的杰作——流感预测趋势(GFT) 7.2.3
谷歌的“越俎代庖”为何成功 7.2.4
案例小结 :数据、模型与理论 7.2.5
7.3 案例 2 :“全数据”是如何为叶诗文抱不平的
叶诗文事件的新闻背景 7.3.1
什么是性能分析法 7.3.2
质疑的合理性在哪里 7.3.3
“大数据 = 全数据”的威力——为叶诗文抱不平 7.3.4
案例小结 7.3.5
案例 3 :大数据是如何对抗癌症的 7.4
7.4.1 癌症大数据的特征是什么
癌症从哪里来 7.4.2
大数据用之于癌症斗争,挑战何在 7.4.3
癌症诊疗的基础大数据——获取难 7.4.4
数据化带来的颠覆式医疗——执行难 7.4.5
哪些机构在用大数据对抗癌症 7.4.6
癌症大数据的重要源头——基因组数据 7.4.7
大数据对抗癌症,前景如何 7.4.8
案例小结 7.4.9
更多大数据应用案例 7.5
7.6 本章小结与思考
大数据之坑与小数据之美 第八章
引子——哪个 V 8.1 才是大数据最重要的特征
“大”有不同——Volume(大量) 8.1.1
8.1.2 数据共征——Velocity(快速)与 Value(价值)
五彩缤“纷”——Variety(多样) 8.1.3
大数据的力量与陷阱 8.2
大数据的力量 8.2.1
大数据的陷阱 8.2.2
今日王谢堂前燕,暂未飞入百姓家——大数据还没那么普及 8.2.3
8.2.4 你若安好,便是晴天——小数据之美
本章小结与思考 8.3
12 第九章 个小故事,思考大数据
故事 1 :大数据都是骗人的啊——大数据预测得准吗 9.1
故事 2 9.2 :颠簸的街道——对不起,“n=all”只是一个幻觉
故事 3 :醉汉路灯下找钥匙——大数据的研究方法可笑吗 9.3
故事 4 :园中有金不在金——大数据的价值 9.4
故事 5 9.5 :盖洛普抽样的成功——大小之争,“大”数据一定胜过小抽样吗
故事 6 :点球成金——数据流 PK 9.6 球探,谁更重要
故事 7 :啤酒和尿布——经典故事是伪造的,你知道吗 9.7
故事 8 9.8 :谷歌流感预测——预测是如何失效的
故事 9 :Target 超市预测女孩怀孕——“大数据”智慧,还是愚蠢 9.9
故事 10 :你的一夜情我知道——大数据的隐私之痛 9.10
故事 11 9.11 . :大数据,无须惧——比萨店员更能知道顾客所有的信息吗
故事 12 9.12 :扑朔离迷的“因果关系”——苏格拉底的“诡辩术”
本章小结与思考 9.13
第十章 大数据技术漫谈——需要读懂的 100 篇大数据文献
大数据价值的实现 10.1
10.2 大数据分析的关键架构层
架构的演进 10.3
几个重要的概念 10.4
10.5 文件系统层
数据存储层 10.6
Managers) 资源管理器层(Resource 10.7
调度器(Schedulers) 10.8
协调器(Coordination) 10.9
Frameworks) 计算框架(Computational 10.10
10.11 Analysis) 数据分析层(Data
Integration) 数据集成层(Data 10.12
Frameworks) 操作框架层(Operational 10.13
10.14 本章小结与思考
牛刀小试之 Hadoop 实战 第十一章
什么是 Hadoop 11.1
Hadoop 发展历程 11.2
Hadoop 集群服务器的安装与配置 11.3
7 安装 CentOS 11.3.1
配置 Java 环境 11.3.2
11.3.3 启动和配置 SSH 服务
安装 Hadoop 11.3.4
启动 11.3.5 Hadoop
World 版 Hadoop 程序——WordCount 运行 Hello 11.4
11.5 全分布模式下的 Hadoop 集群构建
Linux 以运行等级 3 启动 11.5.1
在 11.5.2 OS 环境下克隆虚拟机 Windows 和 Mac
设置静态 IP 地址 11.5.3
修改 11.5.4 hosts 文件
虚拟机的同步配置 11.5.5
SSH 的免密码登录 11.5.6
全分布模式下安装 Hadoop 11.5.7
同步配置文件 11.5.8
11.5.9 创建所需目录
关闭防火墙 11.5.10
格式化文件系统 11.5.11
11.5.12 启动 Hadoop 守护进程
验证全分布模式 11.5.13
默认配置文件所在位置 11.5.14
关闭 Hadoop 11.5.15
Hadoop 的运行错误查找 11.5.16
WordCount 代码详解 11.6
MapReduce 编程模型 11.6.1
WordCount 的 MapReduce 处理流程 11.6.2
WordCount 源码解读 11.6.3
本章小结与思考 11.7
记 后
5.2 大、小数据的“质”不同
大数据的实质是什么?在第四章中,我们已经讨论过这个议题。虽然当前学术界和实业界对此都还没有一个统一的定义或认知,但从狭义的字面来理解的话,它应该与小数据相对应,大数据是指数据量特别巨大,超出了常规的处理能力,需要引入新的科学工具和技术手段,方能够进行处理的数据集合。
于此对应的,所谓的小数据指的是,数据规模比较小,用传统的工具和方法就足以完成处理的数据集合。下面我们用一段天文学家第谷 布拉赫和约翰尼斯 开普勒的故事来举例说明小数据的应用。
在16 世纪,有位杰出的占星学家、天文学学家,名叫第谷 布拉赫(TychoBrahe,1546—1601)。第谷出生于丹麦的一个贵族家庭。早在1572 年,第谷凭借自己出色的观察能力,发现仙后座中的一颗新星,后来受惜才的普鲁士国王腓特烈二世(Friedrich Ⅱ)b 的邀请,他在汶岛建造天堡观象台,经过20 年的观测,发现了许多新的天文现象。第谷是天文史上的一位奇人。他对于星象所做的观测精度之高,是他同时代的人望尘莫及的,他编纂的星表的数据甚至接近了肉眼分辨率的极限。
1597 年, 有位才华横溢的年轻人约翰尼斯 开普勒(Johannes Kepler,1571—1630)渐露头角,年仅26 岁的他出版了自己对宇宙模型猜想的著作——《神秘的宇宙》(Mysterium Cosmographicum)。在这本书中,开普勒设计了一个非常有趣的、由许多有规则的几何形体构成的宇宙模型。
1599 年,第谷看到这本书,十分欣赏开普勒的智慧和才能,立即诚邀他做自己的助手。开普勒来到第谷身边以后,师徒二人“珠联璧合”,朝夕相处,对天文学领域共同的狂热,让他们结成忘年交。
但是,好景不长,开普勒受多疑的妻子的挑唆,突然和第谷决裂,不辞而别。开普勒的离去,使爱才如命的第谷非常伤心。他意识到这是一种误会,立即写信给开普勒解释,并胸怀宽广地请他回来继续合作。开普勒读了第谷的诚挚来信,感到十分愧疚。当两人重修旧时,第谷不记旧怨,不但把才华出众的开普勒推荐给国王腓特烈二世,还把自己20 多年辛勤工作积累下来的观测资料和手稿,全部交给开普勒使用。他对开普勒说:“除了火星所给予你的麻烦之外,其他一切麻烦都没有了。现在我把火星的研究也要交托于你,它够你一个人麻烦的了。”
开普勒在接手第谷观测的数据后,这批花费第谷20 多年时间得到的数据,很快就在开普勒手中“妙笔生花”,开普勒经过手工计算,从中发现了著名的“行星运动三大定律”,即轨道定律、面积定律和周期定律。这三大定律最终使开普勒赢得了“天空立法者”的美名。开普勒的成就,来自坚实的数据支撑。他凭借手工,就能处理完第谷20 多年收集而来的数据。这一案例反映的是他处在一个“小数据时代”。
随后,与开普勒同时代的牛顿,通过论证开普勒行星运动定律与他的引力理论间的一致性,证明了地面物体与天体的运动都遵循着相同的自然定律,从而发现了万有引力和三大运动定律,现在看来,这也是基于小数据的。这些经典理论的提出,奠定了此后三个世纪里物理学领域的科学观点,并成为了现代工程学的基础。再后来,随着科学的发展,数据量有了较大的增加,为了处理那些在当时看来的“大数据”,统计学家发明了抽样方法,其基本要求是,在确保所抽取样品具备“随机性”的基础上,来保障样本可以对全体具有充分的代表性,从而推断全体样品的特性,由此解决了“大”数据处理的难题。
而当前的大数据,不仅是所谓数据海量,而且各种数据的差别非常大,用抽样方法难以保障它的有效性。传统的统计方法,之所以不能适用于现在的大数据,大致源于如下三点原因。
(1)在第四章中,我们讨论了大数据的“4V”特征,其中最能反映大数据和小数据不同之处,就是它的“多样性”(Variety):由多种数据来源组成的一个的数据。在多种数据源的应用环境中,抽样很难保障它的“无偏性”(unbiasedness)。
(2)统计学家们设计的统计模型,其结论的性,强烈依赖于与结论有关的应用类型。目前大数据的主力军——网络数据呈现长尾分布(长尾理论将在后面的小节介绍),使得传统的标准方差等衡量标准失效,“长相依”和“不平稳”常常超过了经典时间序列的基本假设。
(3)传统的机器学习方法,通过先在较小的数据集样本中学习,然后调整参数,验证分类、判定等“假设”和“模型”的适用性,再推而广之到更大的数据集上。通常来说,一般的NlogN、N2 N2 等级别的算法复杂度,是可以容忍的,然而面对PB 级别(1PB=1 024TB=1 024×1 024GB=1 125 899 906 842 624 Bytes)的大数据处理,这种算法复杂度已经难以忍受,因此需要设计新的数据处理算法来适应这一新情况。江西财经大学科技哲学教授黄欣荣,对小数据和大数据“质”的区别也做了比较到位的描述。
(1)从采集手段上来说,小数据属于人工数据,是有意测量、采集的数据;而大数据大多数是由智能系统自动采集或人们无意留下的数据(比如,用户在搜索引擎中使用的搜索关键字、服务器运行的各种日志等),因为当时没有什么明显的用途,很多大数据一度被称为“垃圾数据”。目前,“数据排放”(data emission)——互联网用户留下的点点滴滴(如点击记录、浏览时间、评价内容等),都可以发掘出价值,目前正成为网络经济主流。在大数据时代,有个口号就是,记录一切数据,等待有趣的事发生。在特定的生态环境下,用适合的工具挖掘,大数据中的所谓“垃圾数据”就不再垃圾。
(2)从存储介质和处理平台来看,小数据因为容量较小,常存储于本地存储介质中,其处理平台仅需单机即可完成,数据的处理者清楚地知道数据“身处何地”,可以“亲力亲为”地编写对应的数据分析程序。而现在的大数据,往往因数量过大,而不得已存放于“云端”中,“云深不知处”,云计算利用自己的“虚拟化”技术,让用户不知道也不需要知道数据存在哪台“云计算”的服务器上。就如同用水、用电一样,用户无须知道自来水厂和发电厂在哪里一样,仅仅打开水龙头、按下开关就能得到水资源和电资源。所谓的云计算,就其本质而言,就是一种以互联网为连接中介,以租赁服务的方式,为用户提供动态可伸缩的虚拟化资源的计算模式。中国宽带资本基金董事长田溯宁先生曾总结说,大数据与云计算就好比一个问题的两面。如果说大数据是有待解决的问题,那么云计算就是问题的解决方法。通过云计算对大数据进行分析、预测,会使决策更加精准,释放出更多的隐藏价值。大数据,这个21 世纪人类探索的新边疆,正在被新的计算模式——云计算所发现和征服。
(3)从数据性质来说,小数据因“有意采集”来支持研究者的假设或观点,因此可归属于“主观数据”。相比较而言,大数据则因没有事先渗透主观意图,数据的生产者反而能“真情流露”,从而更显客观性,因此属于“客观数据”。此外,根据舍恩伯格教授的观点,大数据不再是随机样本,而是全体数据。全数据是由多维度数据构成的。一个事物的全息可见,自然比单维度的采集要来得客观。有些商家(特别是大型电商)就是利用顾客的多维度、多层面“用户画像”来更刻画客户特征,从而达到精准营销。舍恩伯格教授在其著作《大数据时代》一书中,开门见山地提出了大数据的哲学意义:“大数据开启了一次重大的时代转型。就像借助望远镜,让我们能够感知浩瀚的宇宙,借助显微镜,我们能够观测渺小的微生物一样,大数据正作为人类认知世界的新手段、新方法、新工具,改变我们的生活、工作以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄意待发……”由此可见,大数据,除了在信息科学领域成为研究热点外,在哲学层面的认知,也应有所突破,这也是人类进一步认识世界的迫切需求。
买书必**当!书还真不错,一直信赖当当。希望当当一直以这种良好姿态、健康的发展、负责的态度来服务书友。十分感谢当当给我带来的实惠、方便和快乐!
很不错的,内容详实,文笔也不错,开卷有益!
文笔不错,讲的还不错,质量还行。
不错的书,很有深度!
文笔好啊,内容也不错,花了功夫写的书!
包装挺好的,整体也很不错!
内容不错,文笔不错,值得一读!GG…
本书章节设置合理,作者从大数据的历史、内涵、哲学与技术几个维度进行了系统的阐述。无论是文科生还是理科生的科技爱好者,都能够有所启发。
书的排版不错,纸质也不错。刚刚翻阅了一下,书中还有扫码寻宝。非常期待!
还不错啊,挺通俗易懂的。但内容有点丰富,而排版有点拥挤,读起来有点累。
这本书对我很有启发,作者是名严谨的学者,论述有依据,但语言又很有趣,读后既长了知识,又感觉很有意思,一本非常好的书,满分推荐。
行文如流水,将本是非常枯燥的内容娓娓道来,引人入胜。书中的小故事、小事例生动有趣,语风诙谐幽默。专业人士抑或非专业人士,皆可读!
非常经典的一本大数据科普图书,谢谢作者的用心和努力!已经是第二次购买了!送给朋友学习。好评,好评!
浅显易懂,文笔生动。是不可多得的介绍大数据入门或科普好书。
挺不错的!大数据的抽象各种概念娓娓道来,浅显易懂!故事性,可读性都很好!喜欢!
看了几天才来评论论,难得的一本好书,作为门外汉,从作者生动的讲解中,对大数据有了基本的了解,受益匪浅。推荐给像我一样的初学者
本书博采众长,深入浅出,科普类的图书居然被作者写出了文学作品的色彩,一直不喜欢太学术的东西,但这本书却增加了很多的趣味,实在难得。包装设计也很棒,看上去挺高端大气上档次的,基本上每页都有题注,作者真是参考了不少内容,才有这么精彩的内容呈现!
《品味大数据》这本书从历史,哲学与技术等多个角度进行了大数据的相关阐述,行文生动,详列得当,使我受益匪浅。通过该书让我对大数据有了更深的理解,许多恰如其分的例子,让我明白了大数据的魅力和价值。该书不同于以往我读到的关于大数据方面的书籍,避开晦涩的知识讲解和相关阐述。这是一本值得人手一册的好书籍,感谢作者的倾心打造,呈现给我们一个大数据史诗!!!
这本书将目前对于大数据不一样的看法一一罗列,内容深入浅出,它由数据的来源讲起,深入到大数据的实际应用。读过之后令人受益匪浅,是一本不可多得的好书。
买回来花了几天时间读完,才过来评论。大数据是这几年比较流行的技术话题,也读了几本相关的书籍。相比而言,这本《品位大数据》颇具独到之处。作者以轻松写意的笔调将相介绍了大数据这一枯燥严肃的技术话题,对于人文社科背景的阅读者来说,很容易轻松愉悦地接受这一内容。书本的前半部分介绍了大数据基本的概念和应用,其间穿插着有关的历史哲学小故事,使得科技文献也显示出摇曳生姿的趣味,吸引读者一步步读下去。后半部分则着重介绍大数据相关的技术和科研现状,文风也偏向简洁,在并不算长的内容里对大数据相关的技术进行了全面而有重点的展示,非常有助于初学…
这是一本关于大数据的很好的书,作者力求将高深的理论叙述的浅显易懂,可以让那些对大数据方面的了解较少,但是又对此感兴趣的读者,通过阅读此书,能够比较容易和快速的学习到相关知识。
这本有关大数据的图书写得深入浅出、妙趣横生,在轻松的阅读中却能深深领悟到很多大数据的内涵知识。作者文笔不错,又阅读大量文献,使得该书不仅易读,而且内容详实可信,是一本难得的大数据入门书籍。
整体读下来,不像是技术类的书籍 ,语风很幽默,通俗易懂。非专业人的我对大数据时代有了自己的领悟,从事营销的家人 也是一口气读完,各有所得。真心评价不错
通过该书对大数据有了更深的理解,许多恰如其分的例子,体现了大数据的魅力和价值。讲解得风趣幽默,娓娓道来,是特别适合年轻人(或初学者)来读的一本大数据入门书,---看后受益匪浅。是不可多得的大数据书,力荐推介….
《品味大数据》这本书和《大数据时代》都是大数据科普类图书,只不过《品味大数据》更具“本土性”,书中例子妙趣横生,配图页相当有意思,甚至还有涉及运用的章节,看后受益匪浅。如果书中能够再多一些趣味性的实践例子就更好了,五分。