目前大数据技术已经日趋成熟,但是业界发现与大数据相关的产品设计和研发仍然非常困难,技术、产品和商业的结合度还远远不够。这主要是因为大数据涉及范围 广、技术含量高、更新换代快,门槛也比其他大多数IT行业更高。人们要么使用昂贵的商业解决方案,要么花费巨大的精力摸索。本书通过一个虚拟的互联网 O2O创业故事,来逐步展开介绍创业各个阶段可能遇到的大数据课题、业务需求,以及相对应的技术方案,甚至是实践解析;让读者身临其境,一起来探寻大数据 的奥秘。书中会覆盖较广泛的技术点,并提供相应的背景知识介绍,对于想进一步深入研究细节的读者,也可轻松获得继续阅读的方向和指导性建议。
作者荣获美国政府颁发的“美国杰出人才”称号。大润发中国区董事长、飞牛网首席执行董事黄明端先生与eBay全球零售科学高级总监逄伟先生作序力荐!
将技术与商业需求相结合,深入剖析大数据商业应用中的困惑与难题,帮助读者更好地掌握技术支撑业务高速发展的方案!
黄申,博士,毕业于上海交通大学计算机科学与工程专业,师从俞勇教授。微软学者,IBMExtremeBlue天才计划成员。长期专注于大数据相关的搜 索、推荐、广告以及用户精准化领域。曾在微软亚洲研究院、eBay中国、沃尔玛1号店和大润发飞牛网担任要职,带队完成了若干公司级的战略项目。同时著有 20多篇国际论文和10多项国际专利,兼任《计算机工程》期刊特邀审稿专家。因其对业界的贡献,2015年获得美国政府颁发的“美国杰出人才”称号。
推荐序
推荐序二
前
第1章 抉择 1
第2章 数据收集 4
2.1 互联网数据收集 4
2.1.1 网络爬虫 5
2.1.2 Apache Nutch简介 11
2.1.3 Heritrix简介 14
2.2 内部数据收集 15
2.2.1 Apache Flume简介 17
2.2.2 Facebook Scribe和Logstash 21
2.3 本章心得 21
2.4 参考资料 22
第3章 数据存储 23
3.1 持久化存储 23
3.1.1 Hadoop和HDFS 25
3.1.2 HBase简介 28
3.1.3 MongoDB 35
3.2 非持久化存储 37
3.2.1 缓存和散列 37
3.2.2 Memcached和Berkeley DB简介 41
3.2.3 Redis简介 41
3.3 本章心得 44
3.4 参考资料 44
第4章 数据处理 46
4.1 离线批量处理 46
4.1.1 Hadoop的MapReduce 47
4.1.2 Spark简介 52
4.1.3 Hive简介 53
4.1.4 Pig、Impala和Spark SQL 56
4.2 提升及时性:消息机制 58
4.2.1 ActiveMQ简介 60
4.2.2 Kafka简介 61
4.3 在线实时处理 63
4.3.1 Storm简介 63
4.3.2 Spark Streaming简介 66
4.4 本章心得 66
4.5 参考资料 67
第5章 信息检索 69
5.1 基本理念 70
5.2 相关性 70
5.2.1 布尔模型 70
5.2.2 基于排序的布尔模型 71
5.2.3 向量空间模型 74
5.2.4 语言模型 75
5.3 及时性 77
5.4 与数据库查询的对比 81
5.5 搜索引擎 82
5.5.1 Web搜索中的链接分析 83
5.5.2 电子商务中的商品排序 86
5.5.3 多因素和基于学习的排序 88
5.5.4 系统框架 89
5.5.5 Lucene简介 93
5.5.6 Solr简介 98
5.5.7 Elasticsearch简介 104
5.6 推荐系统 108
5.6.1 推荐的核心要素 109
5.6.2 推荐系统的分类 110
5.6.3 混合模型 115
5.6.4 系统架构 116
5.6.5 Mahout 116
5.7 在线广告 119
5.8 本章心得 127
5.9 参考资料 128
第6章 数据挖掘 130
6.1 基本理念 131
6.2 数据的表示和预处理 133
6.3 机器学习算法 136
6.4 挖掘工具 157
6.5 本章心得 165
6.6 参考资料 165
第7章 效能评估 167
7.1 效果评估 168
7.2 性能评估 190
7.3 本章心得 202
7.4 参考资料 202
第8章 大数据技术全景 204
第9章 商品太多啦!需要搜索引擎 207
9.1 业务需求 207
9.2 产品设计和技术选型 208
9.3 实现方案 211
第10章 能否更主动?还需要推荐引擎 223
10.1 业务需求 223
10.2 产品设计和技术选型 225
10.3 实现方案 230
第11章 这样做的效果如何 241
11.1 业务需求 241
11.2 产品设计和技术选型 242
11.3 实现方案 243
第12章 这个搜索有点逊 258
12.1 业务需求:还要搜得更多 258
12.2 “还要搜得更多”:产品设计和技术选型 259
12.3 “还要搜得更多”的方案实现 261
12.4 业务需求:还要搜得更准 265
12.5 “还要搜得更准”:产品设计和技术选型 266
12.6 “还要搜得更准”的方案实现 271
12.7 业务需求:还要更快 273
12.8 还要“变”得更快:产品设计和技术选型 274
12.9 还要“搜”得更快:产品设计和技术选型 275
12.10 业务需求:给点提示吧 280
12.11 给点提示吧:产品设计和技术选型 282
第13章 支持更高效的运营 287
13.1 业务需求:互联网时代的CRM 287
13.2 互联网时代的CRM:产品设计和技术选型 288
13.3 业务需求:抓住捣蛋鬼 291
13.4 抓住捣蛋鬼:产品设计和技术选型 292
13.5 业务需求:销售之战 295
13.6 销售之战:产品设计和技术选型 296
后记 299
作者在1号店的三年(2012-2014年),正是1号店系统快速发展的三年,即从大型电商系统转向巨型电商系统的阶段。而作者在此期间的贡献,对1号店 搜索系统的变革起到了关键的作用,他和他的团队也藉此获得了“总裁特别奖”。通读全书,我发现该书不仅是大数据技术的探讨,也是技术和业务结合的心路历 程。对大数据感兴趣的同行,定能从中获得全新的认识。
—— 韩军 原1号店CTO 现欧电云科技董事长
我和作者曾经一起负责过eBay全球的数据挖掘项目,他的商业敏感度和创新精神让我记忆犹新。不过没有想到,对于写书,他也是个好手。此书既讲述大数据的理论知识,也介绍实际经验,适合不同层次的读者,并能帮助他们解决商业应用中的困惑与难题。
—— Yongzheng Zhang LinkedIn(领英) 商务分析经理
我曾经负责整个1号商城的运营,同作者有过不少项目上的对接。对于我们提出的运营相关问题,作者都能运用合适的技术方案,顺利地解决。当得知他要撰写一 本与大数据技术相关的图书,我已经迫不及待地想一探究竟,感受业务和技术融合的神奇。希望广大读者在读完此书后也能收获颇丰。
—— 吴海泉 原1号店副总裁 现美的集团电商总经理
作为互联网企业,通常面临的难题是大数据相关的产品设计门槛较高,缺乏专业的人才。当作者向我介绍这本书的时候,我没有想到他竟能将种种复杂的技术问题,说得如此生动、易懂、易学。相信这样的书籍,对数据产品经理的培养、大数据技术的产品化都有不小的促进作用。
—— 王欣磊 百度LBS新业务产品总监
作者对业务运营具有深刻理解,他加盟1号店的阶段,公司在搜索、数据处理技术方面的实力猛增,相关体验和口碑大幅提升。这次他将其宝贵的实战经验在此书中和大家分享,相信对于广大读者而言实在是非常棒的福利,不容错过。
——黄志雄
原1号店副总裁 现永辉集团电商总经理
我和作者有过不少项目合作,其敏锐的业务洞察力给我留下了深刻的印象。从他提供的书稿中,我确实体会到其深厚的专业功力和精心的全文构思。对于每位大数据产品经理而言,这样深入浅出的书籍必不可少。
——张旭强
原1号店产品负责人 现高级产品专家
本书作者对大数据以及互联网技术有着自己独特的见解。相信本书会给大家带来更为完整和详细的技术剖析,帮助读者更好地理解技术如何支撑业务的高速发展。
——刘尚堃
京东商城 推荐搜索部总监
在与作者的探讨中,我深刻感受到了他在挖掘算法和大数据处理方面的专业素养。这本书秉承了他一贯严谨、务实的做事风格,将需求和技术紧密结合,仔细阅读一定会深受启发。
——诸超
唯品会 云计算高级总监
满意
不错!
^_^
有点技术含量,需要技术基础才能看懂
质量不错,快递也可以。
很好
1万个赞
很好的一本书
很好,谢谢!
内容很好,很基础,值得好好的阅读!!!
很不错的一本书。
满意满意满意
质量很好 书很新 值得购买 下次会介绍朋友买
内容通俗易懂,基础版,值得一看。
上午拿到书,大致翻过一遍,让人觉得惊喜。毕竟国内原创的书写到这个地步相当不易了。特别是后半部分都是大数据设计的干货,值得收藏和研究
实用型的大数据丛书,对于技术选型很有帮助。特别是搜索和推荐系统介绍的算法,架构介绍的很详细,非常满意