本书内容包括导论、文本检索、图像检索、音频检索、信息过滤、信息推荐以及发展前沿。对Web搜索的基本概念进行定义,阐述其科学价值和研究状况,根据Web搜索所涵盖的检索、过滤以及推荐技术,论述其中的核心问题、基本概念和基本方法,并介绍Web搜索若干新的研究方向。
本书的特点是将Web上的信息检索、过滤和推荐等技术定义为Web搜索,使其具有比较宽泛的内涵。将Web检索、过滤和推荐统一在一个体系中,既符合这三项技术发展的现状和趋势,又便于读者进行系统的学习和研究。另外,本书紧跟近年来的研究进展,具有显著的先进性和独特性。
本书可以作为信息、通信、计算机类研究生或高年级本科生的教材和教学参考书,也可作为专业技术人员的阅读和培训资料。
本书主要的特色是将信息"检索"、"过滤"和"推荐"一并考虑,具有前瞻性意义;另外一个特色是在讨论搜索的时候,不仅考虑了传统上为主的文本,也一并考虑了当前越来越重要的图像视频和语音的检索问题,很好地结合了作者的研究工作领域特长。
——李晓明
随着网络技术的发展和普及,Web搜索技术也变得越来越重要。现在的互联网上,信息——包括文本、图像、视频和语音信息——可以说已经非常丰富,关键是让用户方便快捷地找到这些信息。这正是本书所探讨的主要内容。
——马少平
郭军,教授,现任北京邮电大学信息与通信工程学院院长,日本东北学院大学博士、博士生导师。主要学术兼职包括国家自然科学基金委员会信息科学部学科评审组成员、北京市科学技术奖评审专家组成员、北京市计算机与控制学科高级职称评审组副组长、中国人工智能学会理事、中国自
第1章 导论
1.1 Web搜索的定义
1.2 Web搜索的发展背景
1.3 Web搜索的挑战性
1.4 Web搜索的科学价值
1.5 Web搜索的研究状况
1.6 本书的内容
第2章 文本检索
2.1 引言
2.2 Web信息采集
2.3 文本的保存与索引
2.4 检索模型
2.5 网页排序
2.6 查询重构
2.7 文本聚类
2.8 文本分类
2.9 特征选择
2.10 特征变换
小结
习题
第3章 图像检索
3.1 引言
3.2 图像检索的发展过程
3.3 文本自动标注
3.4 物体识别
3.5 文字识别
3.6 人脸检测与识别
3.7 视频检索
小结
习题
第4章 音频检索
4.1 引言
4.2 声学特征抽取
4.3 HMM模型
4.4 连续语音识别系统
4.5 语音关键词发现技术
4.6 语音词汇检测技术
4.7 非语音音频检索
4.8 音乐检索
小结
习题
第5章 信息过滤
5.1 引言
5.2 基本方法
5.3 模型学习
5.4 垃圾邮件及垃圾短信过滤
5.5 话题检测与跟踪系统
小结
习题
第6章 信息推荐
6.1 引言
6.2 关联规则挖掘的基本算法
6.3 可信关联规则及其挖掘算法
6.4 基于FPT的超团模式快速挖掘算法
6.5 协同过滤推荐的基本算法
6.6 基于局部偏好的协同过滤推荐算法
6.7 基于个性化主动学习的协同过滤
6.8 面向排序的协同过滤
小结
习题
第7章 发展前沿
7.1 内网检索及对象检索
7.2 基于文档的专家检索
7.3 对象检索及信息抽取
7.4 基于Web的对象检索
7.5 博客检索
7.6 TREC中的博客观点检索
7.7 文本情感分析
小结
习题
参考文献