本书为国家文化产业项目“基于大数据架构的中国古村落文化保护与传承云服务平台建设”的阶段性研究成果。进入大数据时代,如何有效发挥数字化技术在古村落保护与传承中的作用,已成为学界关注的焦点。本书从大数据分析与知识挖掘的角度来研究古村落保护问题,利用广东省古村落实际数据,进行大数据分析与挖掘,对古村落文化遗产保护与传承提供新思路。以广东200多个古村落为示范,针对传统文字、图片、视频资源数字化处理的难题,提出了古村落文化资源数字化处理模式,对古村落文化大数据进行挖掘整理,包括资源整理、标注、检索、分类、构建知识图谱以及资料深度关联分析等。
古村落是历史文化遗产的重要组成部分,反映了不同历史时期、不同地域、不同社会经济发展形成和演变的历史过程,古村落保留着丰富多彩的物质文化遗产和非物质文化遗产,凝聚着中华民族生生不息的精神,是维系华夏子孙文化认同的纽带,是中华民族文化的源头和根基。
大数据、云计算等新一代信息技术的迅猛发展,为古村落文化遗产保护与传承提供了新的思路与工具。利用大数据技术以及网络众包模式来研究古村落保护与传承问题,是一种“跨界”和“混搭”,其探索意义在于“去粗取精”和“合纵连横”,终实现1 1远大于2的信息化价值目标。古村落文化遗产的数字化保护与传承,获得大量的古村落数据信息是步。有了古村落大数据,还需要利用大数据分析技术把碎片化的数据进行分析和挖掘,从而产生有价值的信息和知识。大数据分析技术包括描述性分析、预测性分析和规范性分析,本书主要应用描述性分析方法,特别是应用聚类分析方法对古村落大数据分析与挖掘进行了初步尝试,得到了部分有意义的结果,现将这些方法与结果整理出来,希望能够为古村落研究者提供一种新的思路与方法。
本书共有十章,各章的内容、主要观点和结论如下:
章“中国古村落文化遗产保护”介绍了古村落与传统村落的概念辨析、古村落物质文化遗产与非物质文化遗产以及古村落文化遗产的数字化保护。古村落保护和发展是一项复杂的系统工程,提出了将古村落文化遗产的数字化保护问题看作由三个空间耦合关联而成的古村落复杂系统综合集成问题,借助于信息技术和相关设备,采用不同类型的数字化方法,将古村落物质文化遗产和非物质文化遗产的各种信息数字化,并长期存储于信息世界中,以实现三个空间的有机融合,进而达到对古村落文化遗产的抢救保护与弘扬。
第二章“中国古村落文化保护与传承云服务平台”介绍了古村落大数据和“基于大数据架构的中国古村落文化保护与传承云服务平台建设”文化产业专项资金项目。古村落数据涵盖了大量历史、人文与社会经济信息,呈现出容量大、多来源、多格式、多类型等特点,是典型的大数据,包括古村落物质文化遗产大数据、非物质文化遗产大数据和古村落网络大数据。基于大数据架构的中国古村落文化数字化保护与传承云服务平台是一个知识服务系统,因而项目组提出以知识系统工程方法论为指导来开展研发、构建和运营活动。
第三章“基于网络众包模式的古村落大数据采集”介绍了如何应用网络众包模式开展古村落大数据采集工作。网络众包模式是一种大众化知识生产模式,基于网络众包模式的古村落大数据采集及处理方法,可以实现海量文字资料、图片资料、音频和视频资料的数字化采集、分类、标引等工作。通过网络众包模式,将更多的闲置资源充分集结到一起共同完成同一项事情,使得任务量庞大的古村落大数据采集工程的实现成为了可能。
第四章“古村落文献知识图谱分析与主题发现”从知识图谱和主题发现两个方面对古村落文献进行计量分析,探索国内对古村落研究的现状和特点,得出古村落知识图谱领域主题,为古村落研究领域的科学研究提供参考。在进行古村落文献主题发现时,针对传统共词分析方法存在的缺陷,提出了基于AP聚类的GMAP共词分析方法,数据预处理阶段使用g指数和互信息概念,在聚类分析阶段使用AP聚类方法,后得出领域主题。
第五章“古村落领域文献主题演化分析”在第四章“古村落文献知识图谱分析与主题发现”基础上,进一步深入研究古村落领域文献的主题动态演化情况,提出了基于GMAP共词分析法的主题演化框架,从而探究广大学者们对古村落进行哪些方面的研究,古村落领域的主题又是随着时间如何演化的,并将研究结果用ThemeRiver模型进行可视化,终将主题演化结果直观地展示出来,并从宏观和微观两个层面对主题演化状态进行分析。
第六章“传统村落地理位置可视化与空间分布特征”以入围中国传统村落名录的广东省160个传统村落为研究对象,运用空间统计分析和数据挖掘中的聚类分析方法,对广东省传统村落的密度分布、地理集中指数、空间自相关性、地理位置可视化和村落群聚类结果进行研究,以期能对广东省传统村落的合理开发、利用和保护提供参考。研究发现广东省传统村落主要集中于珠三角地区和粤北地区,在地理分布上呈现珠三角、粤北分布多,粤东、粤西分布少的规律;传统村落较集中分布于某些地级市,且前三批随批数增加,集中程度越大,前四批的集中程度比前三批的稍有降低。
第七章“古村落网络资源评价方法与网络传播力”提出了一种古村落网络信息资源评价流程框架,通过评价古村落网络信息资源来衡量古村落的网络传播力。以广东省204个古村落为计算实例,使用古村落网络资源评价方法得到了一个相对合理且具有管理参考价值的综合评价结果。通过探究发现排在前十名的古村落较多位于广州市,广东省古村落在百度百科词条和数字地图方面的资源相对丰富,在旅游网站和新闻数量上的资源丰富程度一般,在古村落主页和中国知网上的资源相对匮乏。
第八章“古村落特征提取与古村落画像”介绍了如何从大量古村落网络信息资源中抽取能反映和代表古村落特征的有用信息,并依据这些有用的信息完成古村落的画像。在广泛的古村落网络信息资源中,文本数据是为普遍的一种数据类型,对于挖掘古村落特征具有重要价值。首先,通过制定古村落候选特征的筛选原则,采用文本挖掘方法进行古村落特征抽取;然后,依据古村落特征,总结村落的特点,生成古村落画像,并分别从两个不同方面对村落画像进行特征维度分析和特征相关性分析;后,以小洲村为例进行了实例计算及相关结果分析。
第九章“基于AP聚类的古村落视频与图像数据挖掘”介绍了如何通过AP聚类等技术对古村落视频和图像两类重点的影像资料进行挖掘和分析。将增量式AP算法应用于古村落视频数据聚类,生成的视频摘要可以帮助历史学家和民俗专家在短时间内把握大量视频的内容概要,进而把握古村落的总体特征以及古村落之间的区别和联系。将基于AP聚类的任意形状簇聚类应用于聚类古村落图像数据,通过图像分割的方法,描绘出图像的大致轮廓,从而便于民俗专家研究工艺品的艺术风格。
第十章“广东省古村落信息管理原型系统设计与实现”介绍了广东省古村落信息管理原型系统的需求分析、系统设计与系统实现。利用信息系统分析与设计的相关理论,对广东省古村落独有的特性进行需求分析;在需求分析的基础上,确立了广东省古村落信息管理原型系统的采集目标和系统的使用对象,根据古村落现有的建筑、艺术、民俗、活动等信息进行表格的设计,并根据不同类型用户的需求进行相应的数据库设计。在数据库和目标设计基础上,利用现有的HTML5网页开发技术、JSP动态网页开发技术以及数据库技术,完成了广东古村落信息管理系统的原型系统的设计与开发。
郭崇慧,大连理工大学,教授、博士生导师,系统工程研究所所长,大数据分析与挖掘、知识管理、复杂系统建模与优化、决策理论与方法;出版《信息与知识管理》《管理决策方法》《面向产品生命周期的知识协调管理理论与方法》等多部专著与教材。
本书是“基于大数据架构的中国古村落文化保护与传承云服务平台建设”项目成果之一。
本书于2017年6月15日在广州华南理工大学12号楼,被新华网、中国新闻网、光明网、中国艺术报、广州日报、羊城晚报、南方都市报、新快报、信息时报、羊城地铁报、广东电视台等媒体重点报道。
新华网报道www.gd.xinhuanet.com/newscenter/2017-06/16/c_1121155645.htm#10006-weixin-1-52626-6b3bffd01fdde4900130bc5a2751b6d1
中新网报道 dw.chinanews.com/chinanews/content.jsp?id=8252012 classify=zw pageSize=6
新快报app.myzaker.com/news/article.php?pk=594264b41bc8e0e54500053d
广东卫视新闻联播v.gdtv.cn/star/gdxwlb/2017-06-15/938126.html?from=timeline isappinstalled=0
信息时报ycp.ycwb.com/ycpFront/content/news_streets/2017061521260052819.html
南方都市报epaper.oeeee.com/epaper/G/html/2017-06/16/content_37809.htm?from=singlemessage isappinstalled=0 本书是“基于大数据架构的中国古村落文化保护与传承云服务平台建设”项目成果之一。
本书于2017年6月15日在广州华南理工大学12号楼,被新华网、中国新闻网、光明网、中国艺术报、广州日报、羊城晚报、南方都市报、新快报、信息时报、羊城地铁报、广东电视台等媒体重点报道。