《专利引文分析的理论与实践》是国内进行专利引文分析研究的探索之作。首先,从引文分析的概念和理论出发,把握知识流动这一共同主线,引申出专利引文分析的基本概念框架,阐释专利引文分析的内在机理。某次,从空间和时间两个维度,基于海量数据并利用可视化工具和方法,形象和直观地揭示专利引文活动中知识扩散与演化轨迹。后,基于专利引文数据对技术发展的普遍特征和个体特征进行测度与分析。《专利引文分析的理论与实践》从理论、方法相应用三个层面展现了专利引文分析的学术内涵和应用前景,真有较强的理论意义和现实价值。
从事科学计量和专利计量研究的教师、科研人员和研究生
目录
序
第1章 引文分析的基本理论问题 1
1.1 引文分析的相关概念 1
1.2 引文分析的整体发展脉络 3
1.3 引文过程中的知识流动理论 7
1.4 引文分析的两个维度 16
1.5 引文分析的对象与内容 21
参考文献 28
第2章 专利引文分析的基本理论问题 31
2.1 基本概念界定与理论分析 32
2.2 国内外研究状况 36
2.3 专利引用过程中的知识活动 38
2.4 基于专利引文的技术进化树 44
2.5 专利引文分析的制度基础 54
参考文献 63
第3章 基于专利引文的地理空间知识活动分析 66
3.1 国内外研究状况 66
3.2 数据下载及处理、分析方法与工具软件 68
3.3 专利引文网络下的地理空间关系可视化分析 72
3.4 基于专利引文网络的中国与其他国家(地区)间关系分析 79
参考文献 86
第4章 基于专利引文的技术空间关系可视化分析 88
4.1 大类技术领域层面 89
4.2 小类技术领域层面 92
4.3 不同技术领域中国家(地区)间关系考察 99
第5章 基于专利引文的技术演进路径识别 128
5.1 国内外研究状况 128
5.2 基于专利引文网络的技术演进路径识别方法 132
5.3 技术演进路径的识别工具 138
5.4 实证研究1——以以太网技术为例 141
5.5 实证研究2——以太阳能电池板为例 159
参考文献 166
第6章 基于专利引文的技术发展特征分析 168
6.1 基于原创性指数技术融合趋势分析 168
6.2 基于专利引文指标的国家技术实力分析 176
6.3 高被引专利技术特征的计量分析 188
参考文献 202
彩图 1
第1章 引文分析的基本理论问题
1.1 引文分析的相关概念
引文分析(citation analysis),是一种对文献引证与被引证关系进行分析的活动和方法,也是包含对引文关系进行分析的原理、方法、应用在内的一门学科。引文分析是基于文献间的联系而产生的一种分析方法。具体来说,文献体系中文献之间并不是孤立的,而是相互联系的。文献的相互关系突出地表现在文献的相互引用方面。一篇文献在编写过程中一般都需要参考有关文献。在文献发表时,作者往往采用尾注或脚注等形式列出其"参考文献"或"引用书目"。一个"引文"是指一篇参考文献,进行引用的是引用(citing)文献,接受引用的是被引(cited)文献。普赖斯在论及引证及被引证关系时提出:每一篇被引文献,对于引证者(文献作者)来说,就是有了一篇参考文献,而对于被引证者来说,则是有了一篇引证文献(引文)。
一篇文献既可以是施引文献,也可以是被引文献。我们谈到引文时,可以站在两个角度:一是站在施引文献的角度,那么引文就是其参考文献;二是站在被引文献的角度,引文就是其本身。引文是有方向的,施引文献的时间一般比引文要晚,不可能倒过来引用。
文献在被引时,不一定是全部内容被引,因此,可以把一篇文献中被引的部分称为知识单元,那么知识单元就有生产单元和储存单元之分。如果文献A中含有使用并描述文献B的书目注释,那么文献A就含有文献B的参考文献,而文献B具有来自文献A的引文。在上述的过程中,A被称为引用文献,而B被称为被引用文献。按照期刊间引用关系的概念—知识生产单元和知识存储单元(Zinkhan and Leigh,1999),我们也称A为知识存储单元,B为知识生产单元(埃格希和鲁索,1992)。知识从B流向A,如图1.1所示,意味着引用是个动态的过程。
图1.1 引用过程对应的概念
当引文网络中的文献不是很多(少于几百个)时,用一张引文图就可以形象地表达文献之间的引用关系。箭头从代表di的一端指向代表dj的一端时,来自某一馆藏的文献就形成一张有向图,这张图就称为"引文图"或"引文网络"(图1.2)。
图1.2 引文图
利用引文图表达引文关系的一个优点是比较明晰、清楚,引文关系一目了然。但是,如果引文图中涉及的文献很多(数百个以上),那么图形就变得相当复杂,很难分析出关系的结构,这是引文图的一个缺点。在这种情况下,好利用矩阵方法来表达关系网络(尹丽春,2006),引文分析方法也真正有了用武之地。
引用过程是单个的、个体的,是慢慢积累起来的,而引文分析的过程包括对引用过程及海量数据的分析。引文网络是一个知识生产和传播的复杂系统,个人和单个文献的作用在网络中已经逐步淡化,仅仅依赖于同行评议和单纯地分析个体文献无法真实地反映整个网络的状态。只有通过数学手段将网络的整体结构绘制出来,人们才可能从全局着手做出而正确的判断。超大规模引文网络的形成迫切需要科学工作者提出有效的手段对其进行研究(尹丽春,2006)。
总的来说,引文分析就是利用各种数学及统计学的方法进行比较、归纳、抽象、概括等的逻辑方法,对科学期刊、文献、著者等分析对象的引用和被引用现象进行分析,以揭示其数量特征和内在规律的一种信息计量研究方法(邱均平,2007)。
关于引文分析,有两个概念不得不提。首先是凯斯勒在1963年提出了文献耦合(bibliographic coupling)的概念。文献耦合是指引证文献通过其参考文献(被引证文献)建立的耦合关系。具体来说,如果A和B两篇文献共同引证了一篇或多篇参考文献,或者说它们有一篇或多篇同样的参考文献,则称A和B两篇文献具有引文上的耦合关系。
另一个对应的概念是文献共引(bibliographic co-citation),也称同引、同被引、共被引,是由美国的斯莫尔和俄罗斯的玛莎科娃在1973年分别独立提出来的,就是指两篇或多篇文献同时被后来的一篇或多篇文献所引证,则称这两篇文献(被引证文献)具有"同被引"关系。图1.3(a)展示了A、B两个文献同时被文献a引用的状况,图1.3(b)则展示出A、B两篇文献同时引用文献a的情况。
图1.3 文献的共引与耦合
1.2 引文分析的整体发展脉络
科学知识可视化图谱是在信息技术的推动下发展出来的一个新领域,当前已经成为科学计量学的一个新热点。陈悦和刘则渊(2005)认为科学知识图谱是显示科学知识的发展进程与结构关系的一种图形,它是揭示科学知识及其活动规律的科学计量学从数学表达转向图形表达的产物,是显示科学知识地理分布的知识地图转向以图谱展现知识结构关系与演进规律的结果。为揭示引文分析领域的历史图景,选取CiteSpace绘制了引文分析领域演进知识图谱,从而清晰地看出引文分析学形成和发展的脉络及演进趋势。
研究所用的数据来源于美国科学情报研究所创建的Web of Science数据库。以"citation analysis"为检索词在科学引文索引(Science Citation Index,SCI)和社会科学引文索引(Social Sciences Citation Index,SSCI)中联合检索了1974~2008年的文献记录。在数据下载的过程中,我们选择"Article",共检索到1906篇文献,其中共包含引文65 426条。对得到数据的引文进行整理和标准化,力图使引文数据。
利用CiteSpace软件,输入题录数据,选择"cluster"分析,同时设置阈值为(3,2,15)、(4,3,19)、(4,3,20),网络节点选为参考文献(reference),来源选为文献标题(title)、摘要(abstract)、关键词(descriptor)和标识符(identifiers),术语选择为无(none),修剪(pruning)项选择小生成树(minimum spanning tree)、修剪分段的网络(pruning sliced networks)、修剪混合网络(pruning merged the network)得到引文分析的发展趋势网络,其中共有节点86个,连线114条(图1.4)。
图1.4 引文分析的小生成树图
由图1.4可以看到,引文分析领域大致可以分为三个时期:初始形成期、繁荣发展期、深化扩张期。初始形成期中可看出关键人物有加菲尔德和普赖斯,他们二人开创了引文分析的先河,是引文分析学的奠基人。发展繁荣期中的重要人物有斯莫尔和麦克罗伯特,他们二人发展了引文分析,其中斯莫尔提出了著名的共引理论和方法,而麦克罗伯特则思考了引文分析存在的问题。从20世纪80年代起,引文分析进入了深化扩张期。在共引理论的基础上,引文分析的可视化有了较大的发展,重要的人物有怀特、麦肯恩和陈超美等。90年代中后期,随着互联网的快速发展,网络引文分析也成为引文分析的热点,其代表人物有英格沃森、塞沃尔与鲁索等。当然,由于阈值的设置,这张图谱只能大致反映引文分析领域重要的人物和著作。
为了能够更加形象化地展示引文分析领域的形成和发展,更加清楚地看到引文分析发展的脉络,仍旧利用CiteSpace软件,输入题录数据,选择"cluster"分析,同时设置阈值为(3,2,15)、(4,3,20)、(3,3,20),网络节点选为参考文献(reference),来源选为文献标题(title)、摘要(abstract)、关键词(descriptor)和标识符(identifiers),术语选择为无(none),修剪(pruning)项选择小生成树(minimum spanning tree)、修剪分段的网络(pruning sliced networks)、修剪混合网络(pruning merged the network),并且利用time-zone,得到引文分析的演进网络,其中共有节点202个,连线2033条(图1.5)。
图1.5 引文分析研究发展趋势图(文后附彩图)
由图1.5可以清楚地看到引文分析的发展脉络及更多的代表人物。我们可以看到加菲尔德和普赖斯都对引文分析学的理论做出了开创性的工作。因此,可以把他们的理论和方法认为是引文分析学的奠基时期的重要贡献。在加菲尔德和普赖斯关于科学引文网络的思想的基础上,著名科学计量学家斯莫尔也为引文分析的进一步发展做出了不可磨灭的贡献。共引分析也是引文分析独特的分析方法,迄今为止,共引分析仍旧是引文分析的主流方法。
通过对引文分析领域发展的研究和梳理,可以看到引文分析领域的发展有以下的规律。
(1)引文分析成为科学计量学、文献计量学的范式
库恩(2003)指出,"常规科学"是指严格根据一种或多种已有科学成就所进行的科学研究,某一科学共同体承认这些成就就是一定时期内进一步开展活动的基础。研究工作可以明明白白地从一套规则中引出来,但范式却比任何一套这样的规则都要更为优先、更为适合、更加完整。"一种成就"构成了范式。自从加菲尔德、普赖斯、斯莫尔等的著作出版后,这些著作的成就足以空前地把一批坚定的拥护者吸引过来,使他们不再去进行科学活动中各种形式的竞争。同时,这种成就又足以毫无限制地为一批重新组合起来的科学工作者留下各种有待解决的问题。凡是具备这两个特点的科学成就,此后被库恩称为"规范"。在科学计量学、文献计量学领域,引文分析成为科学工作者的主要研究范式。科学的新发现或者新发明对于研究者来说并不是刚开始就全部能够被接受的,也需要一个不断适应和成长的过程。引文分析这个领域的发展也不是一帆风顺的,是不断解答质疑者、不断改进,从而完善和成熟起来的。
(2)引文分析的发展受到了新技术的促进
每个学科的发展都是在吸取其他学科的精华的过程中成长起来的。科学与技术也是互相促进的,一个新技术的发展会引起相关科学领域的巨大进步,引文分析领域也不例外。在引文分析发展的三个时期,是加菲尔德吸取了谢泼德的引文的理念和技术,才促成了引文索引法的诞生,弥补了主题索引法的不足,能够更加快速地找到研究者所需的文献。第二就是计算机技术的大发展为引文分析的可视化提供了很好