robots协议实用13篇

引论:我们为您整理了13篇robots协议范文,供您借鉴以丰富您的创作。它们是您写作时的宝贵资源,期望它们能够激发您的创作灵感,让您的文章更具深度。

robots协议

篇1

在这种情况下,司法者的权限并不局限于寻找包含robots协议内容的具体法条,而是可以根据实际案情裁量违反Robots协议,是否就违反了《反不正当竞争法》(第二条)中对经营者应当遵循自愿、平等、公平、诚实信用和公认商业道德的强制性规定。认定违法也并不需要将Robots协议上升为法律作为前提,违反规则就可能导致违反法律的结果。

况且,3B案发生背景之一是被告奇虎360签署了《互联网搜索引擎服务自律公约》,承诺“遵守机器人协议(Robots协议)”和“限制搜索引擎抓取应有行业公认合理的正当理由,不利用机器人协议进行不正当竞争行为”。360在明确承认Robots协议约束力后又规避了协议,既是违法,又构成违约。

百度在360推出网络搜索后迅速启用Robots协议,在百度旗下的知道、贴吧、文库、百科等产品屏蔽了360爬虫。需要指出的是,百度拒绝360爬虫抓取的产品,基本属于用户创造内容(UGC)类型的上传平台,而百度对这些内容并不直接享有著作权,360因此质疑百度无权拒绝收录。但UGC平台身份也无碍百度根据《著作权法》第十四条对相关内容享有作为汇编者的权利。在百度主张反不正当竞争保护情况下,举证责任更简化到证明原告合法投入因被告竞争行为受到实际损害及被告竞争行为违反诚实信用或商业道德,而360强行利用百度网站内容已构成搭便车的不正当竞争行为。

360在3B案中,以百度滥用Robots协议作为抗辩,但换个角度看,真正容易被滥用的倒是爬虫程序。互联与分享是网络的基本性格,而信息的多元化也决定了网络传播在很多情况下必须受到控制。不受Robots协议限制的Spider程序必然使互联网陷入严重混乱,网站后台隐私无法保护,网页更新的旧信息必须完全删除而不能仅仅屏蔽,音乐、视频等内容的收费盈利模式遭到毁灭性打击。互联网经过长期博弈逐步摆脱无序状态,难道只因搜索爬虫失控又将回到比拼技术暴力的暗黑丛林?这种情景,绝非法治下的互联网可以接受的。

Robots协议自产生以来在全球受到严格遵守,利用Robots协议屏蔽搜索的案例举不胜举。比如,Facebook和Twitter长期屏蔽Google,后者除了发发牢骚,却也不敢采取任何规避手段;默多克的新闻集团一度全面屏蔽Google,后者一直忍到默多克自己投降。在国内,搜索屏蔽360的除了百度,还有腾讯的QQ空间,更有意思的是,QQ空间却在2012年后对百度和Google开放,360甚至都没有为此指责腾讯歧视。腾讯尽管向百度开放QQ空间,却将腾讯微博的内容屏蔽至今,新浪微博也一度加入屏蔽百度的队列。电商领域可能是互相屏蔽的高地,淘宝从2008年起一直屏蔽百度搜索,京东、苏宁、当当网等也屏蔽了阿里旗下一淘搜索的爬虫。

篇2

在这一事件中,我认为当事人涉嫌违反《信息安全技术个人信息保护指南》,该指南制订中,北京奇虎科技有限公司、北京百度网讯科技有限公司均有参与,理应遵守。违反的原则包括:1、安全保障原则(防止未经授权检索、公开及丢失、泄露、损毁和篡改个人信息)。2、合理处置原则(不采用非法、隐蔽、间接等方式收集个人信息,在达到既定目标后不再继续处理个人信息)。3、知情同意原则(未经个人信息主体同意,不处理个人信息)。此外,企业自有版权及所具有其他机构的版权授权,未经许可不得复制。随意抓取,会造成侵权,涉嫌违反知识产权有关法律。

篇3

篇4

自媒体时代,网络舆论管理、议题管理和危机管理变得十分困难,解决难题的关键是对网络用户身份的有效识别。目前,用户身份识别主要依赖人工检索结合技术提纯的方式,也就是通过在网络中检索用户分享的数据,从中查找身份信息之间的相关关系、身份特征信息,最后结合技术手段获取真实身份,简单来说就是先检索再发现最后收集的过程。优势是,随着用户分享带来的数据丰富性,可以挖掘的潜在相关关系越丰富。然而,缺陷也很明显,一是效率不够,对广泛互联网数据的搜索需要花费大量人力;二是缺少真实性评估,相关关系没有绝对,只有可能性,面对不对称的检索结果,真实性势必受到主观偏见的影响;三是时效性带来的数据丢失,无论是用户的主动删除还是资源平台的被动删除,缺少主动收集机制造成的数据丢失不可避免。

为了解决上述存在的缺陷同时让优势大放异彩,本文提出一种用于网络原型挖掘的AjaxCrawler系统,通过主动收集的方式对现有工作模式进行有效升级。

2 设计目标和详细设计

网络原型挖掘的对象主要是提供用户数据交互的web、bbs站点,而此类站点为了提供更好的用户体验多在开发中采用AJAX技术,所以AjaxCrawler的设计重点是实现对支持AJAX技术的动态网页的有效挖掘。

2.1 设计目标

设计主要考虑几方面因素:一是抓取质量,针对Web、Bbs采取不同的抓取策略,通过JavaScript解析器实现对AJAX动态页面完整抓取,同时支持JS代码中的DOM操作,以获取页面元素、修改页面元素的内容;二是抓取效率,针对网络延迟、站点限制等因素采取并行策略,使爬虫同时处理不同的URL,以提高网络带宽利用率,加快处理速度;三是抓取策略灵活性,能够设定采集范围、采集频度、采集时间和采集深度,以期能达到最好的特定信息采集效果。

2.2 详细设计

系统采用四层结构。第一层Client节点是门户和命令入口,用户通过它进行任务下发、查看执行结果;第二层Master节点是唯一的控制器,连接Client和Crawler,进行任务的抽取和分发;第三层XCrawler节点由不同的Crawler组成,结构上便于扩展,同时,将Ajax模块独立出来以降低系统耦合性,便于针对非JS脚本页面添加其它引擎;第四层Depository节点是系统仓库,存储运行结果等信息,此讨论重点将不再提及。本系统的通信库基于MINA开发,系统各节点之间通信,只需要调用相应的API即可,不用关心通信细节。系统体系结构设计,如图1所示:

2.2.1 XCrawler设计

XCrawler是具体执行任务的节点,分为WebCrawler、BBSCrawler,架构基本相同,仅抓取策略和方式有所区别。其架构如图2所示:

爬虫系统分为两部分,第一部分是预处理,负责净化URL,去除不必要抓取的URL,类似于过滤器。第二部分是网页抓取,由于网页下载比较耗时,为充分利用资源,采用多线程。抓取阶段获得网页,析出网页内部的链接,然后进行预处理,以净化可能包含有以前抓去过的重复URL、Robots协议禁止抓取的URL等。Clean URLs是净化后的URL库,存放需要抓取的URL。

2.2.2 页面预处理

(1)页面去重 为避免页面重复抓取,系统包含网页去重管理机制,建立了一个可维护的HASH表,记录已处理过的URL的MD5值。页面预处理通过判断任务URL的MD5值在HASH表中是否存在,来判断URL是否重复。

(2)HTTP协议控制和URL文件格式控制 目前只支持HTTP协议,HTTP协议控制用来检测URL协议,如果不是HTTP协议直接抛弃;系统收集对象是包含用户身份信息的网页文本,一些多媒体格式,比如MP3,AVI和JPG等格式并不需要,URL文件格式控制用来过滤不支持的URL。

(3)Robots控制。遇到一个新网站时,首先会通过Robots文件管理模块获取该网站的robots.txt文件,然后根据robots.txt的文件规定控制URL的抓取。

2.2.3 AjaxEngine设计

3 AjaxCrawler的实现

3.1 Crawler的实现

对于Internet上不同类型的网站,采用单一的抓取模式、抓取策略,显然不合适宜。如前文所述,本系统Crawler包括WebCrawler、BbsCrawler两种Crawler,以下逐一叙述。

3.1.1 WebCrawler

对于最基本的Web内容,设置一定的抓取深度,配置广告等无关内容的过滤器,依照Web内容更新频度设定爬虫的更新频率,依照详细设计中的XCrawler的框架,实现较为简单,这里不再赘述。

3.1.2 BBSCrawler

3.2.2 DOM Builder

DOM Builder建立JS对象与HTML对象的映射,构造DOM树,触发事件等功能。本系统借助NokoHTML扫描HTML文本,建立DOM树。NekoHTML还能增补缺失的父元素、自动用结束标签关闭相应的元素及不匹配的内嵌元素标签。使用NekoHTML进行DOM树建立接口很简单,使用NekoHTML中DOMParser对网页进行解析即可。

Rhino在执行JS代码时,需要根据JS对象与HTML对象映射表修改DOM树中的元素内容。本系统中,借用了HtmlUnit建立的JS对象与HTML对象之间的映射关系。在Html Unit中,继承了W3C的DOM接口,同时实现了JS对象与HTML对象之间的映射。

4 结束语

本文在分析了互联网身份管理的现状和优缺点后,根据大数据相关关系分析法的理念基础,提出一种通过爬虫技术对互联网交互式站点中开放数据进行主动收集,挖掘其中存在身份信息以及身份信息件存在的相关关系的工作方法,从而通过已知身份挖掘出可能尚未掌握的未知身份信息,同时针对现有交互式网站普遍采用Ajax技术模式详细设计实现了AjaxCrawler挖掘模型,是现有网络身份管理模式的升级和有力补充。最后,作者相信随着科技浪潮的发展,更多的管理困境将找到更好的解决方案。

参考文献

[1] 马民虎.互联网信息内容安全管理教程[M].北京:中国人民公安大学出版社,2008.

[2] 李学凯.面向多任务、多通道并行爬虫的技术研究[D].哈尔滨:哈尔滨工业大学,2009.

[3] 曾伟辉,李淼.基于JavaScript切片的Ajax框架网络爬虫技术研究[J].计算机系统应用,2009.

[4] Viktor Mayer-Sch?nberger,Big Data:A Revolution That Will Transform How We Live, Work,and Think[M].Hodder,2013.

篇5

在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。

广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。

由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H属于第2层,I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。

网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓取(下小节会介绍),但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全**的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。

网站与网络蜘蛛

网络蜘蛛需要抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。今年4月,淘宝taobao.com)就因为雅虎搜索引擎的网络蜘蛛抓取其数据引起淘宝网服务器的不稳定。网站是否就无法和网络蜘蛛交流呢?其实不然,有多种方法可以让网站和网络蜘蛛进行交流。一方面让网站管理员了解网络蜘蛛都来自哪儿,做了些什么,另一方面也告诉网络蜘蛛哪些网页不应该抓取,哪些网页应该更新。

每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User-agent,用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider,Yahoo网络蜘蛛的标识为Inktomi Slurp。如果在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎的网络蜘蛛过来过,什么时候过来的,以及读了多少数据等等。如果网站管理员发现某个蜘蛛有问题,就通过其标识来和其所有者联系。下面是博客中blogchina.com)2004年5月15日的搜索引擎访问日志:

网络蜘蛛进入一个网站,一般会访问一个特殊的文本文件Robots.txt,这个文件一般放在网站服务器的根目录下,blogchina.com/robots.txt。网站管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些网站的可执行文件目录和临时文件目录不希望被搜索引擎搜索到,那么网站管理员就可以把这些目录定义为拒绝访问目录。Robots.txt语法很简单,例如如果对目录没有任何限制,可以用以下两行来描述:

User-agent: *

Disallow:

当然,Robots.txt只是一个协议,如果网络蜘蛛的设计者不遵循这个协议,网站管理员也无法阻止网络蜘蛛对于某些页面的访问,但一般的网络蜘蛛都会遵循这些协议,而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。

网络蜘蛛在下载网页的时候,会去识别网页的HTML代码,在其代码的部分,会有META标识。通过这些标识,可以告诉网络蜘蛛本网页是否需要被抓取,还可以告诉网络蜘蛛本网页中的链接是否需要被继续跟踪。例如:表示本网页不需要被抓取,但是网页内的链接需要被跟踪。

转贴于

现在一般的网站都希望搜索引擎能更全面的抓取自己网站的网页,因为这样可以让更多的访问者能通过搜索引擎找到此网站。为了让本网站的网页更全面被抓取到,网站管理员可以建立一个网站地图,即Site Map。许多网络蜘蛛会把sitemap.htm文件作为一个网站网页爬取的入口,网站管理员可以把网站内部所有网页的链接放在这个文件里面,那么网络蜘蛛可以很方便的把整个网站抓取下来,避免遗漏某些网页,也会减小对网站服务器的负担。

内容提取

搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网络蜘蛛正确跟踪其它链接有一定影响。

对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口,就可以轻松的提取文档中的文本信息和文件其它相关的信息。

HTML等文档不一样,HTML有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式,如:、、等,提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。但在识别这些信息的时候,需要同步记录许多版式信息,例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等,这些信息有助于计算单词在网页中的重要程度。同时,对于HTML网页来说,除了标题和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候,也需要过滤这些无用的链接。例如某个网站有“产品介绍”频道,因为导航条在网站内每个网页都有,若不过滤导航条链接,在搜索“产品介绍”的时候,则网站内每个网页都会搜索到,无疑会带来大量垃圾信息。过滤这些无效链接需要统计大量的网页结构规律,抽取一些共性,统一过滤;对于一些重要而结果特殊的网站,还需要个别处理。这就需要网络蜘蛛的设计有一定的扩展性。

对于多媒体、图片等文件,一般是通过链接的锚文本(即,链接文本)和相关的文件注释来判断这些文件的内容。例如有一个链接文字为“张曼玉照片”,其链接指向一张bmp格式的图片,那么网络蜘蛛就知道这张图片的内容是“张曼玉的照片”。这样,在搜索“张曼玉”和“照片”的时候都能让搜索引擎找到这张图片。另外,许多多媒体文件中有文件属性,考虑这些属性也可以更好的了解文件的内容。

动态网页一直是网络蜘蛛面临的难题。所谓动态网页,是相对于静态网页而言,是由程序自动生成的页面,这样的好处是可以快速统一更改网页风格,也可以减少网页所占服务器的空间,但同样给网络蜘蛛的抓取带来一些麻烦。由于开发语言不断的增多,动态网页的类型也越来越多,如:asp、jsp、php等。这些类型的网页对于网络蜘蛛来说,可能还稍微容易一些。网络蜘蛛比较难于处理的是一些脚本语言(如VBScript和javascript)生成的网页,如果要完善的处理好这些网页,网络蜘蛛需要有自己的脚本解释程序。对于许多数据是放在数据库的网站,需要通过本网站的数据库搜索才能获得信息,这些给网络蜘蛛的抓取带来很大的困难。对于这类网站,如果网站设计者希望这些数据能被搜索引擎搜索,则需要提供一种可以遍历整个数据库内容的方法。

对于网页内容的提取,一直是网络蜘蛛中重要的技术。整个系统一般采用插件的形式,通过一个插件管理服务程序,遇到不同格式的网页采用不同的插件处理。这种方式的好处在于扩充性好,以后每发现一种新的类型,就可以把其处理方式做成一个插件补充到插件管理服务程序之中。

更新周期

篇6

要说明的是,这个网站是推一把线下10期学员新做的一个网站,网站内容并不多,项目也是虚拟的,建站的目的是为了通过实践掌握教学内容,网站的名称叫:酿蜜坊蜂产品专卖店,网址:,以下简称“诊断网站”,不啰嗦了,下面进入如何诊断网站十二步。

第一步,检查各网页标题是否设置正确

这个诊断项目是最重要的,网站标题是搜索引擎识别、抓取,收录网站重要依据,是获得较好排名和展现给用户的第一要素,SEO没有什么比这更重要的啦。见过很多号自称SEO高手的连个标题都写不好。

正确的网站页面标题格式应该如下:(注意:指网站所有页面)

首页标题:关键词_网站名称

栏目页标题:栏目名称_网站名称

内容页标题:文章标题_栏目页_网站名称

诊断网站状况:

首页标题:蜂蜜减肥法,蜂蜜面膜,蜂蜜美容小知识—酿蜜坊蜂产品专卖店

栏目页标题:行业新闻-蜂蜜减肥法,蜂蜜面膜,蜂蜜美容小知识—酿蜜坊蜂产品专卖店

内容页标题:蜂蜜加白醋能减肥吗—蜂蜜白醋减肥方法-蜂蜜减肥法,蜂蜜面膜,蜂蜜美容小知识—酿蜜坊蜂产品专卖店

分析:目标网站首页、栏目页及内容页书写顺序正确,标题中还自动重复了首页标题,有利于搜索引擎对网站内容的理解和抓取。如果你的网站没有达到此标准,尽快改过来吧。

第二步,检查首页标题的长度及符号

在第一步中我们已经谈到网页标题的重要性,首页标题更是重中之重了,怎样写首页标题不是本文讨论的重点,但是你要知道首页标题要写好有那些要求。

要求是:标题字数不超过30个汉字,核心关键3-5个,用“,”或者“|”线隔开,公司名用“—”联接,用户搜索次数最大的关键词排在最前面,不要问我原因,你懂的。

诊断网站状况:

首页标题:蜂蜜减肥法,蜂蜜面膜,蜂蜜美容小知识—酿蜜坊蜂产品专卖店

诊断分析:诊断网站首页标题字数28字。关键词之间才用“,”分隔,公司名用“—”横线连接,符合要求。

第三步,诊断网页是否有标题重复与描述重复。

1、各网页标题诊断

要求:对各个页面进行诊断,包括首页、栏目页、内容页,每个页面标题不能重复,否则搜索引擎以为你的网站每个页面都是相同的内容,而其实每个页面的内容不可能是相同的,比如“产品中心”栏目是介绍不同产品的,“企业新闻”栏目是发表企业相关新闻动态的。

诊断网站状况:没有发现重标题的网页。

例如:企业简介栏目标题:关于酿蜜坊-要想身体好,蜂蜜的作用与功效不得了,健康天使——酿蜜坊专卖店;

内容栏目标题:油菜春浆蜂皇浆-蜂蜜减肥法,蜂蜜面膜,蜂蜜美容小知识—酿蜜坊蜂产品专卖店

2、描述重复诊断

与网页标题诊断一样,每个页面都要有不同的描述,切不要都是一样的描述内容。

要求:准确的描述网页内容,不能有关键词堆砌。每个页面都应该有不同的描述。长度合理。

诊断网站状况:没有发现重复的网页标题,但发现一些产品页描述不正确或者过于简单,产生的原因是系统自动生成,产品第一段内容很关键,尤其是前100字,要对产品进行精准的描述。

诊断分析:虽然网站没重复的标题及描述,但标题及描述不合理,网页标题没有体现该网页内容,相近度高,原因可能是网站管理系统自动生成标题和描述适成的,对于小型网站或者企业网站,建议网页标题及描述手写更准确。

第四步,网站URL的唯一性

网站URL要具有唯一性,如果不相同的页面有洋同URL,搜索引擎在排名时会分散权重,网站难以获得好的排名

要求:正确的选择首选域,内链和外链要统一,做好301重定向。

诊断网站状况:

网站首选域为:,内链和外链基本统一。

访问/index.html和xxx.cn及都是同一页面,无301重定向。

网站内链和外链建设选择为首选域。

诊断分析:做301转向对于SEO新人来说,可能技术有难度,这方面可能要请技术人员协助解决。

第五步,网站URL静态化

虽然百度SEO指南中说,百度蜘蛛对于动态网页的抓取没有岐意,但细心的你可以发现获得良好排名的网站,其URL必然是静态化的,至于什么是静态化的网页,很多初学者说会动的网页,就是动态的,其实这是错误的看法,只要URL中包含“?”“%”等符号,就是动态的网页,多说了几句,扫一下盲。

要求:网站全部采用静态化,有利于网站收录及排名。

诊断网站状况:网站所有网页均是伪静态

如:/info/contact.html

诊断分析:全站最深层次为三层,符合要求

第六步,诊断图片ALT属性

百度官方SEO指南中强调,蜘蛛暂时无法读取图片、flash等的内容,网站中出现图片时,要做好图片属性设置,也就是ALT啦,一方面它可以告诉搜索引擎这是关于什么的图片,另一方面当浏览器无法展示图片时,会以文字的形式展现,还可增加关键词密度。

要求:1、网站所有图片都加上ALT属性,命名合理,不重复。

2、图片上方、或者下方加上关键词锚文本

3、增加图片页面的内链和外链,优化重要图片

诊断网站状况:发现网站所有图片没有ALT属性,修改完善图片ALT属性,对重要图片进行优化,做好图片站内链接,图片周围多出现关键词和锚文本。

诊断分析:做好ALT属性可以展现网站对搜索引擎的友好度,增加客户体验性。

第七步,诊断robots文件

对收录及排名没有影响、不重要的网页内容,或者不想让搜索引擎抓取的内容,可以通过robots协议禁止

要求:网站中要有robots文件,并且代码正确,对不需要搜索引擎抓取的部分进行禁止。

诊断网站状况:网站有robots文件,对一些无需抓取的内容进行了禁止。

robots文件网址:xxx.cn/robots.txt

诊断分析:robots文件重要,但书写一定要正确,否则可以事得其反,最好请技术人员解决。

第八步,诊断死链接

死链接就是用户点击无法展示的页面,或者已经不在的页面,死链接会影响搜索引擎的友好度,会告成因客户体验差,而流失目标客户,严重影响转化率。

要求:网站无死链接。

诊断网站状况:整站无死链接

诊断分析:如何诊断死链接,查找死链接可以借助站长工具,这个不要我多讲吧。

第九步,网站404页面

404页面是当网站出现死链接时,自动转到404页面,引导用户浏览其它首页,避免用户流失。

要求:网站要有友好的404页,对死链接进行转化引导。

诊断网站状况:网站没有404网页,设计和完善好404页面。

第十步,网站空间速度诊断

为什么要求网站空间打开速度要快,这个问题也太小白了吧,你会在一个等了半天也不开的门前,傻等半天吗?客户是没有耐心等待的

要求:网站打开速快,不影响用户抓取和用户浏览

诊断网站状况:最快5毫秒,最慢68妙,电信平均:36毫秒,联通平均:56毫秒

诊断分析:速度就不解释了,当然是越快越好。

第十一步,快照更新诊断

只有快照更新有规律的网站,才是搜索引擎喜欢的网站,如果你的网站快照好久都没有更新,那你就要想想是不是百度不爱你啦,百度可能不喜欢你的网站了,我们必须经常更新网站内容,让蜘蛛不断有新东西吃,有新鲜感,

要求:百度快照更新不超过去3天,网站有经常更新版块,如新闻更新、产品更新、评论更新等,并适时更新。

诊断网站状况:百度第一次快照时间:2012-9-25,最新快照时间2012-10-15,更新速度慢,站内有新闻更新版块,无用户评论交互功能。

诊断分析:建议用适当提高网站外链和网站内容更新,改善两次快照间隔时间太长的现象

篇7

面向服务的体系架构(Service-Oriented Architecture, SOA)作为一个全新的网络架构和组件模型,在提供便利的同时也面临安全方面的挑战。SOA系统不但会受到传统的网络攻击,如重放攻击、注入攻击等,也会受到各种DDoS攻击。近日有研究表明,假冒搜索引擎爬虫已经成为第三大DDoS攻击工具。本文所介绍的基于SOA架构下的DDoS攻击检测方法主要针对当今比较流行的利用网络爬虫所发起的DDoS攻击。

1 SOA安全问题研究

SOA是一个组件模型,它将应用程序的不同功能单元(即服务)通过这些服务之间定义良好的接口和契约联系起来。SOA目前在很大程度上还是比较依赖Web服务,特别是一些面向服务技术在SOA架构上的应用,导致SOA在提供了良好的便捷的同时也避免不了一些安全隐患。而目前来看SOA往往大多应用在企业级平台之上,它所承担的服务不再单纯的是一种技术能力,而更多的是一种业务能力和IT资产。因此研究SOA架构下安全问题,特别是安全检测技术,在风险到来之前提前预测、感知和及时响应具有十分重要的意义。

2 网络爬虫技术

2.1 网络爬虫概述

网络搜索引擎的主要数据来源就是互联网网页,通用搜索引擎的目司褪蔷】赡艿奶岣咄络覆盖率,网络爬虫(又称网页蜘蛛或者网络机器人),就是一种按照特定规则,自动抓取互联网信息的脚本或者程序。 搜索引擎利用网络爬虫技术爬取Web网页、文件甚至图片、音视频等多媒体资源,通过相应的索引技术处理这些信息后提供给用户查询。

2.2 网络爬虫的安全性问题

网络爬虫策略就是尽可能多的抓取互联网中的高价值信息,所以爬虫程序会根据特定策略尽可能多的访问互联网上的网站页面,这毫无疑问会占用目标网站的网络带宽和Web服务器的处理开销,特别是一些小型网站,仅仅处理各种搜索引擎公司的爬虫引擎就会导致自身服务器“应接不暇”。所以黑客可以假冒爬虫程序对Web站点发动DDoS攻击,使网站服务器在大量爬虫程序的访问下,系统资源耗尽而不能及时响应正常用户的请求甚至彻底崩溃。不仅如此,黑客还可能利用网络爬虫抓取各种敏感资料用于不正当用途。比如遍历网站目录列表;搜索测试页面、手册文档、样本程序以查找可能存在的缺陷程序;搜索网站管理员登录页面;搜索互联网用户的个人资料等等。

3 恶意爬虫DDoS攻击的防范和检测

一般情况下,因为特定网站的特殊原因,比如有些网站不希望爬虫白天抓取网页,有些网站不希望爬虫抓取敏感信息等,所以爬虫程序默认是需要遵守Robots协议,所以限制爬虫最简单直接的方法就是设置robots.txt规则。然而并不是所有的搜索引擎爬虫都会遵守robots规则,所以仅仅设置robots是远远不够的。

3.1 日志分析来检测恶意爬虫攻击

(1)分析服务器日志统计访问最多的IP地址段。

grep Processing production.log | awk ’{print $4}’ | awk -F’.’ ’{print $1〃.〃$2〃.〃$3〃.0〃}’ | sort | uniq -c | sort -r -n | head -n 200 > stat_ip.log

(2)把统计结果和流量统计系统记录的IP地址进行对比,排除真实用户访问IP,再排除正常的网页爬虫,如Google,百度,微软爬虫等。很容易得到可疑的IP地址。分析可疑ip 的请求时间、频率、refer头等,很容易检测是否网络爬虫,类似如图1所示日志信息明显是一个网络爬虫。

3.2 基于访问行为特征检测爬虫DDoS

通过日志分析来检测恶意爬虫攻击,无法及时检测并屏蔽这些spider。所以面对分布式的爬虫DDoS攻击,网站很有可能无法访问,分析日志无法及时解决问题。针对恶意爬虫程序和正常用户访问之间的行为特征不同,爬虫DDoS程序为了达到占用系统资源的目的,其访问往往是频率很高而且呈明显规律性,明显区别于真实正常用户浏览访问时的低频率和随机性,所以基于统计数据或者其他应用识别或者IPS技术,可以较容易的生成正常情况下的行为模型,通过采集正常的流量行为可以构造一个正常的网络行为模型,我们可以把处于正常模型内的流量行为认定为正常行为,一旦和正常行为轮廓有了较大的偏离,可以认定为异常或者攻击行为。

4 结语

由于基于SOA的网络系统下的DDoS攻击的普遍性,以及网络爬虫及其对应技术给现有Web系统带来的安全威胁。本文提出了一些反恶意爬虫攻击的策略和思路,对网站管理及安全人员,有一定的参考意义。随着基于网络爬虫和搜索引擎技术的互联网应用日益增多,我们有必要针对这些应用带来的安全问题做更深入的研究。

参考文献

[1]袁志勇.分布式拒绝服务攻击的攻击源追踪技术研究[D].长沙:中南大学,2009.

[2]何远超.基于Web的网络爬虫的设计与实现[J].网微计算机信息,2007,23(21):119-121.

[3]周伟,王丽娜,张焕国,傅建明.一种新的DDoS攻击方法及对策[J].计算机应用,2003.01:144.

[4]王希斌,廉龙颖.网络安全实验中DDoS攻击实验的实现[J].实验科学与技术,2016,14(1):68-71.

篇8

1 引言

近年来机构知识库(Institutional Repository,IR)快速稳步增长,已覆盖了大部分知名高校和科研机构。目前在开放获取机构资源库OpenDOAR中注册登记的IR已有2163家[1],除此以外还有相当一部分数量的IR未在OpenDOAR中注册。IR做为支持开放获取的一种重要形式,支持机构实施数字知识资产的长期保存和管理,提高机构及科研人员智力成果的发现几率、传播范围和影响,是吸引机构及科研人员重视和参与IR建设的重要因素。相关的研究也表明,支持开放获取的论文其引用影响可获得25%~250%的提升[2]。 而Arlitsch等人[3]的调查结果显示,当前IR内容被Google Scholar收录的比率总体上维持在10%~30%的水平,甚至有0%的IR(见图1)。也就是说,大部分IR的内容没有得到充分的发现和利用,仍然局限在小范围内进行交流传播。

Google Scholar作为一项针对学者和科研人员的免费学术文献搜索服务,现在已成为学者、研究人员和学生查找专业文献资料的首选工具[4]。其搜索的范围涵盖了几乎所有知识领域的高质量学术研究资料,包括论文、专业书籍以及技术报告等。Google Scholar不但可以过滤普通网络搜索引擎中对学术人士无用的大量信息,通过与众多学术文献出版商的合作,还加入了许多普通搜索引擎无法搜索到的内容。目前,科研用户通过网络来获取资源,第一选择就是通过Google等搜索引擎进行大范围搜索,其次考虑利用专业的学术数据库,最后才会去翻阅学术期刊。这种检索顺序已经形成了一种社会习惯。

因此,如何解决IR被搜索引擎Google Scholar收录,提升IR中学术文章被Google Scholar收录的比率,已成为增强IR内容可发现性和可见性的关键。本文以中国科学院研究所IR平台CAS OpenIR[5]为例,采用学术搜索引擎优化(Academic Search Engine Optimization,ASEO)的策略和方法,通过提升IR在Google Scholar中的索引比率,进而增强IR中内容被发现引用和利用影响力。

[图1 IR被Google Scholar收录情况调查表[3]]

2 ASEO策略和目的

ASEO建立在传统的SEO[6]基础之上,是从普通的SEO发展而来。由于学术搜索引擎Google Scholar与普通搜索引擎有着明确的定位区别,因此ASEO与SEO有着明显的不同之处。

SEO指通过采用易于搜索引擎索引的合理技术手段和策略,使网站各项要素适合搜索引擎的检索原则,从而更容易被搜索引擎收录和优先排序。SEO基于网页(Web Page),收录过程较灵活和容易。IR属于学术产出的数据库平台,有着自身的元数据元素集,其中的学术文章属于“Academic Invisible Web”[7],不能被Google Scholar直接访问和索引。因此,在被学术搜索引擎Google Scholar收录前,需要对IR进行ASEO改造,使其符合Google Scholar索引标准,易于被Google Scholar收录爬取。即:

(1) 使IR可以被搜索引擎Google Scholar更好地收录和更新(包括IR的元数据和全文);

(2) 使搜索引擎在规则允许的范围内进行索引,明确IR的哪些页面可以被索引收录,哪些页面不能被索引收录;

(3) 在用户使用Google Scholar搜索时,可以排名靠前的呈现IR中的相关条目,起到推介IR的作用;

(4) 将IR中开放权限的全文纳入Google Scholar的全文检索中,增加IR中论文的可见性,提高论文的被引用率。

3 Google Scholar收录原则和排名算法

Google Scholar针对学术性数据库内容的收录和索引,有明确的收录原则[8],如:① 被收录文章需要有唯一的URL;②匿名用户可免费地通过原文URL进入阅读被收录文章;③数据库服务的Robots.txt协议正确配置,明确允许及禁止Googlebot爬取的路径及内容范围;④数据记录的Meta标签符合Google Scholar Meta规则,并且必须包含DC.title,DC.creator,DCTERMS.issued三项描述元数据;⑤记录除了题录文摘信息外,被收录记录必须要有全文;⑥全文格式为PDF格式。

Google Scholar检索排名继承了普通Google检索中应用的PageRank算法[9],即主要看某项学术内容、页面被引用的情况,同时还将文章全文、作者和出版物等因素纳入算法,从而保证检索结果的高相关性,提高查准率。学术论文被引述的频度越多,一般判断这篇论文的权威性就越高,它的PageRank值就越高。

4 面向IR的ASEO策略与方法实现

根据学术搜索引擎Google Scholar收录、排名的要约特点,本文中笔者将选取ASEO中的关键环节,就设计思路和实现的过程做一分析说明。

4.1 搜索引擎注册

在传统SEO过程中,网站管理员不用太担心网站的收录情况,在网站运行一定时间后搜索引擎的机器人会自动通过已被索引的外部链接发现该网站。而学术搜索引擎ASEO过程中,往往需要通过管理员在Google Scholar中对相关的服务进行注册,来通知机器人将其纳入爬取对象。有鉴于此,在研究所IR部署完成后:

(1)要求或者帮助研究所尽快在Google Scholar中完成其IR的注册和。在Google Scholar注册IR过程中,除了声明Google Scholar要求的收录原则外,还需要声明IR所用软件、论文数量、语种、访问地址。

(2)由于Google Scholar的PageRank算法对网络分类目录尤为重视,如果网站被ODP(.

[9]Page,L.,Brin,S.,Motwani,R.andet al.The PageRank Citation Ranking: Bringing Order to the Web[EB/OL].[2012-06-18].http://citeseerxist psu.edu/viewdoc/summary?doi=10.1.1.31.1768.

[10]Dublin Core Collection Description Application Profile[EB/OL].[2012-05-10]. http://ukoln.ac.uk/meta

data/dcmi/collection-application-profile/.

[11]Sitemap[EB/OL].[2012-05-18].http://

/wiki/Sitemap.

篇9

第二确定您所研究的协议的最新版本的RFC文件。

如前文所述,在RFC-2400中有协议的完整清单,按照清单找到的RFC一般是协议的最新版本,如果协议的STATE是Standard就更好了。如下文所分析的FTP协议的RFC文件是RFC-959。

第三,获取RFC文件

根据RFC文件编号查看以上站点的RFCs文件索引

在里面您可以很快地找到您要找的RFC文件。

第四,阅读描述协议的RFC文件全文

这不用说了。

第五,实践

实践是检验真理的唯一标准,虽然互联网协议不是什么真理,但如果能实践一下对理解和掌握都有好处,许多互联网应用层的协议可视程度非常高,协议中许多控制和参数用英文短语来表示,所传输的数据如文本也是ASCII码,如HTTP,FTP等,这类协议单纯用Telnet就可以模拟一下客户端程序的运作,当然,编程实现是最好的锻炼。

第六,总结

总结确实是不错的学习方法,自己的文章是一面镜子。

3.举例:FTP协议分析

FTP协议的定义在 RFC-959 "FILE TRANSFER PROTOCOL"(Standard,Recommended)。

3.1介绍

FTP 文件传输协议(File Transfer Protocol)

FTP协议是一个应用层协议,在TCP上实现的。

开发FTP的目的是

1)促进文件(计算机程序和/或数据)的共享。

2)鼓励对远程计算机间接或隐式(implicit)(通过程序)的使用。

3)对用户屏蔽不同主机系统中的文件储存的细节。

4)可靠和高效率地实现文件的传送。

用户虽然可以直接通过一个终端使用FTP协议,但FTP协议的设计主要是给程序使用的。

3.2常用的FTP命令解释

由于篇幅所限,这里不对以上每个FTP命令做解释,这里仅解释一下作者认为比较重要或常用的FTP命令,如果读者需要深入了解请参阅 RFC-959 "FILE TRANSFER PROTOCOL"。

USER NAME(USER〈sp〉〈username〉)

本命令的参数〈username〉标识用户名,服务器凭这个用户的权限使用文件系统。这个命令一般是在控制连接后的第一个命令。这个命令成功执行后,服务器会等待PASS命令,PASS也成功执行后,用户才算等录成功,可以存取Server-FTP中的文件。

PASSWORD(PASS〈sp〉〈password〉)

这个命令是USER命令的补充,向Server-FTP发送由〈password〉所表示的密码,该命令执行成功,USER命令所指示的〈username〉才算成功登录。这里的〈password〉是明文传送。

CHANGE WORKING DIRECTORY(CWD〈SP〉〈pathname〉)

令Server-FTP改变当前目录到〈pathname〉。

LOGOUT(QUIT)

这个命令表示用户停止使用FTP,Server-FTP会关闭控制连接。

DATA PORT(PORT 〈SP〉〈host-port〉)

User-FTP这个命令告诉Server-FTP,等待Server-DTP连接的DTP(可能是User-DTP或其他的Server-DTP)的地址,〈host-port〉所指示的就是这个地址,具体的PORT命令形式如下。

PORT h1,h2,h3,h4,p1,p2

以上六个参数都是小于256的数字。

h1,h2,h3,h4表示IP地址,如192,168,0,1 表示IP地址是192.168.0.1的主机。

p1,p2,表示端口号,注意p1和p2都是小于256,所以1000表示为3,232(1000=3*256+232)

RETRIEVE(RETR〈SP〉〈pathname〉)

这个命令请求Server-FTP通过数据连接向User-DTP传送由〈pathname〉指示的文件的数据。

STOR(RETR 〈SP〉〈pathname〉)

这个命令请求Server-FTP通过数据连接接收User-DTP传送的数据,数据保存在由〈pathname〉指示的文件中。注意〈pathname〉是在Server-FTP的主机上的。

PRINT WORKING DIRECTORY(PWD)

Server-FTP收到该命令后在回应中返回当前工作目录名。

LIST(LIST [〈SP〉〈pathname〉])

Server-FTP收到该命令后向User-DTP发送目录〈pathname〉的文件目录信息。如果没有〈pathname〉参数,则返回当前目录的文件目录信息。

STATUS(STAT [〈SP〉〈pathname〉])

这个命令的回应有两种情况,没有〈pathname〉参数和有〈pathname〉参数。

1)没有参数,Server-FTP会在回应中返回的一些状态信息,如以下是我Linux上的Server-FTP返回的信息:

211-zfm.home FTP server status:

Version wu-2.4.2-VR17(1)Mon Apr 19 09:21:53 EDT 1999

Connected to zfl_k6.home(192.168.0.1)

Logged in as fszfl

TYPE:ASCII,FORM:Nonprint;STRUcture:File;transfer MODE:Stream

No data connection

0 data bytes received in 0 files

0 data bytes transmitted in 0 files

0 data bytes total in 0 files

145 traffic bytes received in 0 transfers

4306 traffic bytes transmitted in 0 transfers

4501 traffic bytes total in 0 transfers

211 End of status

2)如果有〈pathname〉参数,则在回应中返回〈pathname〉的目录信息,如以下是我发送STAT . 的结果:

213-status of .:

total 64

drwxrwxr-x 2 fszfl fszfl 1024 Nov 25 01:37 .

drwx------ 12 fszfl fszfl 1024 Nov 29 00:35 ..

213 End of Status

这个功能好象和LIST有点相似,但LIST中的目录信息在数据连接中返回的。

HELP [〈SP〉〈string〉]

这是帮助命令,如果没有参数则返回FTP命令列表,如果有参数则返回〈string〉表示的命令的语法。

3.3 FTP回应

3.3.1 回应的格式

FTP回应有3位数字编码和有关信息的文本组成,编码后一个分隔符,如果回应中返回信息的长度大于一行,则编码后跟减号(-),否则跟空格(〈sp〉)。多于一行的信息可以参考上面的例子。注意最后还有"213 End of Status"表示信息的结束。FTP回应使用的编码是约定好的,信息文本可以由具体的Server-FTP设计。显然,编码为了方便程序设计,文本信息可以方便阅读。

为了叙述方便,下文把这3位编码称为回应码。

3.3.2 回应码含义

3位回应码的每一位都有确定的含义。第一位表示命令的执行结果,表示成功,失败,或命令没有完成。第二位表示回应的类型,第三位一般指第二位的进一步细化,预留给将来的发展。

第1位可能的取值:

1yz 初步确认(Positive Preliminary reply)

表示请求的命令已经开始,请等待进一步的回应,在此之前不要发送新的FTP命令。

2yz 完成确认(Positive Completion reply)

表示请求的命令已经成功完成,可以发送新的请求。

3yz 中间状态确认(Positive Intermediate reply)

请求的命令已经被接受,等待下一条相关的命令提供进一步的信息。这个回应用于一些命令序列中,如USER和PASS,如果USER被接受则可以得到这个回应,表明还需要密码来完成用户的登录。

4yz 暂时否认(Transient Negative Completion reply)

Server-FTP由于一些暂时的原因没有接收命令,User-FTP最好重新请求这个命令。如果是命令序列,则需要从该序列的第一条指令开始。

5yz 命令有错(Permanent Negative Completion reply)

命令没有被接收,具体的拒绝原因由回应码第二位指出。

第2位可能的取值,描述回应的分类:

x0z 语法(Syntax)- 命令语法不正确,或Server-FTP没有实现这个功能。

x1z 信息(Information)- 描述如STAT或HELP等命令要求Server-FTP信息的返回。

x2z 连接(Connections)- 描述有关控制和数据连接。

x3z 帐户和认证(Authentication and accounting)- 登录过程的回应。

x4z 现在还没有指定。

x5z 文件系统(File system)- 这个回应反映服务器的文件系统的状态。

第3位的的含义需要根据第1,2位的值再细化。

3.3.3 回应举例

3位回应码的不同组合产生了许多不同的含义,篇幅所限不一一列举,具体请查 RFC-959。下面是几个例子:

200 Command okay.

500 Syntax error,command unrecognized.

501 Syntax error in parameters or arguments

篇10

2016年4月11日,浦东法院对本案进行了公开开庭审理。

据澎湃新闻报道,浦东法院在审理后认为,百度地图和大众点评在为用户提供商户信息和点评内容的服务模式上近乎一致,双方存在直接竞争关系。百度地图大量使用大众点评网的用户点评,替代其向网络用户提供信息,会导致大众点评网的流量减少。与此同时,百度地图又推介自己的团购等业务,攫取了大众点评网的部分交易机会。而百度知道直接向用户提供来自大众点评网的点评信息,将一些想获取点评信息的网络用户导流到了百度知道。

法院指出,市场经济鼓励市场主体在信息的生产、搜集和使用等方面进行各种形式的自由竞争,但是这种竞争应当充分尊重竞争对手在信息的生产、搜集和使用过程中的辛勤付出。本案大众点评网的用户点评信息是汉涛公司的核心竞争资源之一,能给汉涛公司带来竞争优势,具有商业价值。汉涛公司为运营大众点评网付出了巨大的成本,通过法律维护点评信息使用市场的正当竞争秩序,有利于鼓励经营者创新业务模式,投入成本改善消费者福祉。百度公司大量、全文使用涉案点评信息,实质替代大众点评网向用户提供信息,对汉涛公司造成损害,其行为违反了公认的商业道德和诚实信用原则,具有不正当性,构成不正当竞争。

法院同时指出,本案中百度公司的搜索引擎抓取涉案信息虽未违反Robots协议,但这并不意味着百度公司可以任意使用搜索引擎抓取的信息,百度公司应当本着诚实信用的原则和公认的商业道德,合理控制来源于第三方网站信息的使用范围和方式。

篇11

美丽说遭遇的“危机”,其实是淘宝、百度两大巨头之间重新合作的一个结果,但从这结果很难倒推回去说淘宝存在一个刻意针对导购网站的打压计划

非刻意的伤害

却也不介意“假道伐虢”

比“美丽说”被截流更大的新闻是淘宝与百度的重新合作。在此之前,从2008年开始,马云就在淘宝的Robots.txt协议中全面屏蔽百度蜘蛛——禁止百度搜索结果抓取淘宝内容,时隔5年之后的2013年,淘宝的内容又重新出现在百度上。

众所周知,百度搜索可以为网站导流,而流量就是财富,但当年马云为什么会下决心屏蔽百度呢?分析原因应有两个,其一,马云认为淘宝已经足够强大,可以作为一个单独的世界存在,而不必借助百度;其二,马云认为百度太强大,如果用户渐渐习惯直接从百度搜索作为购物入口,淘宝就很可能被抛弃,而百度当时又对自有电商野心勃勃,意欲打造一个“中文互联网领域最具规模的网上个人交易平台”。

时隔5年,世界却已经发生变化。百度现在已经对自有电商基本放弃,与日方合资的B2C网站乐酷天也在去年被彻底关闭,百度对淘宝的威胁大幅度降低。而阿里巴巴最近又在筹划IPO,对业绩快速增长的需求日益迫切。这种情况下,百度、淘宝重新携手已不是意外。

不仅与百度合作,阿里还同时与360搜索签署了相关协议。在与360签署的合作框架中,其商品、购物搜索均通过阿里妈妈旗下一淘网直接向淘宝、天猫等阿里系电商平台引流。

淘宝不会为了对付美丽说才与百度合作,后者的量级实在太小了。然而,巨头一打喷嚏,跟班们就要感冒,淘宝与百度的合作又确确实实对美丽说、蘑菇街这样的淘宝寄生者造成性命之忧。5年前,正因为淘宝屏蔽了百度搜索,才给美丽说这样的第三方导购网站创造了更大的生存空间,借助社会化电商概念,它们不断壮大,大有成为淘宝最重要流量入口之势,淘宝联盟数据显示,在2012年的30亿元分成金额中,蘑菇街、美丽说等导购网站占比为21%,从淘宝分成超过6亿元。从长远看,这对淘宝不能不说是一大潜在威胁。借助这次与百度恢复合作,马云应当不介意“假道伐虢”。

更何况,马云在百度的合作中,也是投了巨资的,即便没有对付导购网站的确切意图,它也要购买一些关键词,把目标用户直接导向淘宝,与其从美丽说导流再分给美丽说,还不如自己购买“美丽说”这样的关键词,把流量直接导过来。

摆脱对淘宝的依赖

转型个性化垂直社区的机会

导购网站在巨头龃龉中渔翁得利,获得发展良机,现在巨头握手,它们蒙受池鱼之殃,这也算是因果循环了。事实上,如果美丽说们富有远见的话,早就该预料到这一天。因为淘宝收紧流量入口,防止养虎为患的姿态显露了已不止一天。根据媒体公开报道,2012年5月,马云曾针对电商导购、返利类的网站在内部做了几点指示:不扶持上游导购网站继续做大,不支持返利类的网站。产业链上可以和异业合作,尽量不和同业合作。作为信号,去年底淘宝已经对返利网站下手。去年11月20日,一淘旗下淘宝联盟公告称,部分返现类淘宝客在宣传上夸大返现金额、延长返现账期、故意设定众多限制不返利,侵害了消费者利益,并影响了商家价格体系。因此,淘宝联盟将从2013年1月1日起不再支持针对淘宝站内(包括天猫和淘宝集市)购物返现金给会员或买家的淘宝客模式,只支持返积分、返实物、优惠券等非现金返利方式。

马云说,阿里的流量入口应该是草原而不是森林。淘宝希望上游有1万个蘑菇街,每家收入都是2万元/天。

淘宝和“美丽说”们曾经相爱,但它最希望的是这些导购网站有永远“做小”的觉悟,只要你不奢望登堂入室,那我也不介意一直包养,淘宝最介意的是导购网站越做越大,控制了淘宝的入口,或者这些与淘宝合作密切的网站被竞争对手买走,进而给淘宝来个釜底抽薪。

篇12

0 引 言

对于无线定位系统,已经有很多文献对此进行了分析。无线定位技术是一项古老而又年轻的技术。定位通常是指确定地球表面某种物体在某一参考坐标系中的位置。传统的定位技术和导航密不可分,导航是指引导交通工具或其他物体从一个位置移动到另一个位置的过程,这一过程通常需要定位进行辅助。随着RFID系统阅读距离的增长,对标签的定位需求也变得越来越紧迫。文献[1]的蜂窝网无线定位的各种研究也非常适合RFID系统的定位。文献[2]重点研究了射频识别RFID室内算法研究。

射频识别系统包括一个标签和读写器。当随着操作距离的增长,在阅读器阅读范围内的标签数量会随之增长,并且阅读器要同时阅读多卡。现在市场上很多阅读器已经能够同时阅读和辨识多卡,但是他们不能在物理上定位标签的具置。随着阅读器和标签性能的提升,操作距离的增长使阅读器有能力大范围得到定位信息,位置信息作为辨识信息的增加变得越来越重要。为了方便叙述,借鉴文献[3]将后面待定位的目标称为标签或移动台,将参与定位的射频识别读写器简称为基站或阅读器。

无线及移动通信设备的普及带动了人们对位置感知服务的需求,人们需要确定物品的三维坐标并跟踪其变化。现有的定位服务系统主要包括基于卫星定位的GPS 系统、基于红外线或超声波的定位系统及基于移动网络的定位系统。RFID 的普及为人与物体的空间定位与跟踪服务提供了一种新的解决方案。RFID 定位与跟踪系统主要利用标签对物体的唯一标识特性,依据读写器与安装在物体上的标签之间射频通信的信号强度来测量物品的空间位置,主要应用于GPS 系统难以应用的室内定位。典型的RFID 定位与跟踪系统包括微软公司的Radar 系统[4]、MIT Oxygen 项目开发的Cricket 系统[5] 、密歇根州立大学的LANDMARC 系统[6]。日本九州大学的带有RFID标签阅读器的机器人利用周围标签位置数据进行自我定位[7]。这些应用针对RFID 标签价格低廉的特点,通过引入参考标签,采用RFID 标签作为参考点[6],能够提高系统定位精度,同时降低系统成本。

针对采用副载波通信的RFID系统,文献[8]采用了离散频谱校正得到相位,操作相对比较复杂。我们也可以把副载波看做是基带,同样也可以使用本文提出对标签反射波的跳频变相检测法进行距离计算,该方法能够快速得到精确的距离数值。当然在这个频段中只有反射调制式射频系统能够利用本文介绍的相位检测法进行精确的距离测量。相对其他方法比如时间差法,场强法等则无法提供在载波波长距离内的精度[2,3]。

1 射频识别相位测距法

在超高频射频识别系统中,典型的是ISO/IEC18000-6协议,它有Type A、B、C三种,表1所列为他们工作方式的定义。在超高频射频识别系统中,电子标签从阅读器发出的电磁波中获取能量,阅读器通过调制发送的载波给标签发送信息,并且给标签发送无调制的载波并通过接收标签的后向散射获取标签返回的信息。由此可见,阅读器和电子标签之间的通信是半双工的,标签在后向散射的时候不获取阅读器的指令。由于是短距离无线通信,为了使得标签解调方便,阅读器到标签之间的通信方式主要是幅度调制,而电子标鉴的后向散射是通过调制阅读器的无调制载波来返回信息,主要的调制方式是幅度调制或者相位调制。

由于射频识别系统利用了如图1所示的反射调制技术,系统在标签反射阻抗不变的情况下,反射回来的信号幅度和相位跟距离有关。距离长了,标签反射到读写器的信号会减弱,相位会随着距离而呈周期变化。反射回来的信号幅度往往因天线的方向角,周围环境变化(如标签贴近金属板),反射信号强度而显著不同,所以接收信号的强度很难反应标签和读写器之间的距离。

由于是短距离通讯,标签和读写器之间往往在直视距离,所以,相对来说相位测距受环境变化影响要小很多。根据天线互易定理,在视距情况下,标签的阅读距离不会受收发天线方向系数影响,同时不受极化的影响。标签天线在受外界影响变形时,阅读距离会相应减小。

图1 反射调制射频识别系统原理图

2 跳频变相位测距原理

假设无源反射调制标签对反射信号是采用OOK调制的,并且标签天线的阻抗没有随着频率变化(或者变化非常小可以忽略)。

读写器发射频率为f的载波信号,标签将一部分载波信号反射回读写器,I/Q解调器得到标签反射信号载波和发射的载波相干得到它的幅度和相位信息。幅度表示反射信号的强度,相位θ则会随着标签和读写器的距离而改变,可以由下式求出:

(1)

其中c为光速,L为读写器到标签的距离,f为载波频率。

由于读写器检测到的θT取值范围只有0~2π,所以当标签和读写器距离L比较长时,θT将会由下式表示:

(2)

其中[ ]符号表示取整数。

由式(2)可以看出,直接用θT来求标签和读写器距离L将会出现整周模糊度的问题。

现在依旧假设标签和读写器距离不变。读写器的频率范围是860~960 MHz,属于跳频系统。令θ1为频率f1时标签反射载波在读写器的相位,频率f2时标签反射载波在读写器的相位是θ2。

(3)

由这个方程组,我们求得

(4)

其中Δθ=θ2-θ1,Δf=f2-f1。

在取f1和f2时避免-π

3 相位的获取

读写器直接下变频从I/Q解调器得到接收信号的I、Q两路正交信号如图2所示。他们和标签反射波信号的幅度A和相位θ的关系是

(5)

所以

(6)

图2 I/Q星座图

4 距离测量值修正

由于前面的推导都是在理想情况下进行的,实际上读写器和标签之间的传输信道并不一定是理想的。对于RFID系统来说,电磁波的主要方式是视距传播和非视距传播。当然视距传播对信号做出主要贡献。这里主要研究L的修正及θ的修正这两个问题。

4.1 L的修正

由于解调器离天线还有一定的距离,设为L',不考虑色散等问题,刚才实际的读写器天线到标签的距离应该修正为

LA-T=L-L' (7)

4.2 θ的修正

标签的反射阻抗在各个频率上不一定相等,由于是相位检测所以我们主要关心阻抗的相位变化。令f2时标签的阻抗和f1时阻抗相位差为θ'(好的标签设计这个值应该很小)。故距离使用下式计算:

(8)

4.3 总的修正

综合(7)式和(8)式,我们可以得出总的修正式:

(9)

可以令

L修= (10)

这样就将所有的修正归结为一个修正,所以有

L修 (11)

实际上,只要把标签贴到读写器天线上即令LT-A=0,则这个时候由Δθ和Δf可以直接求得L修。

5 相位测距误差分析

由(4)可知,标签到阅读器距离L是相位角Δθ和频率Δf的函数,记为L=L(Δθ,Δf)。

(12)

(13)

所以它的全微分为

(14)

L的方差为

(15)

6 结 语

以上介绍的是利用两个频点(跳频)的不同相位来定位的方法,实际上可以多采集一个频点来进行定位计算得到更精确的距离估计值,或者和场强法结合进行估计。图3为不同频率间隔下,电子标签反射回来的相位差和标签距离之间的关系图。

图3 不同频率间隔下角度和标签距离的坐标图

射频识别系统包括一个标签和读写器。当随着操作距离的增长,在阅读器阅读范围内的标签数量会随着增长,并且阅读器要同时阅读多卡。现在市场上很多阅读器已经能够同时阅读和辨识多卡,但是大部分不能在物理上定位标签的具置。随着阅读器和标签性能的提升,操作距离的增长使阅读器有能力大范围得到定位信息,位置信息作为辨识信息的增加变得越来越重要了。本文提出跳频变相位检测法进行距离计算,能够快速得到精确的数值,所有采用反射调制式的射频系统都能够利用本文介绍的跳频相位检测法进行精确的距离测量。

参考文献

[1] 沈宇超,沈树群,樊荣,等.射频识别系统中通信协议的模块化设计[J].通信学报,2001, 22(2):54-58.

[2] 李科让.一种实用的非接触式IC卡读写器系统的设计[J].重庆邮电学院学报(自然科学版),2001,6(S1):141-143.

[3] 范平志,邓平,刘林.蜂窝网无线定位[M].北京:电子工业出版社,2002.

[4] P. Bahl, V. N. Padmanabhan. RADAR:An In-Building RF-based User Location and Tracking System [Z].In Proc. of Joint Conference of the IEEE Computer and Communications Societies (INFOCOM), 2000.

[5] Nissanka B. Priyantha, Anit Chakraborty, Hari Balakrishnan:The Cricket Location-Support System [Z].The 6th ACM International Conference on Mobile Computing and Networking , Boston, MA, August 2000.

篇13

第1章 SEO概述

1.1 SEO简介

1.1.1 SEO“何许人也”

1.1.2 为什么要学习SEO

1.1.3 SEO适合哪些人

1.1.4 SEO人员应该具备哪些素养

1.2 正确理解SEO

1.2.1 SEO不等于作弊

1.2.2 SEO内容为王

1.2.3 SEO与SEM的关系

1.2.4 SEO与付费排名的关系

第2章 网站设计影响SEO的因素

2.1 如何选择搜索引擎喜欢的域名

2.1.1 哪些域名后缀权重高

2.1.2 域名长短是否影响SEO

2.1.3 中文域名是否影响SEO

2.1.4 域名存在的时间对SEO有什么影响

2.1.5 如何选择一个合适的域名

2.1.6 为域名取名的技巧

2.2 如何选择搜索引擎喜欢的空间

2.2.1 如何选择空间合适的位置

2.2.2 空间的速度对SEO的影响

2.2.3 如何保障空间更稳定

2.2.4 选择空间还是选择服务器

2.2.5 支持在线人数为多少

2.2.6 是否支持404错误页面

2.3 如何制定搜索引擎喜欢的网站构架

2.3.1 W3C标准对SEO的影响

2.3.2 DIV+CSS对SEO的影响

2.3.3 静态化页面对SEO的影响

2.3.4 目录级别对SEO的影响

2.3.5 目录文件名对SEO的影响

2.3.6 网页大小对SEO的影响

2.3.7 如何使用robots.txt

2.4 如何制定搜索引擎喜欢的网站标签

2.4.1 标题(Title)的设计技巧

2.4.2 描述(Description)的设计技巧

2.4.3 关键词(Keywords)的设计技巧

2.4.4 认识更多Meta

第3章 关键词与SEO

3.1 关键词的重要性

3.2 关键词密度

3.2.1 什么是关键词密度

3.2.2 纠正对关键词密度的错误看法

3.2.3 什么是适当的关键词密度

3.2.4 关键词放在网页哪些位置最好

3.2.5 关键词密度的基本原则

3.2.6 如何增加关键词密度

3.2.7 如何查询关键词密度

3.2.8 谷歌和雅虎的喜好分析

3.3 关键词趋势

3.3.1 什么是关键词趋势

3.3.2 带你认识谷歌热榜

3.3.3 带你认识百度风云榜

3.3.4 带你认识百度指数

3.3.5 寻找关键词趋势的小窍门

3.4 什么是长尾关键词

3.4.1 如何选择长尾关键词

3.4.2 如何制作网站栏目

3.4.3 如何制作网站专题

第4章 内容策略

第5章 链接策略

第6章 数据监测与分析

第7章 SEO进阶

第8章 网站经典SEO案例分析

第9章 如何利用SEO技术进行网络创业与赚钱

附录1 SEO服务协议范本

附录2 SEO工作进度与安排、价款、交付和验收方式示例

附录3 网站SEO方案范本

附录4 需要了解的操作理论

编辑推荐

网络SEO世界,在别人看来可能是玄妙莫测的异度空间,但在杨帆这里却如他手中玩转自如的魔方,只需他略施小计便乖乖受降,排兵布阵任其调遣,秩序、章法早已自在心中。此次杨帆将其多年实战中总结的经验著书分享,实为中国互联网营销界之幸事!全书深入浅出、注重实战,即使你是一个第一次接触网络SEO的新鲜人,亦可按图索骥,挖到网络里属于你的第一桶金!

——陈墨网络营销机构创始人 陈墨

搜索引擎已经拥有98%的网民渗透率并占据78.7%的网民获取信息途径。对于各类网络创业者来说,无论是初期建站推广、中期商业运营,还是后期用户经营,都可谓是“得搜索者方能得网络天下”,本书就是一本既实用又实惠的亲身传授如何获得网络天下的“宝典”。

——北京亿玛在线科技有限公司(亿告、亿起发)总裁 柯细兴

目前网站制作的重心已从制作的本身转向网站的推广运营,网站的流量大小受搜索引擎排名的影响,SEO无论在行业网站还是地域网站都已经成为必木可少的环节。本书从各个角度,用实战和具体的参数来定义和指导SEO,讲述如何结合自己网站的实际情况;结合网站本身的资源开展SEO并进行长期规划。读者可以结合自身网站,分步进行尝试,不断总结升华。

——站长网admin5.com创始人图王

SEO这一决定网站流量的关键技术在此书中得到了具体、全面而细致的诠释。杨帆布此书中毫无保留地阐述了自己为多家知名网站提供SEO服务的实战经验。如果你是一个SEO新人,读此书后你会迅速领悟SEO的真谛。如果你对SEO已经有了一定了解,渎此书后你将进入一个SEO新的境界!

友情链接
相关精选