前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇robots协议范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
robots协议是搜索行业的一种行业自律规则,它的约束力固然仅限于自律,没有强制约束力,但这不等于说,它背后反映的精神,没有法律基础。例如美国《电子隐私权法》就规定“将决定权交给消费者,让其切实有效地授权或者拒绝他人采集和使用其个人信息”。更重要的是,规则有没有强制力,同它是不是规则并没有关系。遵守规则是要遵守公平竞争,不是没有强制力就可以不公平竞争。
我们可以把robots协议理解为客房的“请勿打扰”标志,服务人员不得以“更好服务”为借口,强行进入提供服务。因为这会损害三个主体的利益,一是消费者,未来人们更多把自己的数据存储在云端,涉及私有数据隐私安全,挂上“请勿打扰”,就不能硬闯;二是企业,企业网站后台的机密数据信息,应受到robots协议的保护。三是竞争中的服务者,如果离开robots协议的保护,服务网站、网站站长权利就会受到侵犯。robots协议执行中是否排他,不直接影响robots协议本身涉及的上述利益关系。当然,robots协议应该是对所有人都适用的。
在这一事件中,我认为当事人涉嫌违反《信息安全技术个人信息保护指南》,该指南制订中,北京奇虎科技有限公司、北京百度网讯科技有限公司均有参与,理应遵守。违反的原则包括:1、安全保障原则(防止未经授权检索、公开及丢失、泄露、损毁和篡改个人信息)。2、合理处置原则(不采用非法、隐蔽、间接等方式收集个人信息,在达到既定目标后不再继续处理个人信息)。3、知情同意原则(未经个人信息主体同意,不处理个人信息)。此外,企业自有版权及所具有其他机构的版权授权,未经许可不得复制。随意抓取,会造成侵权,涉嫌违反知识产权有关法律。
现在的问题处理主要着眼于预防、避免3Q大战那样的事件重演。首先要明确规制的原则。我认为原则应是保障行业秩序和市场秩序,保护消费者与从业者正当权益。其次,要慎重运用规制手段。规制的顺序,应是市场优先,鼓励企业自律;市场失灵后,行业协会介入,行业规范;社会自律失灵后,政府介入,以政策法律形式规范,包括行政手段。鉴于robots协议的自律约束失灵,首先应向企业提示遵守协议。如果企业不接受,应考虑由行业协会出面,以他律方式进行协调,劝解。如果仍不起作用,为避免引起不良社会后果,可考虑政府出面,采取行政、法规手段进行强制制止。
网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的链接中找到;另一个原因是存储技术和处理技术的问题,如果按照每个页面的平均大小为20K计算(包含图片),100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要340台机器不停的下载一年时间,才能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。
在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。
广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。
由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H属于第2层,I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。
网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓取(下小节会介绍),但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全**的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。
网站与网络蜘蛛
网络蜘蛛需要抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。今年4月,淘宝taobao.com)就因为雅虎搜索引擎的网络蜘蛛抓取其数据引起淘宝网服务器的不稳定。网站是否就无法和网络蜘蛛交流呢?其实不然,有多种方法可以让网站和网络蜘蛛进行交流。一方面让网站管理员了解网络蜘蛛都来自哪儿,做了些什么,另一方面也告诉网络蜘蛛哪些网页不应该抓取,哪些网页应该更新。
每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User-agent,用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider,Yahoo网络蜘蛛的标识为Inktomi Slurp。如果在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎的网络蜘蛛过来过,什么时候过来的,以及读了多少数据等等。如果网站管理员发现某个蜘蛛有问题,就通过其标识来和其所有者联系。下面是博客中blogchina.com)2004年5月15日的搜索引擎访问日志:
网络蜘蛛进入一个网站,一般会访问一个特殊的文本文件Robots.txt,这个文件一般放在网站服务器的根目录下,blogchina.com/robots.txt。网站管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些网站的可执行文件目录和临时文件目录不希望被搜索引擎搜索到,那么网站管理员就可以把这些目录定义为拒绝访问目录。Robots.txt语法很简单,例如如果对目录没有任何限制,可以用以下两行来描述:
User-agent: *
Disallow:
当然,Robots.txt只是一个协议,如果网络蜘蛛的设计者不遵循这个协议,网站管理员也无法阻止网络蜘蛛对于某些页面的访问,但一般的网络蜘蛛都会遵循这些协议,而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。
网络蜘蛛在下载网页的时候,会去识别网页的HTML代码,在其代码的部分,会有META标识。通过这些标识,可以告诉网络蜘蛛本网页是否需要被抓取,还可以告诉网络蜘蛛本网页中的链接是否需要被继续跟踪。例如:表示本网页不需要被抓取,但是网页内的链接需要被跟踪。
转贴于
现在一般的网站都希望搜索引擎能更全面的抓取自己网站的网页,因为这样可以让更多的访问者能通过搜索引擎找到此网站。为了让本网站的网页更全面被抓取到,网站管理员可以建立一个网站地图,即Site Map。许多网络蜘蛛会把sitemap.htm文件作为一个网站网页爬取的入口,网站管理员可以把网站内部所有网页的链接放在这个文件里面,那么网络蜘蛛可以很方便的把整个网站抓取下来,避免遗漏某些网页,也会减小对网站服务器的负担。
内容提取
搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网络蜘蛛正确跟踪其它链接有一定影响。
对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口,就可以轻松的提取文档中的文本信息和文件其它相关的信息。
HTML等文档不一样,HTML有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式,如:、、等,提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。但在识别这些信息的时候,需要同步记录许多版式信息,例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等,这些信息有助于计算单词在网页中的重要程度。同时,对于HTML网页来说,除了标题和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候,也需要过滤这些无用的链接。例如某个网站有“产品介绍”频道,因为导航条在网站内每个网页都有,若不过滤导航条链接,在搜索“产品介绍”的时候,则网站内每个网页都会搜索到,无疑会带来大量垃圾信息。过滤这些无效链接需要统计大量的网页结构规律,抽取一些共性,统一过滤;对于一些重要而结果特殊的网站,还需要个别处理。这就需要网络蜘蛛的设计有一定的扩展性。
对于多媒体、图片等文件,一般是通过链接的锚文本(即,链接文本)和相关的文件注释来判断这些文件的内容。例如有一个链接文字为“张曼玉照片”,其链接指向一张bmp格式的图片,那么网络蜘蛛就知道这张图片的内容是“张曼玉的照片”。这样,在搜索“张曼玉”和“照片”的时候都能让搜索引擎找到这张图片。另外,许多多媒体文件中有文件属性,考虑这些属性也可以更好的了解文件的内容。
动态网页一直是网络蜘蛛面临的难题。所谓动态网页,是相对于静态网页而言,是由程序自动生成的页面,这样的好处是可以快速统一更改网页风格,也可以减少网页所占服务器的空间,但同样给网络蜘蛛的抓取带来一些麻烦。由于开发语言不断的增多,动态网页的类型也越来越多,如:asp、jsp、php等。这些类型的网页对于网络蜘蛛来说,可能还稍微容易一些。网络蜘蛛比较难于处理的是一些脚本语言(如VBScript和javascript)生成的网页,如果要完善的处理好这些网页,网络蜘蛛需要有自己的脚本解释程序。对于许多数据是放在数据库的网站,需要通过本网站的数据库搜索才能获得信息,这些给网络蜘蛛的抓取带来很大的困难。对于这类网站,如果网站设计者希望这些数据能被搜索引擎搜索,则需要提供一种可以遍历整个数据库内容的方法。
对于网页内容的提取,一直是网络蜘蛛中重要的技术。整个系统一般采用插件的形式,通过一个插件管理服务程序,遇到不同格式的网页采用不同的插件处理。这种方式的好处在于扩充性好,以后每发现一种新的类型,就可以把其处理方式做成一个插件补充到插件管理服务程序之中。
更新周期
由于网站的内容经常在变化,因此网络蜘蛛也需不断的更新其抓取网页的内容,这就需要网络蜘蛛按照一定的周期去扫描网站,查看哪些页面是需要更新的页面,哪些页面是新增页面,哪些页面是已经过期的死链接。
关键词:机构知识库 谷歌学术搜索 学术搜索引擎优化 中科院机构知识库
中图分类号: G252 G255.76 文献标识码: A 文章编号: 1003-6938(2012)05-0085-05
1 引言
近年来机构知识库(Institutional Repository,IR)快速稳步增长,已覆盖了大部分知名高校和科研机构。目前在开放获取机构资源库OpenDOAR中注册登记的IR已有2163家[1],除此以外还有相当一部分数量的IR未在OpenDOAR中注册。IR做为支持开放获取的一种重要形式,支持机构实施数字知识资产的长期保存和管理,提高机构及科研人员智力成果的发现几率、传播范围和影响,是吸引机构及科研人员重视和参与IR建设的重要因素。相关的研究也表明,支持开放获取的论文其引用影响可获得25%~250%的提升[2]。 而Arlitsch等人[3]的调查结果显示,当前IR内容被Google Scholar收录的比率总体上维持在10%~30%的水平,甚至有0%的IR(见图1)。也就是说,大部分IR的内容没有得到充分的发现和利用,仍然局限在小范围内进行交流传播。
Google Scholar作为一项针对学者和科研人员的免费学术文献搜索服务,现在已成为学者、研究人员和学生查找专业文献资料的首选工具[4]。其搜索的范围涵盖了几乎所有知识领域的高质量学术研究资料,包括论文、专业书籍以及技术报告等。Google Scholar不但可以过滤普通网络搜索引擎中对学术人士无用的大量信息,通过与众多学术文献出版商的合作,还加入了许多普通搜索引擎无法搜索到的内容。目前,科研用户通过网络来获取资源,第一选择就是通过Google等搜索引擎进行大范围搜索,其次考虑利用专业的学术数据库,最后才会去翻阅学术期刊。这种检索顺序已经形成了一种社会习惯。
因此,如何解决IR被搜索引擎Google Scholar收录,提升IR中学术文章被Google Scholar收录的比率,已成为增强IR内容可发现性和可见性的关键。本文以中国科学院研究所IR平台CAS OpenIR[5]为例,采用学术搜索引擎优化(Academic Search Engine Optimization,ASEO)的策略和方法,通过提升IR在Google Scholar中的索引比率,进而增强IR中内容被发现引用和利用影响力。
[图1 IR被Google Scholar收录情况调查表[3]]
2 ASEO策略和目的
ASEO建立在传统的SEO[6]基础之上,是从普通的SEO发展而来。由于学术搜索引擎Google Scholar与普通搜索引擎有着明确的定位区别,因此ASEO与SEO有着明显的不同之处。
SEO指通过采用易于搜索引擎索引的合理技术手段和策略,使网站各项要素适合搜索引擎的检索原则,从而更容易被搜索引擎收录和优先排序。SEO基于网页(Web Page),收录过程较灵活和容易。IR属于学术产出的数据库平台,有着自身的元数据元素集,其中的学术文章属于“Academic Invisible Web”[7],不能被Google Scholar直接访问和索引。因此,在被学术搜索引擎Google Scholar收录前,需要对IR进行ASEO改造,使其符合Google Scholar索引标准,易于被Google Scholar收录爬取。即:
(1) 使IR可以被搜索引擎Google Scholar更好地收录和更新(包括IR的元数据和全文);
(2) 使搜索引擎在规则允许的范围内进行索引,明确IR的哪些页面可以被索引收录,哪些页面不能被索引收录;
(3) 在用户使用Google Scholar搜索时,可以排名靠前的呈现IR中的相关条目,起到推介IR的作用;
(4) 将IR中开放权限的全文纳入Google Scholar的全文检索中,增加IR中论文的可见性,提高论文的被引用率。
3 Google Scholar收录原则和排名算法
Google Scholar针对学术性数据库内容的收录和索引,有明确的收录原则[8],如:① 被收录文章需要有唯一的URL;②匿名用户可免费地通过原文URL进入阅读被收录文章;③数据库服务的Robots.txt协议正确配置,明确允许及禁止Googlebot爬取的路径及内容范围;④数据记录的Meta标签符合Google Scholar Meta规则,并且必须包含DC.title,DC.creator,DCTERMS.issued三项描述元数据;⑤记录除了题录文摘信息外,被收录记录必须要有全文;⑥全文格式为PDF格式。
Google Scholar检索排名继承了普通Google检索中应用的PageRank算法[9],即主要看某项学术内容、页面被引用的情况,同时还将文章全文、作者和出版物等因素纳入算法,从而保证检索结果的高相关性,提高查准率。学术论文被引述的频度越多,一般判断这篇论文的权威性就越高,它的PageRank值就越高。
4 面向IR的ASEO策略与方法实现
根据学术搜索引擎Google Scholar收录、排名的要约特点,本文中笔者将选取ASEO中的关键环节,就设计思路和实现的过程做一分析说明。
4.1 搜索引擎注册
在传统SEO过程中,网站管理员不用太担心网站的收录情况,在网站运行一定时间后搜索引擎的机器人会自动通过已被索引的外部链接发现该网站。而学术搜索引擎ASEO过程中,往往需要通过管理员在Google Scholar中对相关的服务进行注册,来通知机器人将其纳入爬取对象。有鉴于此,在研究所IR部署完成后:
(1)要求或者帮助研究所尽快在Google Scholar中完成其IR的注册和。在Google Scholar注册IR过程中,除了声明Google Scholar要求的收录原则外,还需要声明IR所用软件、论文数量、语种、访问地址。
(2)由于Google Scholar的PageRank算法对网络分类目录尤为重视,如果网站被ODP(.
[9]Page,L.,Brin,S.,Motwani,R.andet al.The PageRank Citation Ranking: Bringing Order to the Web[EB/OL].[2012-06-18].http://citeseerxist psu.edu/viewdoc/summary?doi=10.1.1.31.1768.
[10]Dublin Core Collection Description Application Profile[EB/OL].[2012-05-10]. http://ukoln.ac.uk/meta
data/dcmi/collection-application-profile/.
[11]Sitemap[EB/OL].[2012-05-18].http://
/wiki/Sitemap.
[12]Rewrite engine[EB/OL].[2012-02-25].http://en.wikpe
对此,蘑菇街品牌部经理接受媒体采访时予以否认:“外界对于这种‘截流’之类不实言论挺多的,可以肯定的是,我们和淘宝的合作都很顺利。”似乎是作为佐证,6月中旬,再在百度搜索“蘑菇街”,已不见淘宝导流链接,但搜索“美丽说”,其结果依旧导向淘宝天猫商城。
百度上的变化,到底是意味着淘宝在刻意打压导购网站,还是只是淘宝与“美丽说”合作不畅,抑或是有其他原因?
美丽说遭遇的“危机”,其实是淘宝、百度两大巨头之间重新合作的一个结果,但从这结果很难倒推回去说淘宝存在一个刻意针对导购网站的打压计划
非刻意的伤害
却也不介意“假道伐虢”
比“美丽说”被截流更大的新闻是淘宝与百度的重新合作。在此之前,从2008年开始,马云就在淘宝的Robots.txt协议中全面屏蔽百度蜘蛛——禁止百度搜索结果抓取淘宝内容,时隔5年之后的2013年,淘宝的内容又重新出现在百度上。
众所周知,百度搜索可以为网站导流,而流量就是财富,但当年马云为什么会下决心屏蔽百度呢?分析原因应有两个,其一,马云认为淘宝已经足够强大,可以作为一个单独的世界存在,而不必借助百度;其二,马云认为百度太强大,如果用户渐渐习惯直接从百度搜索作为购物入口,淘宝就很可能被抛弃,而百度当时又对自有电商野心勃勃,意欲打造一个“中文互联网领域最具规模的网上个人交易平台”。
时隔5年,世界却已经发生变化。百度现在已经对自有电商基本放弃,与日方合资的B2C网站乐酷天也在去年被彻底关闭,百度对淘宝的威胁大幅度降低。而阿里巴巴最近又在筹划IPO,对业绩快速增长的需求日益迫切。这种情况下,百度、淘宝重新携手已不是意外。
不仅与百度合作,阿里还同时与360搜索签署了相关协议。在与360签署的合作框架中,其商品、购物搜索均通过阿里妈妈旗下一淘网直接向淘宝、天猫等阿里系电商平台引流。
淘宝不会为了对付美丽说才与百度合作,后者的量级实在太小了。然而,巨头一打喷嚏,跟班们就要感冒,淘宝与百度的合作又确确实实对美丽说、蘑菇街这样的淘宝寄生者造成性命之忧。5年前,正因为淘宝屏蔽了百度搜索,才给美丽说这样的第三方导购网站创造了更大的生存空间,借助社会化电商概念,它们不断壮大,大有成为淘宝最重要流量入口之势,淘宝联盟数据显示,在2012年的30亿元分成金额中,蘑菇街、美丽说等导购网站占比为21%,从淘宝分成超过6亿元。从长远看,这对淘宝不能不说是一大潜在威胁。借助这次与百度恢复合作,马云应当不介意“假道伐虢”。
更何况,马云在百度的合作中,也是投了巨资的,即便没有对付导购网站的确切意图,它也要购买一些关键词,把目标用户直接导向淘宝,与其从美丽说导流再分给美丽说,还不如自己购买“美丽说”这样的关键词,把流量直接导过来。
摆脱对淘宝的依赖
转型个性化垂直社区的机会
导购网站在巨头龃龉中渔翁得利,获得发展良机,现在巨头握手,它们蒙受池鱼之殃,这也算是因果循环了。事实上,如果美丽说们富有远见的话,早就该预料到这一天。因为淘宝收紧流量入口,防止养虎为患的姿态显露了已不止一天。根据媒体公开报道,2012年5月,马云曾针对电商导购、返利类的网站在内部做了几点指示:不扶持上游导购网站继续做大,不支持返利类的网站。产业链上可以和异业合作,尽量不和同业合作。作为信号,去年底淘宝已经对返利网站下手。去年11月20日,一淘旗下淘宝联盟公告称,部分返现类淘宝客在宣传上夸大返现金额、延长返现账期、故意设定众多限制不返利,侵害了消费者利益,并影响了商家价格体系。因此,淘宝联盟将从2013年1月1日起不再支持针对淘宝站内(包括天猫和淘宝集市)购物返现金给会员或买家的淘宝客模式,只支持返积分、返实物、优惠券等非现金返利方式。
马云说,阿里的流量入口应该是草原而不是森林。淘宝希望上游有1万个蘑菇街,每家收入都是2万元/天。
淘宝和“美丽说”们曾经相爱,但它最希望的是这些导购网站有永远“做小”的觉悟,只要你不奢望登堂入室,那我也不介意一直包养,淘宝最介意的是导购网站越做越大,控制了淘宝的入口,或者这些与淘宝合作密切的网站被竞争对手买走,进而给淘宝来个釜底抽薪。
但理想很丰满,现实很骨干,“美丽说”们也有自己的生活与理想。去年底以来就一直有消息称腾讯领投了美丽说的D轮融资,这类行为无疑一定会摸到淘宝的老虎屁股。
搜索引擎在互联网上的作用非常重要,大多数网民在寻找某个信息的时候都会使用搜索引擎来寻找,将网站地址排在搜索结果的第一名就成为搜索引擎营销推广的最终目标。搜索引擎营销推广的方法又可以分为多种不同的形式,常见的有:登录搜索引擎、登录分类目录、搜索引擎优化、付费关键词竞价广告等。从目前的发展趋势来看,搜索引擎在网络营销中的地位依然重要,并且受到越来越多企业的认可,搜索引擎营销的方式也在不断发展演变,因此应根据环境的变化选择搜索引擎营销的合适方式。
登录搜索引擎
搜索引擎推广的第一步就是提交网站到搜索引擎。将网站等级到搜索引擎之后,搜索引擎就会自动抓取用户网站的信息。对于中文网站来说,使用量排名前四名的搜索引擎几乎占据了99%以上的搜索量,因此着重关注这几个搜索引擎即可。
提交搜索引擎的步骤是:1、制作sitemaps文件,并将其添加到robots.txt中;2、登录四大搜索站长平台;3、提交sitempas和URL到平台上。4、观察站长平台对于网站的收录和抓取情况。
Sitemaps协议使网站能够告知搜索引擎网站中可供抓取的网址,以便于搜索引擎更方便地抓取网站。而sitemap.xml是遵守该协议的包含了一个网站所有链接的xml格式文件。简单的来说,sitemap就是网站地图。
Sitemaps是一个和网站管理员相关的工具,有点象BLOG的RSS功能,是一个方便自己的服务,如果大家(互联网上所有的信息源)都采用了这种方式提交自己的更新的话,搜索引擎就再也不用派出那么多爬虫辛辛苦苦的到处乱窜了,任何一个站点,只要有更新,便会自动“通知”搜索引擎,方便搜索引擎进行索引。
首先用户在各个搜索引擎的站长平台创建帐号,验证自己的网站权限,然后登录站长平台,在提交Sitempas界面里提交自己网站的sitemap.xml文件。
sitemap.xml文件可以手工编写,也可以通过软件自动生成,sitemap.xml文件创建好了之后可以提交给各个搜索引擎。
最后,在站长平台的Sitemaps的提交页面填写你生成的Sitemaps地址,并提交即可。
过了几个小时后,再登录各个搜索引擎的站长平台,可以看到Sitemaps的索引情况。
此外,各个站长平台还提供了Spider对用户网站访问情况的说明报告,如:查询统计信息、抓取统计信息、网页分析、索引统计信息等信息。“查询统计信息”中,有列出几个进入你网站的热门搜索关键字。在“抓取统计信息”中,可以看到Spider抓取网站的概要统计和抓取错误的地址。实现了网站主和Spider的信息交互。
四大搜索站长平台地址:
百度站长平台:zhanzhang.baidu.com
360站长平台:zhanzhang.haosou.com
搜狗站长平台:zhanzhang.sogou.com
谷歌站长平台:google.com/webmasters
优化搜索结果中排名
网站内容被搜索引擎收录只是最基本的开始,搜索引擎营销的目的是让网站在搜索结果的第一页显示。提升搜索排名的方法主要有两种,一种是搜索引擎优化(SEO),这个在之前的章节已经详细介绍过,另一种方法是竞价排名。
竞价排名,顾名思义就是网站付费后让搜索引擎展示,排名的算法和用户出价、关键词质量度等一系列因素有关,通常来说,付费越高者排名越靠前;竞价排名服务是按点击计费的一种服务,用户可以通过调整每次点击付费价格,控制自己在特定关键字搜索结果中的排名;并可以通过设定不同的关键词捕捉到不同类型的的目标访问者。
而在国内最流行的点击付费搜索引擎有百度、360、搜狗和谷歌。值得一提的是即使是做了竞价排名,最好也应该对网站进行搜索引擎优化设计,并将网站登录到各大搜索引擎中。
搜索引擎竞价排名推广主要分为以下几个步骤:1、在各个搜索推广平台申请搜索引擎营销推广帐号;2、制作并优化网站着陆页;3、确定关键词,创建推广计划;4、安装统计代码,确认网站转化目标;5、投放广告;6、跟踪并评估广告投放效果。
关键词的选择是竞价排名推广的一个重要环节,选择的策略是:第一,选择产品或服务核心关键词。核心关键词包括产品的门类、种类、品牌、产品型号等。第二,添加形容词以扩展核心关键词,如添加属性、功能、比较、价格、销售、行动等来形容核心关键词,如机票的企业,添加价格“特价机票、打折机票”,添加行动为“买机票”。
在转化统计方面,百度统计和百度推广是集成的,谷歌分析和谷歌adwords是集成的,360和搜狗则暂时没有官方的转化统计系统,不过可以通过一些第三方的搜索统计平台进行转化统计,这些第三方平台通常只能每天和搜索引擎同步一次数据,因此无法看到实时的转化情况,只能看到昨天之前的转化效果。
付费广告投放一段时间之后,就可以通过数据报表来分析各个关键词的转化情况了。关键词的效果分析可以用关键词的总消费金额除以关键词的总转化量来衡量,如果该数字高于平均数,则表示这个关键词的转化效果不好,需要优化(如降低出价、增加否定关键词、修改匹配方式为精确匹配等等),如果该数字低于平均数,则表示这个关键词的转化效果好,需要进行拓展(增加同类关键词、提高出价、修改匹配方式为短语或广泛等等)。
总而言之,SEM追求最高的性价比,以最小的投入,获最大的来自搜索引擎的访问量,并产生商业价值。
四大竞价搜索平台地址:
百度推广平台:www2.baidu.com
360推广平台:e.360.cn
搜狗推广平台:p4p.sogou.com