2007年3月13日星期二

从三个方面提高网站的链接广泛度

网站的链接广泛度(Link Popularity)在搜索引擎排名中的作用已得到广泛的认同和重视。实际上,即使你没有在GOOGLE上提交你的站点,但与其它网站作了链接,GOOGLE也可能收录你的网站。搜索引擎还可能完全依据你的链接广泛度决定你的网站排名。

本文探讨如何从内部链接、引入链接和引出链接三个方面来增加网站的链接广泛度。

1. 内部链接

内部链接指同一站点内网页之间的相互链接。

对重要的页面要来回反复地交叉链接。这样做的目的,是让搜索引擎的spider知道这是你最重要的网页。

交叉链接网页还帮助spider更快地找到你的重要页面并将之编入索引,尤其当这些页面被深埋于网站内时,这一点非常重要。

2. 引入链接

引入链接是指让其它相关网站链接你的网站。引入链接有两种类型:

* 自己创建子站点来链接你的主站点

建立几个与你的网站主题相关的小型网站,将它们相互链接,再链接回你的主站点。

选择主站点的关键词,用同样的这些关键词作链接名,把其它小型站点链接到主站点。之所以这样做,是因为一些主要的搜索引擎如GOOGLE特别重视链接名。

* 寻找网站交换链接

你的链接对象包括:

i. 与你的竞争对手链接的网站

要找到这些网站,可以在搜索引擎中输入"link:",跟着输入竞争者的域名,如 "link:domain.com" 和 "link:www.omain.com." ,注意加引号。

ii. 搜索引擎分类检索中的相关网站

所有主要搜索引擎中的与你的行业相关的目录下的网站,都是理想的链接对象。

iii. 可提交、注册网站的相关站点

要寻找这些网站,可以先在搜索引擎中,如在GOOGLE中输入"add url" "your keywords" ("网站登录" "你的关键词"),注意加上引号。通过变换关键词反复搜索这些站点。

引入链接的基础是网站具有较高质量,否则,别的网站是不愿意链接你的。如果你的网站内容丰富,质量高,其它相关网站会主动将你的网站链接在他们的网站上。

3. 引出链接

引出链接是指你主动单方面链接的其它网站。

SPIDER要搜索网站的引出链接以判断你链接的那些站点内容是否与你的网站内容相关联。

搜索引擎喜欢那些与你的网站内容有关的链接。

此外,在做链接的过程中,还应该注意以下几个问题:

* 链接关键词

仔细为你的内部链接和引出链接选择关键词。关键词是判断网页关联度的最重要因素,整个网页都应该使用到这些关键词。在网页标题和链接中也要用到这些关键词来描述网页。

因此,建议你用与页面内容相关的关键词来命名网页。同时,该页的链接名(用于其它网页链接到该页)也用这个名字。比如,如果网页标题是Link Popularity,则该页的链接名也是 "link_popularity.html."

记得在每个链接名的单词之间加上连字符或下划线,确保搜索引擎将每个单词分别索引。不要把所有的单词拼在一起,象"linkpopularity.html."。

还要确保所有链接到那一页的链接标题都使用链接文本“Link Popularity”。这样,每一个环节都通过关键词统一起来了。

* 链接质量

研究显示,链接质量与链接数量同等重要。

在策划链接广泛度的过程中,重点是要赢得以下网站的链接:搜索引擎如GOOGLE,流行网站门户如MSN,目录检索如YAHOO和ODP(Open Directory Project),热门网站如EBAY和AMAZON,新闻网站如CNN,博客(BLOG)网站以及与你的网站主题相关的网站。

这是因为搜索引擎很信任那些能够链接到主要搜索引擎和网络门户的站点。

有两种引入链接被误认为可以增加链接广泛度:

* 点击付费的搜索引擎广告链接,如OVERTURE和GOOGLE的关键词广告,以及会员联盟(Affiliate program)链接。

这些链接不会直接指向你的网站,而是指向盟主的网站,因此不会提高你的链接广泛度。

但是,如果你本身主持该会员联盟,你的服务器上有会员联盟程序,跟踪会员网站并将它们指回你的网站,这种情况下还是有助于提高你的链接广泛度。

* 交换链接网站

切记,不要使用交换链接网站上的链接。很多顶级搜索引擎将这些链接视作垃圾链接。

2007年3月12日星期一

搜索引擎技术及趋势(中)

  召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低,精度高时,召回率低。所以常常用 11种召回率下11种精度的平均值(即11点平均精度)来衡量一个检索系统的精度。对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够搜集到所有的 WEB网页,所以召回率很难计算。目前的搜索引擎系统都非常关心精度。

  影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制

三、主要技术

 一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。

 1.搜索器

  搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有两种搜集信息的策略:

 ● 从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如Yahoo!)。

 ● 将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。

 搜索器搜集的信息类型多种多样,包括HTML、XML、Newsgroup文章、FTP文件、字处理文档、多媒体信息。

 搜索器的实现常常用分布式、并行计算技术,以提高信息发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。
2.索引器

 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。
 索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。
 在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。

搜索引擎技术及趋势(下)

  索引表一般使用某种形式的倒排表(Inversion List),即由索引项查找相应的文档。索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系(proximity)。

 索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时索引(Instant Indexing),否则不能够跟上信息量急剧增加的速度。索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量

 3.检索器

  检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。

 检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。

 4.用户接口

 用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。

 用户输入接口可以分为简单接口和复杂接口两种。

 简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制,如逻辑运算(与、或、非;、-)、相近关系(相邻、NEAR)、域名范围(如.edu、.com)、出现位置(如标题、内容)、信息时间、长度等等。目前一些公司和机构正在考虑制定查询选项的标准。

四、未来动向

 搜索引擎已成为一个新的研究、开发领域。因为它要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,所以具有综合性和挑战性。又由于搜索引擎有大量的用户,有很好的经济价值,所以引起了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活跃,并出现了很多值得注意的动向。

 1.十分注意提高信息查询结果的精度,提高检索的有效性

 用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少,而是看结果是否和自己的需求吻合。对于一个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。解决查询结果过多的现象目前出现了几种方法:一是通过各种方法获得用户没有在查询语句中表达出来的真正用途,包括使用智能代理跟踪用户检索行为,分析用户模型;使用相关度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关(及其相关的程度),哪些不相关,通过多次交互逐步求精。二是用正文分类(Text Categorization)技术将结果分类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。三是进行站点类聚或内容类聚,减少信息的总量。

 2.基于智能代理的信息过滤和个性化服务

 信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模型(如Web知识、信息处理、与用户兴趣相关的信息资源、领域组织结构)、用户模型(如用户背景、兴趣、行为、风格)知识进行信息搜集、索引、过滤(包括兴趣过滤和不良信息过滤),并自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,从而提供个性化的服务。智能代理可以在用户端进行,也可以在服务器端运行。

 3.采用分布式体系结构提高系统规模和性能

 搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有千秋。但当系统规模到达一定程度(如网页数达到亿级)时,必然要采用某种分布式方法,以提高系统性能。搜索引擎的各个组成部分,除了用户接口之外,都可以进行分布:搜索器可以在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度;索引器可以将索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上进行文档的并行检索,以提高检索的速度和性能。

 4.重视交叉语言检索的研究和开发

 交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。如果再加上机器翻译,返回结果可以用母语显示。该技术目前还处于初步研究阶段,主要的困难在于语言之间在表达方式和语义对应上的不确定性。但对于经济全球化、互联网跨越国界的今天,无疑具有很重要的意义。

五、学术研究

 目前搜索引擎领域的商业开发非常活跃,各大搜索引擎公司都在投巨资研制搜索引擎系统,同时也不断地涌现出新的具有鲜明特色的搜索引擎产品,搜索引擎已经成为信息领域的产业之一。在这种情况下,对搜索引擎技术相关领域的学术研究得到了大学和科研机构的重视。如Stanford大学在其数字图书馆项目中开发了Google搜索引擎,在Web信息的高效搜索、文档的相关度评价、大规模索引等方面作了深入的研究,取得了很好的成果。

 NEC美国研究所的Steve Lawrence和C. Lee Giles 1998年和1999年连续两年在《自然》和《科学》杂志上撰文对搜索引擎技术的研究进行评述。著名的信息检索会议TREC也从1998年开始增加了 Web Track课题,以考察Web文档与其它类型文档在检索性质上的不同之处,并将测试在大规模的Web库(如100G字节)上进行信息检索的算法性能。

 由美国Infornotics公司主办的搜索引擎国际会议从1996年开始,每年举行一次,对搜索引擎技术进行总结、讨论和展望,参加者有著名的搜索引擎公司、大学和研究机构的学者,对搜索引擎技术起到了很好的推动作用。另外象IEEE主办的国际万维网会议、人机交互会议已有越来越多关于搜索引擎技术研究的文章发表。

 国内先后有北京大学、清华大学、国家智能研究中心等高校和研究单位对搜索引擎技术开展研究,并开发出了几个较好的系统。如由北京大学计算机系网络研究室开发的“天网”中英文搜索引擎(http://pccms.pku.edu.cn:8000/gbindex.php),在系统规模及系统性能方面达到了国外中型搜索引擎系统的技术水平,为国内用户提供了很好的互联网搜索服务,受到了用户的好评

2007年3月11日星期日

搜索引擎技术及趋势(上)

  随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。

 搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术。据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全球目前的网页超过8亿,有效数据超过9T,并且仍以每4个月翻一番的速度增长。用户要在如此浩瀚的信息海洋里寻找信息,必然会“大海捞针”无功而返。

 搜索引擎正是为了解决这个“迷航”问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。本文旨在对搜索引擎的关键技术进行简单的介绍,以起到抛砖引玉的作用。

一、分类

 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:

 1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。

 2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:“天网”、悠游、OpenFind等。

 3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket等
二、性能指标

  我们可以将WEB信息的搜索看作一个信息检索问题,即在由WEB网页组成的文档库中检索出与用户查询相关的文档。所以我们可以用衡量传统信息检索系统的性能参数-召回率(Recall)和精度(Pricision)衡量一个搜索引擎的性能。

如何正确选择关键词

■ 选择相关的关键词
 对一家企业来说,挑选的关键词当然必须与自己的产品或服务有关。不要听信那些靠毫不相干的热门关键词吸引更多访问量的宣传,那样做不仅不道德,而且毫无意义。试想一个查找“翻译公司”的人,会对你的鲍鱼感兴趣吗?当然不。必须承认,有时这种作法的确能提高网站的访问量,但既然你目的是销售产品,不是提供免费的小道消息,那么靠这种作弊手段增加访问量又有何用呢?

■ 选择具体的关键词
 我们在挑选关键词时还有一点要注意,就是避免拿含义宽泛的一般性词语作为主打关键词,而是要根据你的业务或产品的种类,尽可能选取具体的词。比如一家销售木工机具的厂家,“Carpenter Tools”不是合适的关键词,“Chain Saws”则可能是明智的选择。

 有人会问,既然“Carpenter Tools”是集合名词,涵盖了厂家所有的产品,为什么不用?我们不妨拿Carpenter Tools到Google一试,你会发现搜索结果居然在6位数以上(实际数字为189,000),也就是说你的竞争者有近 200,000个!想在这么多竞争者当中脱颖而出几乎是“不可能完成的任务”。相反,“Chain Saws”项下的搜索结果则少得多(69,800个),你有更多的机会排在竞争者的前面。

■ 选用较长的关键词
 与查询信息时尽量使用单词原形态相反,在提交网站时我们最好使用单词的较长形态,如可以用“games”的时候,尽量不要选择“game”。因为在搜索引擎支持单词多形态或断词查询的情况下,选用“games”可以保证你的网页在以“games”和“game”搜索时,都能获得被检索的机会。

■ 别忘错拼的单词?
 不少关于如何选择关键词的文章都特别提到单词的错误拼写,如“contemorary modern coffee tables”,提醒我们别忘将之纳入关键词选择之列。其理论是,有些单词经常被用户拼错,考虑到一般人不会以错别字作为自己的目标关键词,因此如果聪明的你发现了这一诀窍,以错拼单词优化你的网页,那么一旦遇到用户再以这个错别字进行搜索,你就会高高在上,昂然屹立于搜索结果的前列!

 事实果真如此吗?首先我们还是来看看上述例子错在哪里吧。“contemorary”实为“contemporary”,虽为一个字母之差,但从关键词角度两者则相去甚远了。奇怪的是根据关键词监测统计报告,“contemorary”在两个月内出现次数达66次之多!那么我们赶快将它列入关键词清单吗?且慢。我们先分析一下有谁会经常写错别字吧。是受过良好教育的正规商家吗?可能性不大,毕竟“contemporary”不是艰涩的拉丁文借用词嘛。看来象是某些粗心大意的丈夫或勤俭持家的主妇嫌疑比较大。凭心而论,他们会是你珍贵的客源,但不大可能成为你理想的商业合作伙伴。

 反过来,如果一个潜在的客户偶然手误拼错了单词,却赫然发现你的网站出现在眼前,而且那个错别字被多次显著地以粗体字显示,他会做何反应?他会象发现金矿一样欣喜若狂?还是在心里对这家企业的素质产生一丝疑问?他会认为一个连基本文法都掌握不好的厂家,其实力实在值得怀疑。所以,错拼的关键词是个陷阱,采用时我们一定要三思。

 而且,目前一些搜索引擎(如Google)都增加了自动拼写检查功能,当用户输入错别字时,系统会自动提供正确的词语选择。当用户意识到自己出错时,大部分都倾向于按提示的正确关键词进行搜索。所以现阶段来看,以错拼单词优化网页已基本上失去了意义

2007年3月10日星期六

搜索引擎优化最常见的5个误区

我认为,把搜索引擎优化(SEO)中最常发生的一些问题归纳整理出来,提供给那些想在搜索结果中取得较高排名的人作为参考,是完全有必要的。我在下面列出了搜索引擎优化中最常见的5个误区以及相应的解决方案,这也是网站设计者最易犯的几个主要错误,正所谓“差之毫厘,谬以千里”。

误区之一:泛滥的关键字
问题分析:
  在对主页做优化时,恨不能涵盖所有可能的关键词。我们经常能看到主页标题由大量关键字堆砌而成的网站。这些网站的设计者显然是想在主页中把所有的关键词都优化进去。他们恐怕不知道,这样做反会适得其反。打个比方,假设一个网站其主页的标题标签中包含12个以上的关键词。让我们来看看其结果是怎样的——最常发生的就是这12个关键词中没有一个能够在搜索结果中获得比较高的排名。为什么呢?原因很简单,就是因为没有一个关键词能够满足较高排名所要求的关键词密度或重复次数。尤其对那些比较热门的关键词来说,要想在激烈的竞争中获得比较好的排名,往往对关键词密度(重复出现的频率)有更高的要求。那些只是简单地罗列大量关键词,以求改善排名的网站设计者只会使事情变的更糟。从搜索引擎优化的角度来看,关键词少而精反会达到事半功倍的效果。
解决方案:
  对主页的优化应限定于最多三个重要关键词。如果你的关键词太热门,为了提高竞争力你最多只能围绕一到两个关键词进行优化了。在主页、标题、META标签中应围绕最多三个最重要的关键词进行优化。象ABAKUS公司的网站主页(索引页),就是围绕Internet Marketing Web promotion和search engine optimization这三个关键词/短语进行的优化,收到了很好的效果。
概要:
  在主页中应围绕三个最重要的(而且是最恰当的)关键词进行优化,而且记住关键词最好不要超过3个。如果关键词属于非常热门的领域,那你最多只能围绕一到两个关键词进行优化。不过如果你的生意确实属于那种“瞄准机会的市场范畴”那么你也可以选择不超过4到5个关键词进行优化。要确保你的网页标题的长度最多不超过7个词(30到40个字母之间)。在网页正文中应保证至少对关键词重复三次以上。别忘了每个页面对搜索引擎来说都是一个潜在的“桥页”。所以对于其它的关键词你完全可以在别的页面中分别做相应的优化,千万不要都挤到主页中去优化,因为那样不会达到预期的效果。

误区之二:头(header)域中内容的简单复制
问题分析:
  这是网站设计中由于人的自然惰性而最容易出现的问题。最常见的就是当一个网站设计者在Dreamweaver或whatever中用“另存”来创建一个新内容的网页时,往往容易忽略对新页面中一同复制过来的旧头域  我想这样的网站大家都有见过,而且还不少。这些网站中每一页的标题和Meta签(meta tag)都是完全相同的,只有肉眼可以看见的内容不同而已。而且,如果你稍微留意一下就会发现很多这样的网站。其每一页的网页标题都是诸如“我的网站. com”一类的毫无意义的内容。真是对标题的浪费,实在是可惜。搜索引擎业界的龙头老大Google一向特别关注标题标签中出现的关键字。而且事实上,对一个网站来说,不可能其每页内容和主题都相同。所以完全可以根据不同关键词分别进行优化,以提高在知名搜索引擎中的搜索结果排名。
解决方案:
  在设计一个网站时,最好遵循一种设计风格。我一般都是先用模板做好网页内容,但在最后一定要确定每个网页的内容和后台代码都做了相应的优化。所以在我的整个网站上,你都不会找到标题标签相同的页面,而且每一页的描述标签也都是不同的。切记这一点:一个网站的每个页面都是一个进站页(Entry Page:也叫桥页),所以对每个页面都应该力求做最好的优化。
概要:
  在网站的内部页面中,避免出现重复标题标签和描述标签的页面,要重视每一页并进行全面的优化。同时不要忽略对头域中标签的优化工作。

误区之三:不必要的帧结构(FRAMESETS)
问题分析:
  框架(帧)结构的网站设计在整体性及网站维护上比较有优势,然而这种设计对网站设计者来说未必就是必须的。而且由于很少能有网站设计者晓得如何对框架结构的网页做正确的优化,导致了这种网站的排名一般都相当的低。要想验证我的这个观点,你只要在Google中用”browser does not support frames”这句话进行搜索,看一下搜索结果就知道了。我们可以发现有六十多万个搜索结果。坦白的说,这六十多万个使用Frame的网站都需要做正确的搜索引擎优化。它们目前的优化实在是糟糕。这样的网站无论在任何搜索引擎上很少有排名进入前十名的。不过,倘若在Noframe标签中只放这么一句话: “您的浏览器不支持框架/browser does not support frames”,如果是想要别人无法在搜索引擎上找到你,这倒不失为一个好办法。
解决方案:
  你可以把Noframe标签看做是一个普通文本内容的主页。其优化与普通网页类似,但有一点非常重要,在你的区域中须包含指向你的FRAME网页的链接。
  另外,如果定位在框架结构中的一个内部页面却被用户调用到一个单独的窗口打开,那么框架结构就失去了它优势的导航作用。这显然悖离了框架设计的本来意图。为了让用户只能通过整个Frame来浏览你的页面,我们可以考虑用JAVASCRIPT程序(脚本)来保护和控制Frame。只要用下面的语句代替 HTML中原有的即可,同时将frameset.html指向你的FRAMESET文件。绝大多数浏览器都能够支持。

<body onload="if (parent.frames.length==0)     top.location=http://www.yoursite.com/frameset.html;">

此外,运用CSS层定位,Iframe(内联框架:Inline frame),或其它方法一样可以达到框架结构的效果。不过除非你必须要使用帧结构,一般我们还是不提倡这种结构设计的。更多框架结构的优化方法请参看“框架型网页的优化技巧”。
概要:
  如果你非用框架结构不可,须确保正确的优化。正确使用NOFRAME标签并在区域中包含指向FRAME网页的链接。使用JAVASCRIPT程序(脚本)来控制和保护你的帧页。
误区之四:纯图象(SPLASH PAGE)及FLASH风格的网站设计
问题分析:
  我经常能看到这样一些网站,它们确实也包含了大量对我们这些真实的访问者而言可见的文本内容。但由于这些文字被做成了图形而非真正的文字,所以虽然页面做的极为养眼,但对搜索引擎而言,它们是无法读取图象的。所以这样的网站反而得不到好的页面等级和期望的访问量。这样的问题主要发生在一些成人站点以及那些面向青少年市场的网站。这些网站认为,大量的图形能够让网站更加具有吸引力,从而有效刺激访问者的购买欲望。(如网上便利店、游戏平台网站、游戏软件站点等。)
  当然了,最糟糕的还应当首推那些纯FLASH或大量使用FLASH的网站。譬如有一个主页是用FLASH做的网站,其后台代码为:

<html>  
<head>  
<title>My flash home page</title>  
</head>  
<body bgcolor="#000033">  
<object classid="clsid27CDB6E-AB6D-11cf-96B8-444553540000" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab..." width="100%" height="100%">
<param name="movie" value="flash.swf">   
<param name="quality" value="high">  
<param name="SCALE" value="exactfit">  
<embed src="flash.swf" quality="high" pluginspage="http://www.macromedia.com/shockwave/download/index.cgi? P1_Prod_Version=ShockwaveFlash" type="application/x-shockwave-flash" width="100%" height="100%" scale="exactfit"></embed>   
  
</object>   
</body>  
</html>
  从上面大家可以发现,对搜索引擎来说,其搜索程序无论是在该FLASH网页中还是后台的HTML代码中,都得不到它们想要的纯文本内容,自然对这个网页不感兴趣了,又怎么能够期望得到好的页面等级呢?绝大部分搜索引擎都不支持FLASH中的内嵌链接。据我所知,到目前为止只有Google(现在 Fast/AllTheWeb估计也能支持)能够解读FLASH图象中的内嵌链接。
解决方案:
  对使用了SPLASH的网站来说,应尽可能多使用一些普通文本。其实现在只需要一点CSS字体格式方面的知识,同样可以使文本和文本链接的网页看起来非常棒。你压根没必要为了增加文字效果而把它们都做成图形,或者至少不要让你的网页全都是图形文字。你要保证搜索引擎能够在你的网站上能够解读一些东西才行。这一点对FLASH网页也适用,并不是什么内容都非得做成FLASH,你完全可以在一个FLASH对象周围使用一些普通的文本内容,这样做只会有利而无害。
概要:
  对于那些没有提供或只提供了一丁点普通文本内容的网页,除非你能提供大量外部链接,否则就别指望能获得比较高的排名。图形和普通文字并用才是最佳设计手段。没有文本内容就等于没有排名,其实就这么简单。
误区之五:未经考察的关键字选取
问题分析:
  遗憾的是,实际上只有很少的网站设计者能够不厌其烦于使用任何一种关键词分析工具软件。关键词分析工具软件并不多,而且其中的大多数(有大约4到5个) 都是免费向用户提供的,如Overture搜索引擎免费提供的关键词分析工具。但有很多网站设计者都认为没必要使用这种分析工具,因为他们认为自己很清楚网站的内容。所以无需再去借助那些关键词分析软件来寻求最佳关键词。这种想法其实大错特错!另一个极其错误的想法就是把搜索词(关键词)定义的要么太狭隘或者太冷僻,几乎没有人会想到用这个词来搜索。要么就反其道而行之,将搜索词定义的太宽泛太具竞争力。试想,对于一个新网站,仅有有限的外部链接数,怎么能够期望它能够从几百万个搜索结果中脱颖而出?这两个都是最常见的错误,它们都会影响你对页面和页面外元素的优化结果。譬如对于你网页上的外部链接,倘若你使用的是包含错误关键词的链接文字,那你所有的辛苦工作都只是在做无用功。对于搜索频率非常低的关键词的优化也只能得到寥寥无几的访问量。而如果选择的是一些极具竞争力的关键词,要想在其上百万的搜索结果页中占有一席之地,没有丰富的优化经验和较高的页面等级,那你也只能望搜索结果之“洋”而兴叹了。
解决方案:
  注意不要使用单字做关键词,两到三个字长度的短语(我们称其为“关键短语”)为最佳。选取恰当关键短语的平衡点在于要确保所选关键词兼具良好竞争力和合理的搜索结果数量:既要保证该关键词有相当数量的搜索频率,又要保证它不会产生上百万搜索结果页。
概要:
  花些时间对你的关键词进行深入的分析,你可以借助网上所提供的许多免费工具来进行关键词分析,以期待成功选取适合的关键词,要避免任何轻率和想当然的态度。

2007年3月9日星期五

Google排名不是简单的网页优化

很多朋友一谈到GOOGLE排名,总以为它是单一的网页标签优化处理,其实,这种观点是错误的。 GOOGLE排名服务,要做的有以下几步工作.............

第一步:网站诊断,包括: 网站结构诊断:看其是否适合搜索引擎习惯; 网站页面诊断:看其是否布局合理,处理得当; 网站文件名诊断:看其是否用了不合理的文件名; 网站营销基础诊断:看其目前所用的网络推广方面是否合理。

第二步:网站基础流量分析: 流量统计系统安装 流量来路分析, 地区分布分析。

第三步:网站优化处理: 网站结构优化:让网站结构合理化,以适合搜索引擎习惯 网站页面优化:关键词布局,图文处理等。网站连接优化:让网站整体的连接系统化,一方面有助于搜索引擎搜索,一方面结合用户习惯,引导用户来看网站的内容,以促成最后的生意成交。网站标签优化:网站标签设计,优化。

第四步:GOOGLE排名其他策略: 制造流量:GOOGLE排名关键还是流量啊,这个过程中我们会用到许多网络营销方法。制造外部连接:通过友情连接,文章宣传,帖子宣传等等各种方式提高网站外部里连接。 其他… … 网站要想再GOOGLE排名做的好,首先要自身做的好,推广好,才能取得较好的排名。所以对网站进行GOOGLE排名要站在综合营销的角度来考虑,然后去做。这样才能达到效果。 如果想靠单一的标签优化,以及作弊手段达到GOOGLE左侧排名考前的效果,那是十分幼稚可笑的。毕竟,GOOGLE排名还是为了推广网站。那么,网站的综合推广做好了,可以在google取的较好的排名就是情理之中的事了。

2007年3月7日星期三

提高Google排名的三大关键

如今,Google已成长成为具有垄断优势的全球性搜索引擎,算上它为Yahoo和AOL提供的搜索服务,Google目前的全球市场占有率已超过 80%。简单的结论是,如果你的网站在Google上不能获得良好的排名,那么你的网络营销策略就算是失败。

要想针对Google来优化你的网页和进行相应的推广工作,首先得了解Google是以什么规则来评估一个网站对于某个特定关键词的排名值的。当然,除了Google的工程师,没有谁真正知道这个秘密,但是有关研究表明,影响Google排名的因素主要有如下三个方面:

1. Link Popularity

国内有人译作“链接广泛度”,是Google用来评判一个网站的价值的主要手段。我们都知道Google 工具条上有一个绿色的PageRank标尺,就是用来指示网站的链接广泛度的。 PageRank值从0到10。这里的链接包括网站内部链接、连出链接和连入链接,其中最重要的是连入链接。Google通过统计这些链接的质量和数量来给网站确定PageRank值,值越高排名也就越高。因此网站建好后你需要投入大量的时间和精力来获得大量的外部链接,特别是来自PageRank值比较高的网站的链接。

一般说来,如果一个网站的PageRank值是4到6的话,说明这个网站已经获得了不错的访问量;如果到了7以上,说明不管是从网站的质量到知名度都非常优秀了。

2. Page Title

搜索引擎是通过关键词来选择网站的,而网站的标题是搜索引擎寻找关键词的主要目的地-你通过分析Google的搜索结果就可以很清楚地发现这一点。因此,你一定要首先确定你的网站的主关键词(一般可以选定1到5个),然后在将关键词体现到网页的Title中去。记住,Title标签不要超过40个字符。

除了显示在浏览器顶端的Title标签,网页主体里面的文字标题往往也起到很大作用,一个含有主关键词的

格式的标题也能对网页的排名起到很大的作用。这个标题除了

标签外最好是没有任何的定义。不过,现实是大多数人为了页面的美观都不愿意这样做。

3. Keyword Density

关键词除了需要出现在标题里面,还需要在整个网页里面以一定的频率出现。你需要在标题、段落内容、(文字内容的)页头和页尾、Alt标签甚至不显示的

2007年3月6日星期二

搜索引擎优化服务商

SEO 是“搜索引擎优化服务商”的缩写。许多 SEO 为网站所有者提供了诸多有用的服务,包括撰写稿件、为网站结构出谋划策以及帮助查找网站可以提交到的相关目录等。但是,也有少数不道德的 SEO 采用极为过分的市场营销手段,并试图暗箱操纵搜索引擎结果,从而损害了这个行业的声誉。

Google 与任何 SEO 都没有关联,也不会为您提供这方面的建议,但我们提供了一些提示,帮助您区分哪些 SEO 可以能改善您的网站,哪些却只能徒使搜索引擎将您从搜索结果中删除。
对突然向您发送电子邮件的 SEO 公司要提高警惕。
令人吃惊的是,我们也收到过这类垃圾邮件:

“尊敬的 Google, 我访问了您的网站,发现大多数主要的搜索引擎和目录都没有将您列入其中...”
不要轻易相信那些涉及搜索引擎的垃圾邮件,它们就像“让脂肪在睡眠中燃烧”的减肥药丸一样可疑。
没有人能担保您在 Google 上排名第一。

如果 SEO 宣称可以确保您名列前茅,或声称与 Google 有特殊关系,可以优先向 Google 提交您的网站,千万不要相信。Google 从来都没有优先提交一说。事实上,向 Google 直接提交网站的唯一方式,便是通过我们的“添加网址”页。您自己便可以办到,而且不需要支付任何费用。

如果一个公司遮遮掩掩,或不明确说明自己的意图,请多加小心。

如果有任何不明白之处,都应当要求对方解释。 如果 SEO 为您制作了一些欺骗性或误导性内容,如桥页或“一次性”域,则您的网站可能会彻底从 Google 索引中删除。归根结底,您要对所雇佣公司的行为负责,因此,您最好弄清楚他们打算采用何种方法来“帮助”您。

不要链接到 SEO。 请远离那些高谈“免费链接站点”的好处,宣传链接流行度方案,或将您的网站提交给成千上万个搜索引擎的 SEO。因为这些做法是徒劳无益的,并不会影响您在各大搜索引擎结果中的排名。至少不会产生您期望的正面影响。

一些 SEO 可能会尝试向您出售直接在浏览器地址栏中输入关键字的功能。

这些方案大都要求用户安装额外的软件,而很少有用户这样做。在评估此类方案时,务必极其小心,不要轻信对方提供的下载所需应用程序的用户人数。

做出明智的选择。

在考虑是否与 SEO 合作时,您应当对该行业做一些调查。Google 自然可以提供此方面的信息。您可能还需要查找报刊上所登载的一些提醒性质的报道,譬如以下这篇有关某个做法激进的 SEO 的文章:http://www.salon.com/tech/feature/2002/07/01/spyware_inc/index.html (英文)。尽管 Google 不会对具体的公司加以评论,但我们确实遇到了一些自称是 SEO 而其行为却违背了合理的商业行为准则的公司。请务必小心。

了解资金去向。 虽然 Google 从未将搜索结果中的较好排名进行出售,但其他一些搜索引擎已在其常规的网络搜索结果中实施了按点击次数或列入结果的次数进行收费。一些 SEO 会承诺使您在搜索引擎中居于靠前的位置,但是却将您放在搜索引擎的广告部分而非搜索结果中。还有少数 SEO 甚至会实时更改他们的报价,制造出他们可以“控制”其他搜索引擎并能够手眼通天、为所欲为的假象。这些伎俩在 Google 是行不通的,因为我们的广告服务已明确标示,并与搜索结果相互独立,但是对于任何 SEO,您都要问清楚哪些费用用于将您永久性地列入搜索结果,哪些费用用于短时间的广告刊登。

与多个 SEO 洽谈,询问其他 SEO 对您正在考察的公司的看法。

他人的推荐是一个良好的开端,但是推荐人的介绍往往并不全面。您应当了解公司的成立时间,雇佣的全职员工数量等信息。如果您感到有压力或怀疑,应顺从您内心的感觉,不要贸然行事,在找到可以信赖的公司之前不要做出任何决定。询问您的 SEO公司是否使用位于以下网址的垃圾邮件投诉表,向 Google 报告所发现的每封垃圾邮件:http://www.google.com/contact/spamreport.html (英文)。 有道德的 SEO 公司会报告违反 Google 垃圾邮件指南的所有欺骗性网站。

确保您受法律保护。

为了您自身的安全,您应当坚持要求无条件全额退款保证。无论什么原因,只要有所不满,或如果 SEO 的行为导致您的域名从搜索引擎索引中删除,不要惧怕要求退款。务必签订包括定价在内的书面合同。合同中还应要求 SEO 遵循每个搜索引擎针对要列入的网站所做出的规定。

--------------------------------------------------------------------------------
网站所有者可能会遇到哪些最常见的欺诈行为?
--------------------------------------------------------------------------------


一个常见的欺骗手段是创建“影子域名”,使用欺骗性的重定向功能,将用户链接到某个网站。这些影子域名通常为那些声称为客户工作的 SEO 所有。但是,如果双方关系恶化,SEO 可能会将该域指向另外一个网站,甚至指向竞争对手的域。此时,客户等于付费开发了一个完全由 SEO 所有的竞争网站。

另外一个不轨的做法是在客户网站的某个位置放置充斥着关键字的“桥页”。SEO 承诺这种方法会增强网页的相关性,从而可以匹配更多的查询。这种观点根本就是错误的,因为单个网页几乎不可能与大量的关键字都相关。但更大的隐患是这些桥页还常常包含指向 SEO 其他客户的隐藏链接。这些桥页会将网站的链接流行度分流到 SEO 及它的其他客户那里,其中可能包含一些提供令人生厌或非法内容的网站。

--------------------------------------------------------------------------------
还需要注意哪些事项?
--------------------------------------------------------------------------------


您可以通过某些迹象来判断是否正在与不道德的 SEO 打交道。下面所列出的只是其中很少的一部分,因此,只要有任何疑虑,您都应当相信您的直觉。 如果 SEO 具有以下行为,一定要想尽办法果断摆脱它:
拥有影子域名
在桥页上放置指向其他客户的链接
出售在地址栏中输入关键字的功能
对实际搜索结果和搜索结果中的广告不加区分
保证排名,但只依靠随意可得的晦涩冗长的关键字词组
使用多个别名或伪造的 WHOIS 信息
从“虚假的”搜索引擎、间谍软件 (spyware) 或变脸软件 (scumware) 获取点击量
自身的域名或者所拥有的域已从 Google 索引中删除,或者在 Google 的索引中没有被列出

搜索引擎发展史

90年初当时万维网(World Wide Web)还未出现,为了查询散布在各个分散的主机中的文件,曾有过Archie, Gopher等搜索工具,随着互联网的迅速发展,基于HTTP访问的web技术的迅速普及,他们就不再能适应用户的需要。在1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)上线,它还支持Gopher和Telnet搜索。同年4月,Yahoo目录诞生,随着访问量和收录链接数的增长,开始支持简单的数据库查询。这就是我们说的早期的,目录导航系统,他们的缺点网站收录/更新都是要考人工维护,所以在信息量剧增的条件下,就不是非常受用了。

1994年7月,Lycos推出了基于robot的数据发现技术,并支持搜索结果相关性排序,并且他第一个开始在搜索结果中使用了网页自动摘要。Infoseek也是同时期的一个重要代表,他们是搜索引擎史上一个重要的进步。

1995 年,一种新的搜索引擎工具出现了——元搜索引擎,第一个元搜索引擎是华盛顿大学的学生开发的Metacrawler。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。

1995 年12月才登场亮相的AltaVista推出了大量的创新功能使它迅速到达当时搜索引擎的顶峰,它第一个支持自然语言搜索的搜索引擎,具备了基于网页内容分析,智能处理的能力,第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等), 同时AltaVista还支持搜索新闻群组(Newsgroups),搜索图片等具有划时代意义的功能。同时期还有inktomi,HotBot等搜索引擎。

1997年8月Northernlight 公司正式推出搜索引擎,它第一个支持对搜索结果进行简单的自动分类,也是当时拥有最大数据库的搜索引擎之一。

1998年10月,Google诞生。它是目前最流行的搜索引擎之一,具备很多独特而且优秀的功能,并且在界面等实现了革命性创新。

1999 年5月,Fast(Alltheweb)公司发布了自己的搜索引擎AllTheWeb,它的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。它曾经是最流行的搜索引擎之一,后在2003年2 月被Overture收购。

在中文搜索引擎领域,1996年8月成立的搜狐公司是最早参与作网络信息分类导航的网站,曾一度有“出门找地图,上网找搜狐的”美誉。由于其人工分类提交的局限性,随着网络信息的暴增,逐渐被基于robot自动抓取智能分类的新一代信息技术取代。

台湾中正大学吴升教授所领导的GAIS实验室1998年1月创立了Openfind中文搜索引擎,是最早开发的中文智能搜索引擎,采用GAIS实验室推出多元排序(PolyRankTM)核心技术,截止2002年6月,宣布累计抓取网页35亿,开始进入英文搜索领域。

北大天网是教育网最流行的搜索引擎,它由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务, 2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的ftp搜索功能。

百度中文搜索由超链分析专利发明人、前Infoseek资深工程师李彦宏和好友徐勇2000年1月创建,目前支持网页信息检索,图片,Flash,音乐等多媒体信息的检索。并且百度在中文领域第一个开始使用ppc经营模式。

2002年开始进入搜索引擎市场的中搜是由慧聪国际主持开发的,是搜索领域的后起之秀。目前处于起步阶段,技术没有特别见长的优势

2007年3月5日星期一

Robots.txt指南

搜索引擎访问一个网站时,它首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。Robots.txt文件用于限定搜索引擎对其网站的访问范围,即告诉搜索引擎网站中哪些文件是允许它进行检索(下载)的。这就是大家在网络上常看到的“拒绝Robots访问标准”(Robots Exclusion Standard)。下面我们简称RES。
Robots.txt文件的格式:
  Robots.txt文件的格式比较特殊,它由记录组成。这些记录通过空行分开。其中每条记录均由两个域组成:
  1) 一个User-Agent(用户代理)字符串行;
  2) 若干Disallow字符串行。
  记录格式为: ":"
  下面我们分别对这两个域做进一步说明。
User-agent(用户代理):
  User-agent行(用户代理行) 用于指定搜索引擎robot的名字,以Google的检索程序Googlebot为例,有:User-agent: Googlebot
  一个robots.txt中至少要有一条User-agent记录。如果有多条User-agent记录,则说明有多个robot会受到RES标准的限制。当然了,如果要指定所有的robot,只需用一个通配符"*"就搞定了,即:User-agent: *
Disallow(拒绝访问声明):
  在Robots.txt文件中,每条记录的第二个域是Disallow:指令行。这些Disallow行声明了该网站中不希望被访问的文件和(或)目录。例如"Disallow: email.htm"对文件的访问进行了声明,禁止Spiders下载网站上的email.htm文件。而"Disallow: /cgi-bin/"则对cgi-bin目录的访问进行了声明,拒绝Spiders进入该目录及其子目录。Disallow声明行还具有通配符功能。例如上例中"Disallow: /cgi-bin/"声明了拒绝搜索引擎对cgi-bin目录及其子目录的访问,而"Disallow:/bob"则拒绝搜索引擎对/bob.html和 /bob/indes.html的访问(即无论是名为bob的文件还是名为bob的目录下的文件都不允许搜索引擎访问)。Disallow记录如果留空,则说明该网站的所有部分都向搜索引擎开放。
空格 & 注释
  在robots.txt文件中,凡以"#"开头的行,均被视为注解内容,这和UNIX中的惯例是一样的。但大家需要注意两个问题:
  1) RES标准允许将注解内容放在指示行的末尾,但这种格式并不是所有的Spiders都能够支持。譬如,并不是所有的Spiders都能够正确理解 "Disallow: bob #comment"这样一条指令。有的Spiders就会误解为Disallow的是"bob#comment"。最好的办法是使注解自成一行。
  2) RES标准允许在一个指令行的开头存在空格,象"Disallow: bob #comment",但我们也并不建议大家这么做。
Robots.txt文件的创建:
  需要注意的是,应当在UNIX命令行终端模式下创建Robots.txt纯文本文件。好的文本编辑器一般都能够提供UNIX模式功能,或者你的FTP客户端软件也“应该”能够替你转换过来。如果你试图用一个没有提供文本编辑模式的HTML编辑器来生成你的robots.txt纯文本文件,那你可就是瞎子打蚊子——白费力气了。
对RES标准的扩展:
  尽管已经提出了一些扩展标准,如Allow行或Robot版本控制(例如应该忽略大小写和版本号),但尚未得到RES工作组的正式批准认可。
附录I. Robots.txt用法举例:
  使用通配符"*",可设置对所有robot的访问权限。
  User-agent: *
  Disallow:
  表明:允许所有搜索引擎访问网站下的所有内容。
  User-agent: *
  Disallow: /
  表明:禁止所有搜索引擎对网站下所有网页的访问。
  User-agent: *
  Disallow: /cgi-bin/Disallow: /images/
  表明:禁止所有搜索引擎进入网站的cgi-bin和images目录及其下所有子目录。需要注意的是对每一个目录必须分开声明。
  User-agent: Roverdog
  Disallow: /
  表明:禁止Roverdog访问网站上的任何文件。
  User-agent: Googlebot
Disallow: cheese.htm
  表明:禁止Google的Googlebot访问其网站下的cheese.htm文件。
  上面介绍了一些简单的设置,对于比较复杂的设置,可参看一些大型站点如CNN或Looksmart的robots.txt文件(www.cnn.com/robots.txt, www.looksmart.com/robots.txt)
附录II. 相关robots.txt文章参考:
  1. Robots.txt常见问题解析
  2. Robots Meta Tag的使用
  3. Robots.txt检测程序
Robots.txt常见问题解析:
  我们开发了一个针对robots.txt文件的“验检程序”,同时又设计了一个搜索程序,专门下载robots.txt文件,以此对新推出的这个 “robots.txt验检程序”进行测试。在对DMOZ(ODP)中所链接的站点进行遍历,共计检索240万个站点后,我们总共找到了大概75k的 robots.txt文件。
  在这些robots.txt文件中,我们发现了大量的而且是形形色色的问题。有超过5%的robots.txt文件使用了错误格式,有超过2%的文件由于使用的是极其拙劣的格式而导致无法为任何SPIDER读取。我们将发现的一些问题在下面列出来供大家参考借鉴:
错误1—语法混用
  例如:
  User-agent: *
  Disallow: scooter
  正确语法应为:
  User-agent: scooter
  Disallow: *
错误2—一行Disallow声明多个目录
  这是一个比较常见的错误。我们发现很多网站在其robots.txt中,在一个Disallow指令行中放入了多个目录。譬如:Disallow: /css/ /cgi-bin/images/
绝大多数的spiders对上述声明行都无法做出正确的解析,有些Spiders会忽略其空格而解析为/css//cgi-bin//images/,或只解析/images/或/css/,或者根本不予解析。
正确的语法应为:
  Disallow: /css/
  Disallow: /cgi-bin/
  Disallow: /images/
错误3—在DOS模式下编辑robots.txt文件
  这也是一个比较常见的错误。正确的做法应该是在UNIX模式下编辑你的robots.txt文件并以ASCII码格式上传。显然并非所有的FTP客户端软件都能够天衣无缝地将文件格式转换为UNIX命令行终端,所以在编辑robots.txt文件时,一定要确保你的文本编辑器是在UNIX模式下。
错误4—在指示行末尾加注
  在robots.txt文件中,凡以"#"开头的行,均被视为注解内容,这和UNIX中的惯例是一样的。例如:Disallow: /cgi-bin/ # this bans robots from our cgi-bin
  虽然根据RES标准,在指示行的末尾加注是可行的,但这种格式在过去却并非所有的Spiders都能够支持,有些Spiders干脆就把整个句子视为注解内容直接跳过去不读。当然我们知道现如今搜索引擎基本上都能够支持这种格式,不过—仍有可能无法被某些搜索引擎正确解读,你冒得起这个险吗?我们建议在编辑robots.txt文件时,最好让注解自成一行。
错误5—指令行前有空格
  例如"Disallow: /cgi-bin/",虽然RES标准并未对这种格式予以特别说明,但我们对这种格式是持极力反对态度的。同样的问题摆在你面前你冒得起无法被Spiders正确解读的险吗?
错误6--404重定向至另一页面
  一般没有robots.txt的网站会将对robots.txt文件的调用请求转至另一页面。这种重定向通常不会产生服务器状态错误或重定向状态信息。然而因为是Spiders自己决定它看到的是robots.txt文件还是一个.html文件。虽然理论上应该不会有什么问题,不过为了保险起见,不妨在你服务器的顶级目录下放一个空的robots.txt文件。在www.google.com/bot.html下,也提供了相同的建议—“如欲避免网络服务器日志中的出错信息‘找不到文件’,可在其根域下创建一个空的robots.txt文件。”
错误7—声明自相矛盾
  例如:
  USER-AGENT: EXCITE
  DISALLOW:
  虽然RES标准忽略大小写(Case Sensitive),但目录和文件名却是大小写敏感的。所以对于"USER-AGENT"和"DISALLOW"指令,用大小写都是可以的。但对于所声明的目录或文件名却一定要注意大小写的问题。
错误8—列出所有文件
  这也是一种常见错误,不厌其烦地将目录下文件全数列出。例如:
  Disallow: /AL/Alabama.html
  Disallow: /AL/AR.html
  Disallow: /Az/AZ.html
  Disallow: /Az/bali.html
  Disallow: /Az/bed-breakfast.html
  其实,上面这么多声明行只需用目录选项来替代:
  Disallow: /AL
  Disallow: /Az
  需要注意的是:反斜杠"/"表示禁止搜索引擎进入该目录。如果只有几十个文件需要设置访问权限,那倒也无可厚非。问题是我们发现有一个robots.txt文件中列出了有400k,多达4,000个文件。我们只是纳闷看到这么多声明,有多少Spiders会掉头而去。
错误9—自创ALLOW指令
  没有ALLOW指令,只有DISALLOW指令!我们发现有这样的用法:
  User-agent: Spot
  Disallow: /john/
  allow: /jane/
  正确写法应为:
  User-agent: Spot
  Disallow: /john/
  Disallow:
错误10—对声明的目录无反斜杠标识
  例如我们发现有这样的例子:
  User-agent: Spot
  Disallow: john
  对这样的记录Spider该怎么反应?按照RES标准,Spider会将名为"john"的文件和名为"john"的目录都DISALLOW。所以要记得使用"/"来标识所声明的路径(目录)。
  我们还发现,有些网站的优化工作做得真彻底,竟然在其robots.txt中也放了关键词(费解,不明白他们怎么想的)。这些人一定是把他们的 robots.txt纯文本文件当作是html文件了。(要记住:在FrontPage下是不可能正确创建robots.txt文件的)
错误11—网络服务器端的错误配置
  为什么对robots.txt文件的调用请求会产生一个二进制文件?只有网络服务器或FTP客户端软件错误设置的情况下才可能发生这种错误。建议大家定期检查自己的robots.txt文件(http://www.mydomain.com/robots.txt)。
服务器/域名“鲍鱼
  搜索引擎检测服务器或域名“鲍鱼”(即包含巨量站点)的一个简单途径是看它们的robots.txt。我们发现规模在400到500个域名的大型域名 “鲍鱼”,其“库”内站点使用都是同一个robots.txt文件。这也就相当于告诉搜索引擎这些使用同一robots.txt文件的站点是相关联的。
Google率先支持通配符:
  Google是第一家能够支持robots.txt中通配符文件扩展名的搜索引擎。例如:
  User-agent: googlebot
  Disallow: *.cgi
  不过注意了,由于目前只有Google能够支持这种格式,所以”USER-AGENT”只能是“Googlebot”。

登录搜索引擎失败的常见原因

1、使用框架:
  框架内的内容通常不在搜索引擎抓取的范围之内。

  2、图片太多,文本太少

  3、提交页面指向另一网站
  搜索引擎可能完全跳过这个页面

  4、提交太过频繁

  5、网站关键词密度太大
  不幸的是搜索引擎并没解释多高的密度是极限

  6、文本颜色跟背景色彩一样
  搜索引擎误以为你在堆砌关键词欺骗它

  7、动态网页
  网站的内容管理系统方便了网页更新,却给大部分搜索引擎带来麻烦

  8、网站转移服务器
  搜索引擎通常只认IP地址,转换主机或域名时,IP/DNS地址发生改变,意味着你要重新提交网站

  9、网页没有独立IP地址
  有的主机商为了省钱,将同一IP分配给多用户使用,只要搜索引擎阻挡了其中一个网站,该IP属下的所有网站都受到牵连

  10、免费的网站空间
  有的搜索引擎拒绝索引来自免费空间的网站,抱怨很多垃圾,质量差

  11、搜索引擎抓取时网站不在线
  如果主机不稳定,就有可能出现这种情况。更糟糕的是,即使网站已经收录,重新抓取时发现不在线,还会将网站整个删除。

  12、错误地阻挡了robots索引网站
  有两种方法可能阻挡robots:主机服务器的根目录下有简单文本文件;网页中含某种META标签。

  13、大量运用Flash, DHTML, cookies, javascript, Java制作或密码进入的网页

  14、搜索引擎不能解析你的DNS
  新域名注册后需要2-4天的时间才能生效,因此不要一注册了域名马上提交网站

  15、网站的链接广泛度太低

  16、网站URL包含特殊字符
  如:&、$、=、%、?等,在动态网页中通常含有这些字符。

  17、服务器速度太慢
  网页下载速度太慢,或者网页太复杂,都可能导致搜索引擎还没搜到文本内容就暂停

  18、关键字问题
  如果正文没有出现你的META标签中提到的关键字,搜索引擎可能误以为是垃圾

  19、等待吧
  据NEC机构调查,很多搜索引擎索引一个网站的时间长达半年之久

登录搜索引擎目录失败的常见原因:
  1、没有登陆在正确的分类目录下

  2、网站缺乏实在的相关内容

  3、网站看起来不专业、太业余

  4、网站需要特别的插件或密码才能进入

  5、流量太低不受欢迎

  6、网站没有提供邮政地址不可信