网页针对搜索引擎的加注技巧(转来的)

　　郑重声明：本文阐述与交流一些正确的搜索引擎加注方法与技巧，旨在希望更多内容丰富的网站能够更好地加载到各大搜索引擎上去，被大家发现、欣赏。决不介绍并坚决反对一些投机取巧的搜索引擎加注“技巧”诸如：暗藏鬼页等。

　　1.如何确定关键词
　　2.使用 META 值
　　3.指引 Web robot（网际机器人）为你服务
　　4.提高排名的几点技巧
　　5.全球著名搜索引擎介绍

　　1.如何确定关键词

　　“关键词（Keywords）”是搜索引擎将站点进行分类的依据，同时也就是我们在查找信息时输入的那些词,所以关键词在注册搜索引擎时至关重要。那么有什么办法能帮助我们选择正确的关键词呢？

　　方法一：选几个主要的搜索引擎（例如：AltaVista，Lycos，Excite 等）；
　　1）输入你认为的自己站点的关键词，然后 Search。一般情况下，你会得到一个很长的列表；
　　2）打开前十位的站点，然后查看每一个的 META 标签（打开源文件，META 标签在 <head>...</head> 中）；
　　3）检查他们的 Keywords，从其中借鉴你没有想到的一些词；
　　4）最后归纳出自己的关键词。
　　可以多选几个词重复进行这个过程。

　　方法二：选择人们最常用的一些搜索词（亦即站点的关键词），然后进行选择。网上有很多这样的资源：
　　到 http://www.searchterms.com/ 看一看，那里有每个月网上最流行搜索词的排行榜；
　　想知道 YAHOO 最流行的200个KEYWORDS? 去 http://eyescream.com/yahootop200.htm
　　……这些资源值得去看，但也有很大局限性，例如: YAHOO 前20名 KEYWORDS 中，有60%是关于“SEX”的，看来人们最感兴趣的还是那神秘的“性”。如果你的网站是关于电脑方面的，似乎蜂马牛不相及。怎么办？需要更广泛的统计数据，GOTO 搜索引擎中提供了一个这样的服务“搜索词使用频率统计”：
　　*进入 GOTO 站点
　　*点击左下角 "GetListedonGoTo" 按钮
　　*点击上方 "ClientToolKit" 链接
　　*选择 "Tools" 中的 "SearchTermSuggestionList"
　　*在跳出的新窗口中输入要查询的关键词
　　*点击 "FindIt" 查询

　　2.使用 META 值
　　　　　　　　　　　　　　　　　　　　　　　　　
　　Meta 标签放在每个网页的 <head>...</head> 中，常见格式如：

　　<meta name="GENERATOR" content="Microsoft FrontPage 3.0"> 说明编辑工具；
　　<meta name="KEYWORDS" content="...">说明关键词；
　　<meta name="DESCRIPTION" content="...">说明主页描述；

　　<meta http-equiv="Content-Type" content="text/html; charset=gb_2312-80">和
　　<meta http-equiv="Content-Language" content="zh-CN">说明所用语言及文字

　　可见 META 有两种，name 和 http-equiv。

　　name 主要用于描述网页,对应于 content,以便于搜索引擎机器人查找、分类（目前几乎所有的搜索引擎都使用网上机器人自动查找 META 值来给你的网页分类）。这其中最重要的是 DESCRIPTION（你的站点在引擎上的描述）和KEYWORDS（搜索引擎籍以分类的关键词），应该给你的“每一页”都插入这两个 META 值。当然你也可以不要搜索引擎检索,可用:
　　<meta name="ROBOTS" content="all | none | index | noindex | follow | nofollow"> 来确定:
　　设定为 "all" 时文件将被检索，且页上链接可被查询;
　　设定为 "none" 则表示文件不被检索，而且不查询页上的链接;
　　设定为 "index" 时文件将被检索;
　　设定为 "follow" 则可查询页上的链接;
　　设定为 "noindex" 时文件不检索，但可被查询链接;
　　设定为 "nofollow" 则表示文件不被检索，但可查询页上的链接.

　　http-equiv 顾名思义相当于 http 文件头的作用，可以直接影响网页的传输。比较直接的例子，如:

　　a、自动刷新，并指向新网页
　　<meta http-equiv="Refresh" content="10; url=http://newlink"> 10秒后刷新
　　b、网页间转换时加入效果
　　<meta http-equiv="Page-Enter" content="revealTrans(duration=10,transition=50)">
　　<meta http-equiv="Page-Exit" content="revealTrans(duration=20,transition=6)">
　　加在一个网页中，进出时有一些特殊效果，这个功能即 FrontPage98的Format/PageTransition. 不过注意所加网页不能是一个 Frame页;
　　c、强制网页不被存入Cache中
　　<meta http-equiv="pragma" content="no-cache">
　　<meta http-equiv="expires" content="wed,26Feb199708:21:57GMT">
　　大家可以到 http://www.internet.com/ 上看看，它的首页当你断线后，就无法在 cache 中再调出。（本身是关于建站很棒的站点)
　　d、定义指向窗口
　　<meta http-equiv="window-target" content="_top">
　　可以防止网页被别人作为一个Frame调用.

　　以下举几例很有用的META值设置：
　　<meta name="robots" content="ALL"> 可以告诉搜索 ROBOTS 查找站点中所有内容；
　　<meta name="revisit-after" content="7days">，则 ROBOTS 会在7天后再次前来搜索，这对于定期更新的站点非常有用；
　　<meta http-equiv="pragma" content="no-cache">，网页内容就不能被放在 CACHE 中离线浏览，每次访问都会强制刷新；
　　……

　　3.指引 Web robot（网际机器人）为你服务

　　有时你会莫名其妙地发现你的主页的内容在一个搜索引擎中被索引，即使你从未与他们有过任何联系。其实这正是Web Robot的功劳。Web Robot其实是一些程序，它可以穿越大量Internet网址的超文本结构，递归地检索网络站点所有的内容。这些程序有时被叫“蜘蛛（Spider）”，“网上流浪汉（WebWanderer）”，“网络蠕虫（webworms）”或 Webcrawler。一些 Internet 网上知名的搜索引擎站点（SearchEngines）都有专门的 Web Robot 程序来完成信息的采集，例如 Lycos，Webcrawler，Altavista 等，以及中文搜索引擎站点例如北极星，网易，GOYOYO 等。
　　WebRobot 就象一个不速之客，不管你是否在意，它都会忠于自己主人的职责，任劳任怨、不知疲倦地奔波于万维网的空间，当然也会光临你的主页，检索主页内容并生成它所需要的记录格式。或许有的主页内容你乐于世人皆知，但有的内容你却不愿被洞察、索引。你可以用以下方法布置下路标，告诉 Web Robot 应该怎么去检索你的主页，哪些可以检索，哪些不可以访问。

　　a.RobotsExclusionProtocol 协议

　　网络站点的管理员可以在站点上建立一个专门格式的文件，来指出站点上的哪一部分可以被 robot 访问,这个文件放在站点的根目录下，即 http://.../robots.txt。当 Robot 访问一个 Web 站点时，比如 http://www.sti.net.cn/，它先去检查文件 http://www.sti.net.cn/robots.txt。如果这个文件存在，它便会按照这样的记录格式去分析：

　　User-agent:*
　　Disallow:/cgi-bin/
　　Disallow:/tmp/
　　Disallow:/~joe/

　　以确定它是否应该检索站点的文件。在一个站点上只能有一个 "/robots.txt" 文件，而且文件名的每个字母要求全部是小写。在 Robot 的记录格式中每一个单独的 "Disallow" 行表示你不希望 Robot 访问的 URL，每个 URL 必须单独占一行，不能出现 "Disallow:/cgi-bin//tmp/" 这样的病句。同时在一个记录中不能出现空行，这是因为空行是多个记录分割的标志。
　　User-agent 行指出的是 Robot 或其他代理的名称。在 User-agent 行，'*' 表示一个特殊的含义---所有的 robot。

　　下面是几个 robot.txt 的例子：

　　在整个服务器上拒绝所有的 robots：
　　User-agent:*
　　Disallow:/

　　允许所有的 robots 访问整个站点：
　　User-agent:*
　　Disallow:
　　或者产生一个空的 "/robots.txt" 文件。

　　服务器的部分内容允许所有的 robot 访问
　　User-agent:*
　　Disallow:/cgi-bin/
　　Disallow:/tmp/
　　Disallow:/private/

　　拒绝某一个专门的 robot：
　　User-agent:BadBot
　　Disallow:/

　　只允许某一个 robot光顾：
　　User-agent:WebCrawler
　　Disallow:
　　User-agent:*
　　Disallow:/

　　b、RobotsMETAtag

　　一个网页作者可以使用专门的 HTMLMETAtag，来指出某一个网页是否可以被索引、分析或链接。这些方法适合于大多数的 Web Robot，至于是否在软件中实施了这些方法，还依赖于 Robot 的开发者，并非可以保证对任何 Robot 都灵验。如果你迫切需要保护自己内容，则应考虑采用诸如增加密码等其他保护方法。
　　RobotsMETAtag 指令使用逗号隔开，可以使用的指令包括 [NO]INDEX 和 [NO]FOLLOW。INDEX 指令指出一个索引性 robot 是否可以对本页进行索引；FOLLOW指令指出 robot 是否可以跟踪本页的链接。缺省的情况是 INDEX 和 FOLLOW。例如：
　　<meta name="robots" content="index,follow">
　　<meta name="robots" content="noindex,follow">
　　<meta name="robots" content="index,nofollow">
　　<meta name="robots" content="noindex,nofollow">

　　c.提高排名的几点技巧　　　　　　　　　　　　　　　　　　　　　　　

　　用关键字的复数形式，（如，用 "books" 来代替 "book", 那么，当有人查询 book 或者 books 时，你的站点都会呈现在他面前）

　　关键字的大写和小写多种拼写方式都用上。（如：books,Books,BOOKS）同一个单词的三种以上的拼写方式并不会起到多大作用，尽管通常的错误拼写倒能奏效。

　　用你选定的关键字的组合方式。人们经常使用包含2或2个以上关键字的短语来搜索。（如："storagefacilities", "STORAGEFACILITIES" 为了真正找准你的目标市场，加上 "self,"SELF" 和 "你的城市/州" 等单词。那些不需要你的产品和服务的访问者即便再多，也没什么价值。

　　必须使用 META 值。许多搜索引擎都是根据这些 META 值为你的站点做索引的。META 值位于你页面 HTML 中的 <head> 和 </head> 之间，并不会在你的页面中显示出来。为了更精确的使用这些 META 值。可以找一个排名最高的站点的源文件来做些参考分析。

　　使用你10到20个最好的关键字的组合。关键字丰富的 META 内容通常都是你站点排名的决定性因素。
提示：如果可能，尽量在每一段的开头或者搜索短语较靠前的位置使用你最具代表性的关键字。

　　用关键字来填满你图象链接中的 ALT 值。

　　你站点中的每一页都应该单独登录到搜索引擎，而不仅仅是登录了首页就结束了。
提示：许多搜索引擎都会定期对你的站点重新检索，如果站点上没有变化你的排名可就会下降了，所以，保持你的站点常新。

　　为你的每一个主要的关键字创造或定制一个独立的页面，并为每个主要的搜索引擎单独设计。这会花上些时间，但是，一旦你做好了，将会令人不可置信的提高你的排名。
提示：确保每个页面都能直接链接到首页以及其它一些相关页面。
警告！过去很多人投机取巧，滥用关键字来取得更高的排名。就是将自己的关键字一再重复使用，并改变文字颜色使之

适应页面背景色。现在如果一旦发现你这么做了，大多数搜索引擎都会采取惩罚措施。