SEO实战密码:60天网站流量提高20倍》详细、系统地介绍了正规、有效的seo实战技术,包括为什么要做seo、搜索引擎工作原理、关键词研究、网站架构优化、外链建设、效果检测及策略修正,以及作弊与惩罚、排名因素列表、常用的seo工具、seo项目管理中需要注意的问题等专题,最后提供了一个非常详细的案例供读者参考。
除了主机和服务器服务外,Zac也向新加坡、中国及英国、美国、马来西亚等国家数十个客户提供网络营销顾问咨询服务。在运营自己网站及为客户提供顾问服务过程中,Zac积累了大量网络营销实战经验。由于工作语言是英语,Zac在了解、实验国际最新网络营销趋势和手法方面有独特优势。
早在2007年我愉快地与Zac做过一次关于搜索引擎优化(SEO)的访谈。Zac不仅问了很好的问题,也在这些年来为无数人提供了有益、扎实的建议。所以当Zac请我为他的《SEO实战密码——60天网站流量提高20倍》一书写序时,我很高兴地说“Yes”。
我认为学习SEO对任何从事网上工作的人都是好事。不仅是设计师和程序员,CEO和普通用户如果更多地了解搜索引擎怎样排名、为什么有的网页比其他网站排名更高,都能受益良多。
SEO能以很合理的方式进行,既照顾到用户需求,又创造出有用的、符合搜索引擎质量指南的网站。SEO是个强有力的工具,既帮助网站提高排名,又使网站容易使用。
有的人认为SEO只意味着发垃圾和欺骗性的手段,这是不正确的。SEO可以包括为用户设计一个清晰易用的网站,电脑可以通过跟踪链接发现新的页面。关注SEO可以发现用户寻找产品或网页时输入的关键词,然后你可以在页面上自然融入这些词。学习SEO使你了解人们需要高质量的信息,并且喜欢有用的服务和资源。学SEO的人也能学习到提高认知度并且为网页带来更多链接的各种网站推广方法。
事实表明,中文网络与英文或德文网络不同。不同国家的网站有不同的链接结构,更不要说不同的流行关键词。不同国家也有不同的独立域名和出现在论坛或电子公告板的内容组合。因此,有一本专门为中国市场写的SEO书是很有帮助的。很高兴Zac写了这样一本书。
这一切都是因为SEO。
2006年4月,我开始写“SEO每天一贴”博客。开始写时没有什么特别的目的,只是想记录、分享自己的一点SEO心得。从2003年起我就以网络为生,主要就是靠SEO推广网站。国外SEO人员写博客、分享经验很普遍,所以我就想把自己了解的一些知识、经验写下来。说实话,那时候对国内SEO行业一无所知。后来我了解到,2006年时国内很少有人公开分享SEO技巧。也许正因如此,“SEO每天一贴”很快成为国内被引用、转载和抄袭最多、最受欢迎的SEO博客。
2006年6月,Robin、小鹏、石头和我,四个没见过面的SEO爱好者,共同发起成立SEO研究团队“点石互动”,掀起国内研究、分享SEO的热潮。
今天,点石论坛已经没有了当初的热闹,我的博客因为写书而停写很久了,被我们传染而开始写SEO博客的人也大多停止更新了。但回想过去几年,可以清楚地看到,SEO从一个大家热烈讨论的话题变成所有网站的基本要求,喧嚣过去,SEO观念已深入到所有做网站的人的脑海里。
在博客上分享SEO毕竟不可能很系统、详细,很多人希望我写一本SEO书。本来我觉得SEO内容网上已经很多了,而且搜索行业变化太快,信息容易过时,所以出版社找我写书时,我写出了《网络营销实战密码》,而不是一本SEO书。但几个原因促使我还是写了这本《SEO实战密码——60天网站流量提高20倍》。
首先,虽然SEO概念普及了,但在很多人眼里,SEO和作弊、欺骗是一回事儿。这是对SEO的极大误解。写一本书,详细介绍健康的、正规的白帽SEO,才能让更多的人知道什么是真正的SEO。
其次,我在出版上一本书《网络营销实战密码》时一再强调,那不是一本SEO书,但还是有很多读者抱怨SEO内容太少,可能大家印象里Zac这个名字和SEO联系太深了。写这本专门讨论SEO的书,也是为了弥补上一本书给读者带来的缺憾。
再次,搜索和SEO行业变化是很快,但SEO的很多原则并没什么变化,甚至可以说,五六年来,SEO基本思路和方法都没有本质变化。这使我确信,现在写出来的SEO原则和大部分技巧在未来几年不会过时。新工具、新技巧可以在博客里和本书再版时更新。
最后,看过几本SEO书及网上很多新手的反馈意见后觉得,一些刚开始学SEO的人需要一个手把手示范的过程。小范围单独指导是个方法,但无法扩展,要对更多人有益,还是得靠书籍。所以本书包含了一个非常详细、篇幅近6万字的真实案例。这是本书独特的地方,在其他地方还没有见到过这样的案例。
本书详细、系统地介绍了正规、有效的SEO实战技术,包括关键词研究、网站架构优化、页面优化、外链建设、效果监测及策略修正,以及作弊与惩罚、排名因素列表等专题。
第1章简单讨论为什么要做SEO。
第2章介绍搜索引擎工作原理,为深入了解SEO打下良好基础。
第3章讨论竞争研究,包括对关键词、竞争对手及自己网站的深入研究。
第4、5两章介绍站内优化,包括网站结构和页面优化。
第6章探讨外部链接建设。
第7章介绍SEO效果监测及策略调整。
第8章介绍SEO作弊及搜索引擎惩罚。
第9、10两章讨论不好归类的一些专题,包括SEO观念、垂直搜索的排名等。
第11章介绍常用的SEO工具。
第12章简单讨论SEO项目管理中需要注意的问题。
第13章是Google和百度排名因素调查及列表,供SEO人员快速参考。
第14章是一个详细的正在进行中的真实案例。
附录是SEO术语。
我相信这本书不仅对需要做SEO的人有帮助,如个人站长、公司SEO或网络营销人员、SEO服务公司人员,对所有与网站有关的人都有参考价值,如网站设计人员、程序员、大专院校网络营销和电子商务专业学生、网络公司技术和营销团队、传统商业公司电子商务团队等,因为SEO已经是对所有网站的基本要求。
读者可以访问实战密码系列书专用网站 http://www.zaccode.com,分享SEO心得,提出问题,交流SEO技巧。
感谢Google反垃圾组负责人Matt Cutts为本书写序,以及中日韩文反垃圾组负责人朱建飞的热情帮助。
感谢电子工业出版社李冰等编辑对本书进度一拖再拖的理解,以及在写书过程中的所有支持。
感谢很多SEO同行一直以来无私与我分享案例、数据、发现。感谢读者和SEO爱好者们在我写书过程中的精神支持,你们的询问、鼓励、耐心在我一年多的写作时间中一直陪伴着我。
最后,感谢家人的支持、理解,尤其感谢我太太,在照顾我生活的同时还要帮我整理所有书稿。
第1章 为什么要做SEO 1
1.1 什么是SEO 1
1.2 为什么要做SEO 2
1.3 搜索引擎简史 6
第2章 了解搜索引擎 14
2.1 搜索引擎与目录 15
2.2 搜索引擎面对的挑战 15
2.3 搜索结果显示格式 17
2.3.1 搜索结果页面 17
2.3.2 经典搜索结果列表 20
2.3.3 整合搜索结果 21
2.3.4 缩进列表 21
2.3.5 全站链接 22
2.3.6 迷你全站链接 22
2.3.7 One-box 22
2.3.8 富摘要 23
2.3.9 面包屑导航 23
2.3.10 说明文字中的链接 23
2.4 搜索引擎工作原理简介 24
2.4.1 爬行和抓取 24
2.4.2 预处理 27
2.4.3 排名 31
2.5 链接原理 35
2.5.1 李彦宏超链分析专利 36
2.5.2 HITS算法 36
2.5.3 TrustRank算法 37
2.5.4 Google PR 38
2.5.5 Hilltop算法 41
2.6 用户怎样浏览和点击搜索结果 42
2.6.1 英文搜索结果页面 43
2.6.2 中文搜索结果页面 46
2.6.3 整合搜索及个人化搜索 48
2.7 高级搜索指令 51
2.7.1 双引号 51
2.7.2 减号 51
2.7.3 星号 52
2.7.4 inurl: 53
2.7.5 inanchor: 54
2.7.6 intitle: 54
2.7.7 allintitle: 55
2.7.8 allinurl: 55
2.7.9 filetype: 56
2.7.10 site: 56
2.7.11 link: 57
2.7.12 linkdomain: 58
2.7.13 related: 58
2.7.14 综合使用高级搜索指令 59
第3章 竞争研究 60
3.1 为什么研究关键词 60
3.1.1 确保目标关键词有人搜索 60
3.1.2 降低优化难度 61
3.1.3 寻找有效流量 61
3.1.4 搜索多样性 61
3.1.5 发现新机会 62
3.2 关键词的选择 62
3.2.1 内容相关 62
3.2.2 搜索次数多,竞争小 63
3.2.3 主关键词不可太宽泛 63
3.2.4 主关键词也不可太特殊 63
3.2.5 商业价值 63
3.3 关键词竞争程度判断 64
3.3.1 搜索结果数 64
3.3.2 intitle结果数 65
3.3.3 竞价结果数 65
3.3.4 竞价价格 65
3.3.5 竞争对手情况 66
3.3.6 内页排名数量 66
3.4 核心关键词 67
3.4.1 头脑风暴 67
3.4.2 同事、朋友 68
3.4.3 竞争对手 68
3.4.4 查询搜索次数 69
3.4.5 确定核心关键词 70
3.5 关键词扩展 71
3.5.1 关键词工具 71
3.5.2 搜索建议 72
3.5.3 相关搜索 72
3.5.4 其他关键词扩展工具 72
3.5.5 各种形式的变体 73
3.5.6 补充说明文字 73
3.5.7 网站流量分析 74
3.5.8 单词交叉组合 74
3.6 关键词分布 75
3.6.1 金字塔形结构 75
3.6.2 关键词分组 75
3.6.3 关键词布局 76
3.6.4 关键词-URL对应表 77
3.7 长尾关键词 77
3.7.1 长尾理论 77
3.7.2 搜索长尾 78
3.7.3 怎样做长尾关键词 79
3.8 三类关键词 80
3.8.1 导航类关键词 80
3.8.2 交易类关键词 81
3.8.3 信息类关键词 81
3.9 预估流量及价值 81
3.9.1 确定目标排名 82
3.9.2 预估流量 82
3.9.3 预估搜索流量价值 85
3.10 关键词趋势波动和预测 86
3.10.1 长期趋势 86
3.10.2 季节性波动 86
3.10.3 社会热点预测 87
3.11 竞争对手研究 89
3.11.1 域名权重相关数据 89
3.11.2 网站优化情况 91
3.11.3 网站流量 92
3.12 快速网站诊断 93
3.12.1 robots文件检查 93
3.12.2 首选域设置 94
3.12.3 关键词排名 95
3.12.4 外部链接 97
3.12.5 网站内容 98
3.12.6 内部链接 99
3.12.7 抓取错误及统计 99
3.12.8 HTML建议 100
3.12.9 模拟蜘蛛抓取 101
3.12.10 网站性能 102
第4章 网站结构优化 103
4.1 搜索引擎友好的网站设计 104
4.2 避免蜘蛛陷阱 109
4.2.1 Flash 109
4.2.2 Session ID 110
4.2.3 各种跳转 110
4.2.4 框架结构 110
4.2.5 动态URL 111
4.2.6 JavaScript链接 111
4.2.7 要求登录 111
4.2.8 强制使用Cookies 111
4.3 物理及链接结构 112
4.3.1 物理结构 112
4.3.2 链接结构 113
4.4 清晰导航 114
4.5 子域名和目录 115
4.6 禁止收录机制 116
4.6.1 robots文件 117
4.6.2 meta robots标签 118
4.7 nofollow的使用 119
4.8 URL静态化 121
4.8.1 为什么静态化 121
4.8.2 怎样静态化URL 122
4.8.3 URL不需要静态化吗 122
4.9 URL设计 123
4.10 网址规范化 125
4.10.1 为什么出现不规范网址 125
4.10.2 网址规范化问题 126
4.10.3 解决网址规范化问题 127
4.10.4 301转向 127
4.10.5 Canonical标签 129
4.11 复制内容 130
4.11.1 产生复制内容的原因 130
4.11.2 复制内容的害处 132
4.11.3 消除复制内容 132
4.12 绝对路径和相对路径 133
4.12.1 绝对路径 134
4.12.2 相对路径 134
4.13 网站地图 135
4.13.1 HTML网站地图 135
4.13.2 XML网站地图 135
4.14 内部链接及权重分配 137
4.14.1 重点内页 137
4.14.2 非必要页面 137
4.14.3 大二级分类 138
4.14.4 翻页过多 138
4.14.5 单一入口还是多入口 139
4.14.6 相关产品链接 140
4.14.7 锚文字分布及变化 141
4.14.8 首页链接NoFollow 142
4.14.9 深层链接 142
4.14.10 分类隔离 142
4.15 CMS系统 143
4.16 404页面 145
4.16.1 404错误代码 145
4.16.2 404页面设计 146
4.16.3 404错误与外链 146
第5章 页面优化 148
5.1 页面标题 148
5.1.1 独特不重复 148
5.1.2 准确相关 151
5.1.3 字数限制 151
5.1.4 简练通顺,不要堆砌 152
5.1.5 关键词出现在最前面 153
5.1.6 吸引点击 153
5.1.7 组合两三个关键词 153
5.1.8 公司或品牌名称 154
5.1.9 连词符使用 154
5.1.10 不要用没有意义的句子 155
5.1.11 noodp标签 155
5.2 描述标签 155
5.3 关键词标签 156
5.4 正文中的关键词 157
5.4.1 词频和密度 157
5.4.2 前50~100个词 157
5.4.3 关键词变化形式 158
5.4.4 关键词组临近度 158
5.4.5 词组的拆分出现 158
5.4.6 语义分析 158
5.4.7 分类页面说明文字 159
5.5 H标签 160
5.6 ALT文字 160
5.7 精简代码 161
5.8 内部链接及锚文字 162
5.9 导出链接及锚文字 162
5.10 W3C验证 162
5.11 黑体及斜体 163
5.12 页面更新 163
5.13 Google沙盒效应 163
第6章 外部链接建设 165
6.1 外部链接意义 165
6.1.1 相关性及锚文字 165
6.1.2 权重及信任度 166
6.1.3 收录 166
6.2 Google炸弹 167
6.3 链接分析技术 169
6.4 什么样的链接是好链接 170
6.5 外部链接查询 173
6.5.1 链接查询指令 173
6.5.2 工具查询外链 174
6.5.3 影响排名的链接 174
6.6 外部链接原则 175
6.6.1 难度越大,价值越高 176
6.6.2 内容是根本 176
6.6.3 内容相关性 176
6.6.4 链接来源广泛 176
6.6.5 深度链接 177
6.6.6 锚文字分散自然 177
6.6.7 平稳持续增加 177
6.6.8 质量高于数量 177
6.7 网站目录提交 178
6.7.1 提交前的准备 178
6.7.2 寻找网站目录 179
6.7.3 网站提交 180
6.8 友情链接 180
6.8.1 友情链接页面 181
6.8.2 软件使用 181
6.8.3 寻找交换链接目标 182
6.8.4 交换链接步骤 182
6.8.5 内页正文链接交换 183
6.8.6 交换链接中的小花招 184
6.9 链接诱饵 185
6.9.1 链接诱饵的制作 186
6.9.2 链接诱饵种类和方法 187
6.9.3 链接诱饵之度 198
6.10 其他常规外链建设方法 199
6.11 非链接形式的链接 207
6.12 竞争对手能否通过垃圾外链陷害你 209
6.13 链接工作表 210
了解搜索引擎
一个合格的SEO必须了解搜索引擎基本工作原理。很多看似令人迷惑的SEO原理及技巧,其实从搜索引擎原理出发,都是自然而然的事情。
为什么要了解搜索引擎原理?
说到底,SEO是在保证用户体验的基础上尽量迎合搜索引擎。与研究用户界面及可用性不同的是,SEO既要从用户出发,也要站在搜索引擎的角度考虑问题,才能清晰地知道怎样优化网站。SEO人员必须知道:搜索引擎要解决什么问题,有哪些技术上的困难,有什么限制,搜索引擎又怎样取舍。
从某个角度来说,SEO人员优化网站就是尽量减少搜索引擎的工作量、降低搜索引擎的工作难度,使搜索引擎能更轻松、快速地收录网站页面,更准确地提取页面内容。不了解搜索引擎工作原理,也就无从替搜索引擎解决一些SEOer力所能及的技术问题。当搜索引擎面对一个网站,发现要处理的问题太多、难度太大时,搜索引擎可能就对这样的网站敬而远之了。
很多SEO技巧是基于对搜索引擎的理解。下面举几个例子。
我们都知道网站域名和页面权重非常重要,这是知其然,很多人不一定知其所以然。权重除了意味着权威度高、内容可靠,因而容易获得好排名外,获得一个最基本的权重,也是页面能参与相关性计算的最基本条件。一些权重太低的页面,就算有很高的相关性也很可能无法获得排名,因为根本没有机会参与排名。
再比如很多SEO er津津乐道的“伪原创”。首先,抄袭是不道德甚至违法的行为,把别人的文章拿来加一些“的、地、得”,段落换换顺序就当成自己的原创放在网站上,这是令人鄙视的抄袭行为。理解搜索引擎原理的话,就会知道这样的伪原创也不管用。搜索引擎并不会因为两篇文章差几个字、段落顺序不同,就真的把它们当成不同的内容。搜索引擎的权重算法要先进、准确得多。
再比如,对大型网站来说,最关键的问题是解决收录。只有收录充分,才能带动大量长尾关键词。就算是有人力、财力的大公司,当面对几百万几千万页面的网站时,也不容易处理好充分收录的问题。只有在深入了解搜索引擎蜘蛛爬行原理的基础上,才能尽量使蜘蛛抓得快而全面。
上面所举的几个例子,读者看完搜索引擎原理简介这一节后,会有更深入的认识。
早期的SEO资料经常把真正的搜索引擎与目录放在一起讨论,甚至把目录也称为搜索引擎的一种,这种讲法并不准确。
真正的搜索引擎指的是由蜘蛛程序沿着链接爬行和抓取网上的大量页面,存进数据库,经过预处理,用户在搜索框输入关键词后,搜索引擎排序程序从数据库中挑选出符合搜索关键词要求的页面。蜘蛛的爬行、页面的收录及排序都是自动处理。
网站目录则是一套人工编辑的分类目录,由编辑人员人工创建多个层次的分类,站长可以在不同分类里提交网站,目录编辑在后台审核所提交的网站,将网站放置于相应的分类页面。有的时候编辑也主动收录网站。典型的网站目录包括雅虎目录、开放目录、好123等。
目录并不是本书中所讨论的SEO所关注的真正的搜索引擎。虽然网站目录也常有一个搜索框,但目录的数据来源是人工编辑得到的。
搜索引擎和目录两者各有优劣。
搜索引擎收录的页面数远远高于目录能收录的页面数。但搜索引擎收录的页面质量参差不齐,对网站内容和关键词提取的准确性通常也没有目录高。
限于人力,目录能收录的通常只是网站首页,而且规模十分有限,不过收录的网站通常质量比较高。像雅虎、开放目录、好123这些大型目录,收录标准非常高。目录收录网站时存储的页面标题、说明文字都是人工编辑的,比较准确。
搜索引擎数据更新快,而目录中收录的很多网站内容十分陈旧,甚至网站可能已经不再存在了。
雅虎目录、搜狐目录等曾经是用户在网上寻找信息的主流方式,给用户的感觉与真正的搜索引擎也相差不多。这也就是目录有时候被误称为“搜索引擎的一种”的原因。但随着Google等真正意义上的搜索引擎发展起来,目录的使用迅速减少,现在已经很少有人使用网站目录寻找信息了。现在的网站目录对SEO的最大意义是建设外部链接,像雅虎、开放目录、好123等都有很高的权重,可以给被收录的网站带来一个高质量的外部链接。
搜索引擎面对的挑战
搜索引擎系统是最复杂的计算系统之一,当今主流搜索引擎服务商都是有财力、人力的大公司。即使有技术、人力、财力的保证,搜索引擎还是面临很多技术挑战。搜索引擎诞生后的十多年中,技术已经得到了长足的进步。我们今天看到的搜索结果质量与10年前相比已经好得太多了。不过这还只是一个开始,搜索引擎必然还会有更多创新,提供更多、更准确的内容。
总体来说,搜索引擎主要会面对以下几方面的挑战。
1.页面抓取需要快而全面
互联网是一个动态的内容网络,每天有无数页面被更新、创建,无数用户在网站上发布内容、沟通联系。要返回最有用的内容,搜索引擎就要抓取最新的页面。但是由于页面数量巨大,搜索引擎蜘蛛更新一次数据库中的页面要花很长时间。搜索引擎刚诞生时,这个抓取周期往往以几个月计算。这也就是Google在2003年以前每个月有一次大更新的原因所在。
现在主流搜索引擎都已经能在几天之内更新重要页面,权重高的网站上的新文件几小时甚至几分钟之内就会被收录。不过,这种快速收录和更新也只能局限于高权重网站。很多页面几个月不被重新抓取和更新,也是非常常见的。
要返回最好的结果,搜索引擎也必须抓取尽量全面的页面,这就需要解决很多技术问题。一些网站并不利于搜索引擎蜘蛛爬行和抓取,诸如网站链接结构的缺陷、大量使用Flash、JavaScript脚本,或者把内容放在用户必须登录以后才能访问的部分,都增大了搜索引擎抓取内容的难度。
2.海量数据存储
一些大型网站单是一个网站就有百万千万个页面,可以想象网上所有网站的页面加起来是一个什么数据量。搜索引擎蜘蛛抓取页面后,还必须有效存储这些数据,数据结构必须合理,具备极高的扩展性,写入及访问速度要求也很高。
除了页面数据,搜索引擎还需要存储页面之间的链接关系及大量历史数据,这样的数据量是用户无法想象的。据说Google有几十个数据中心,上百万台服务器。这样大规模的数据存储和访问必然存在很多技术挑战。
我们经常在搜索结果中看到,排名会没有明显原因地上下波动,甚至可能刷新一下页面,就看到不同的排名,有的时候网站数据也可能丢失。这些都可能与大规模数据存储的技术难题有关。
3.索引处理快速有效,具可扩展性
搜索引擎将页面数据抓取和存储后,还要进行索引处理,包括链接关系的计算、正向索引、倒排索引等。由于数据库中页面数量大,进行PR之类的迭代计算也是耗时费力的。要想及时提供相关又及时的搜索结果,仅仅抓取没有用,还必须进行大量索引计算。由于随时都有新数据、新页面加入,因此索引处理也要具备很好的扩展性。
4.查询处理快速准确
查询是普通用户唯一能看到的搜索引擎工作步骤。用户在搜索框输入关键词,单击“搜索”按钮后,通常不到一秒钟就会看到搜索结果。表面最简单的过程,实际上涉及非常复杂的后台处理。在最后的查询阶段,最重要的难题是怎样在不到一秒钟的时间内,快速从几十万、几百万,甚至几千万包含搜索词的页面中,找到最合理、最相关的1000个页面,并且按照相关性、权威性排列。
5.判断用户意图及人工智能
应该说前4个挑战现在的搜索引擎都已经能够比较好地解决,但判断用户意图还处在初级阶段。不同用户搜索相同的关键词,很可能是在寻找不同的东西。比如搜索“苹果”,用户到底是想了解苹果这个水果,还是苹果电脑?还是电影《苹果》的信息?没有上下文,没有对用户个人搜索习惯的了解,就完全无从判断。
搜索引擎目前正在致力于基于用户搜索习惯及历史数据的了解上,判断搜索意图,返回更相关的结果。今后搜索引擎是否能达到人工智能水平,真正了解用户搜索词的意义和目的,让我们拭目以待。
搜索结果显示格式
用户在搜索引擎搜索框中输入关键词,单击“搜索”按钮后,搜索引擎在很短时间内返回一个搜索结果页面。如图2-1所示是Google的搜索结果页面,也是比较典型的搜索结果页面排版格式。
页面主体有两部分最主要,一是广告,二是自然搜索结果。如图2-1所示,页面右侧8个结果及左侧最上面的一个结果,都标注为“赞助商链接”,这就是广告。绝大部分网民都比较清楚右侧显示的是广告,所以右侧赞助商链接没有加特殊底色。页面左侧上部的广告链接使用浅黄色底色,可以和下面的自然搜索结果清楚地分开。右侧广告最多有8个,上部广告可以多至3个。
搜索广告在网络营销行业经常称为PPC,由广告商针对关键词进行竞价,广告显示广告商无须付费,只有搜索用户点击广告后,广告商才按竞价价格支付广告费用。PPC是搜索营销的另一个主要内容。
搜索结果页面左侧广告下面,占据页面最大部分的就是自然搜索结果。通常每个页面会列出10个自然搜索结果。用户可以在账户设置中选择每页显示100个搜索结果。每个搜索结果的格式后面再做介绍。
页面最左上角是垂直搜索链接,用户点击后可以直接访问图片、视频、地图等搜索结果。
搜索框右下方显示满足搜索关键词的结果总数,例如图2-1中所显示的19 600 000条结果。这个搜索结果数是研究竞争程度的依据之一。
经典搜索结果列表
我们再来看看每一个搜索结果页面的展现格式。如图2-4所示是百度的搜索结果列表,主要分三部分。
第一行是页面标题,通常取自页面HTML代码中的标题标签(Title Tag)。这是结果列表中最醒目的部分,用户点击标题就可以访问对应的网页。可见页面标题标签的写法,无论对排名还是对点击率都有重要意义。
第二行、第三行是页面说明。页面说明有的时候取自页面HTML中的说明标签(Description Tag),有的时候从页面可见文字中动态抓取相关内容。显示什么页面说明文字是用户查询时才决定的。
某些与日期有明确联系的页面,Google会在说明文字最前面显示日期,省略号后再显示页面说明。如博客帖子这类有明确发布日期的页面,如图2-5所示。
第四行显示三个信息。最左侧是网址,用户可以看到页面来自哪个网站,以及目录、文件名信息。
中间是百度数据库中页面最后更新的日期。
然后是百度快照链接,用户可以点击快照,查看存储在百度数据库中的页面内容。当页面被删除或者有其他技术问题导致不能打开网站时,用户至少还可以从快照中查看想要的内容。
用户所搜索的关键词在标题及说明部分都用红色高亮显示。用户可以非常快速地看到页面与自己搜索的关键词相关性如何。如图2-6中的“SEO”这三个字母。
Google结果列表与百度大致相同,几处小的区别如下:
· 搜索关键词在URL中出现时加粗显示,如图2-6中的SEO三个字母。
· URL右侧的页面最近更新时间不是按日期显示的,而是显示为几小时前。
· 网页快照链接后面有时还有一个“类似结果”链接。用户点击类似结果后可以看到与这个页面相似的其他网页。
· Google英文结果列表与中文还有一个区别,就是搜索关键词在标题及说明部分不是红色高亮显示的,而是加粗显示的,如图2-7所示。
红色高亮显示应该是Google为适应中国用户搜索习惯所做的变化。
2010年4月份,本章初稿完成后,笔者又发现百度也在试验将URL中的关键词加粗,但不是所有URL中的关键词都会加粗,如图2-8所示。
爬行和抓取
搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也称为机器人(bot)。
搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并发分布爬行。
蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。
和浏览器一样,搜索引擎蜘蛛也有标明自己身份的代理名称,站长可以在日志文件中看到搜索引擎的特定代理名称,从而辨识搜索引擎蜘蛛。
链接原理
在Google诞生以前,传统搜索引擎主要依靠页面内容中的关键词匹配搜索词进行排名。这种排名方式的短处现在看来显而易见,那就是很容易被刻意操纵。黑帽SEO在页面上堆积关键词,或加入与主题无关的热门关键词,都能提高排名,使搜索引擎排名结果质量大为下降。现在的搜索引擎都使用链接分析技术减少垃圾,提高用户体验。本节就简要探讨链接在搜索引擎排名中的应用原理。
在排名中计入链接因素,不仅有助于减少垃圾,提高结果相关性,也使传统关键词匹配无法排名的文件能够被处理。比如图片、视频文件无法进行关键词匹配,但是却可能有外部链接,通过链接信息,搜索引擎就可以了解图片和视频的内容从而排名。
不同文字的页面排名也成为可能。比如在百度或google.cn搜索“SEO”,都可以看到英文和其他文字的SEO网站。甚至搜索“搜索引擎优化”,也可以看到非中文页面,原因就在于有的链接可能使用“搜索引擎优化”为锚文字指向英文页面。
链接因素现在已经超过页面内容的重要性。不过理解链接关系比较抽象。页面上的因素对排名的影响能看得到,容易直观理解。举个简单的例子,搜索一个特定关键词,SEO人员只要观察前几页结果,就能看到:关键词在标题标签中出现有什么影响,出现在最前面又有什么影响,有技术资源的还可以大规模地统计,计算出关键词出现在标题标签中不同位置与排名之间的关系。虽然这种关系不一定是因果关系,但至少是统计上的联系,使SEO人员大致了解如何优化。
链接对排名的影响就无法直观了解,也很难进行统计,因为没有人能获得搜索引擎的链接数据库。我们能做的最多只是定性观察和分析。
下面介绍的一些关于链接的专利,多少透露了链接在搜索引擎排名中的使用方法和地位。
2.5.1 李彦宏超链分析专利
百度创始人李彦宏在回国创建百度之前就是美国顶级的搜索引擎工程师之一。据说李彦宏在寻找风险投资时,投资人询问其他三个搜索引擎业界的技术高人一个问题:要了解搜索引擎技术应该问谁。这三个被问到的高人中有两个回答:搜索引擎的事就问李彦宏。由此投资人断定李彦宏是最了解搜索引擎的人之一。
这其实就是现实生活中类似于链接关系的应用。要判断哪个页面最具权威性,不能光看页面自己怎么说,还要看其他页面怎么评价。
李彦宏1997年就提交了一份名为“超链文件检索系统和方法”的专利申请,这比Google创始人发明PR要早得多,不得不说这是非常具有前瞻性的研究工作。在这份专利中,李彦宏提出了与传统信息检索系统不同的基于链接的排名方法。
这个系统除了索引页面之外,还建立一个链接词库,记录链接锚文字的一些相关信息,如锚文字中包含哪些关键词,发出链接的页面索引,包含特定锚文字的链接总数,包含特定关键词的链接都指向哪些页面。词库不仅包含关键词原型,也包含同一个词干的其他衍生关键词。
根据这些链接数据,尤其是锚文字,计算出基于链接的文件相关性。在用户搜索时,将得到的基于链接的相关性与基于关键词匹配的传统相关性综合使用,得到更准确的排名。
在今天看来,这种基于链接的相关性计算是搜索引擎的常态,每个SEO人员都知道。但是在十三四年前,这无疑是非常创新的概念。当然现在的搜索引擎算法对链接的考虑,已经不仅仅是锚文字,实际上要复杂得多。
HITS算法
HITS是英文Hyperlink-Induced Topic Search 的缩写,意译为“超链诱导主题搜索”。HITS算法由Jon Kleinberg于1997年提出,并申请了专利:
http://patft.uspto.gov/netacgi/nph-Parser?patentnumber=6,112,202
按照HITS算法,用户输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores),这两个值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值指的是所有导入链接所在页面的枢纽值之和。
上面的定义比较拗口,我们可以简单地说,HITS算法会提炼出两种比较重要的页面,也就是枢纽页面和权威页面。枢纽页面本身可能没有多少导入链接,但是有很多导出链接指向权威页面。权威页面本身可能导出链接不多,但是有很多来自枢纽页面的导入链接。
典型的枢纽页面就是如雅虎目录、开放目录或好123这样的网站目录。这种高质量的网站目录作用就在于指向其他权威网站,所以称为枢纽。而权威页面有很多导入链接,其中包含很多来自枢纽页面的链接。权威页面通常是提供真正相关内容的页面。
HITS算法是针对特定查询词的,所以称为主题搜索。
HITS算法的最大缺点是,它在查询阶段进行计算,而不是在抓取或预处理阶段。所以HITS算法是以牺牲查询排名响应时间为代价的。也正因为如此,原始HITS算法在搜索引擎中并不常用。不过HITS算法的思想很可能融入到搜索引擎的索引阶段,也就是根据链接关系找出具有枢纽特征或权威特征的页面。
成为权威页面是第一优先,不过难度比较大,唯一的方法就是获得高质量链接。当你的网站不能成为权威页面时,就让它成为枢纽页面。所以导出链接也是当前搜索引擎排名因素之一。绝不链接到其他网站的做法,并不是好的SEO方法。
TrustRank算法
TrustRank是近年来比较受关注的基于链接关系的排名算法。TrustRank可以翻译为“信任指数”。
TrustRank算法最初来自于2004年斯坦福大学和雅虎的一项联合研究,用来检测垃圾网站,并且于2006年申请专利。TrustRank算法发明人还发表了一份专门的PDF文件,说明TrustRank算法的应用。感兴趣的读者可以在下面这个网址下载PDF文件:
http://www.vldb.org/conf/2004/RS15P3.PDF
TrustRank算法并不是由Google提出的,不过由于Google所占市场份额最大,而且TrustRank在Google排名中也是一个非常重要的因素,所以有些人误以为TrustRank是Google提出的。更让人糊涂的是,Google曾经把TrustRank申请为商标,但是TrustRank商标中的TrustRank指的是Google检测含有恶意代码网站的方法,而不是指排名算法中的信任指数。
TrustRank算法基于一个基本假设:好的网站很少会链接到坏的网站。反之则不成立,也就是说,坏的网站很少链接到好网站这句话并不成立。正相反,很多垃圾网站会链接到高权威、高信任指数的网站,试图提高自己的信任指数。
基于这个假设,如果能挑选出可以百分之百信任的网站,这些网站的TrustRank评为最高,这些TrustRank最高的网站所链接到的网站信任指数稍微降低,但也会很高。与此类似,第二层被信任的网站链接出去的第三层网站,信任度继续下降。由于种种原因,好的网站也不可避免地会链接到一些垃圾网站,不过离第一层网站点击距离越近,所传递的信任指数越高,离第一级网站点击距离就越远,信任指数将依次下降。这样,通过TrustRank算法,就能给所有网站计算出相应的信任指数,离第一层网站越远,成为垃圾网站的可能性就越大。
计算TrustRank值首先要选择一批种子网站,然后人工查看网站,设定一个初始TrustRank值。挑选种子网站有两种方式,一种是选择导出链接最多的网站,因为TrustRank算法就是计算指数随着导出链接的衰减。导出链接多的网站,在某种意义上可以理解为“逆向PR值”比较高。
另一种挑选种子网站的方法是选PR值高的网站,因为PR值越高,在搜索结果页面出现的概率就越大。这些网站才正是TrustRank算法最关注的、需要调整排名的网站。那些PR值很低的页面,在没有TrustRank算法时排名也很靠后,计算TrustRank意义就不大了。
根据测算,挑选出两百个左右网站作为种子,就可以比较精确地计算出所有网站的TrustRank值。
计算TrustRank随链接关系减少的公式有两种方式。一种是随链接次数衰减,也就是说如果第一层页面TrustRank指数是100,第二层页面衰减为90,第三层衰减为80。第二种计算方法是按导出链接数目分配TrustRank值,也就是说,如果一个页面的TrustRank值是100,页面上有5个导出链接,每个链接将传递20%的TrustRank值。衰减和分配这两种计算方法通常综合使用,整体效果都是随着链接层次的增加,TrustRank值逐步降低。
得出网站和页面的TrustRank值后,可以通过两种方式影响排名。一种是把传统排名算法挑选出的多个页面,根据TrustRank值比较,重新做排名调整。另一种是设定一个最低的TrustRank值门槛,只有超过这个门槛的页面,才被认为有足够的质量进入排名,低于门槛的页面将被认为是垃圾页面,从搜索结果中过滤出去。
虽然TrustRank算法最初是作为检测垃圾的方法,但在现在的搜索引擎排名算法中,TrustRank概念使用更为广泛,常常影响大部分网站的整体排名。TrustRank算法最初针对的是页面级别,现在在搜索引擎算法中,TrustRank值也通常表现在域名级别,整个域名的信任指数越高,整体排名能力就越强。
Google PR
Google PR
分享到:
sina qzone renren kaixing douban msn email
PR是PageRank的缩写。Google PR理论是所有基于链接的搜索引擎理论中最有名的。SEO人员可能不清楚本节介绍的其他链接理论,但不可能不知道PR。
PR是Google创始人之一拉里佩奇发明的,用于表示页面重要性的概念。用最简单的话说就是,反向链接越多的页面就是越重要的页面,因此PR值也就越高。
Google PR有点类似于科技文献中互相引用的概念,被其他文献引用较多的文献,很可能是比较重要的文献。
1.PR的概念和计算
我们可以把互联网理解为由结点及链接组成的有向图,页面就是一个个结点,页面之间的有向链接传递着页面的重要性。一个链接传递的PR值决定于导入链接所在页面的PR值,发出链接的页面本身PR值越高,所能传递出去的PR也越高。传递的PR数值也取决于页面上的导出链接数目。对于给定PR值的页面来说,假设能传递到下级页面100份PR,页面上有10个导出链接,每个链接能传递10份PR,页面上有20个导出链接的话,每个链接只能传递5份PR。所以一个页面的PR值取决于导入链接总数,发出链接页面的PR值,以及发出链接页面上的导出链接数目。
PR值计算公式是
PR(A) = (1-d) + d(PR(t1)/C(t1) + … + PR(tn)/C(tn))
· A代表页面A。
· PR(A)则代表页面A的PR值。
· d为阻尼指数。通常认为d=0.85。
· t1...tn代表链接向页面A的页面t1到tn。
· C代表页面上的导出链接数目。C(t1)即为页面t1上的导出链接数目。
从概念及计算公式都可以看到,计算PR值必须使用迭代计算。页面A的PR值取决于链接向A的页面t1至tn页面的PR值,而t1至tn页面的PR值又取决于其他页面的PR值,其中很可能还包含页面A。所以PR需要多次迭代才能得到。计算时先给所有页面设定一个初始值,经过一定次数的迭代计算后,各个页面的PR值将趋于稳定。研究证明,无论初始值怎么选取,经过迭代计算的最终PR值不会受到影响。
对阻尼系数做个简要说明。考虑如图2-29所示这样一个循环(实际网络上是一定存在这种循环的)。
外部页面Y向循环注入PR值,循环中的页面不停迭代传递PR,如果没有阻尼系数,循环中的页面PR将达到无穷大。引入阻尼系数,使PR在传递时自然衰减,才能将PR计算稳定在一个值上。
2.PR的两个比喻模型
关于PR有两个著名的比喻。一个比喻是投票。链接就像民主投票一样,A页面链接到B页面,就意味着A页面对B页面投了一票,使得B页面的重要性提高。同时,A页面本身的PR值决定了A所能投出去的投票力,PR值越高的页面,投出的票也更重要。在这个意义上,传统基于关键词匹配的算法是看页面自己说页面内容是什么,基于链接的PR则是看别人怎么评价一个页面。
第二个比喻是随机冲浪比喻。假设一个访问者从一个页面开始,不停地随机点击链接,访问下一个页面。有时候这个用户感到无聊了,不再点击链接,就随机跳到了另外一个网址,再次开始不停地向下点击。所谓PR值,也就是一个页面在这种随机冲浪访问中被访问到的概率。一个页面导入链接越多,被访问到的概率也越高,因此PR值也越高。
阻尼系数也与随机冲浪模型有关。(1-d)=0.15实际上就是用户感到无聊,停止点击,随机跳到新URL的概率。
Hilltop算法
Hilltop算法是由Krishna Baharat在2000年左右所研究的,于2001年申请了专利,并且把专利授权给Google使用,后来Krishna Baharat本人也加入了Google。
Hilltop算法可以简单理解为与主题相关的PR值。传统PR值与特定关键词或主题没有关联,只计算链接关系。这就有可能出现某种漏洞。比如一个PR值极高的关于环保内容的大学页面,上面有一个链接连向一个儿童用品网站,这个链接出现的原因可能仅仅是因为这个大学页面维护人是个教授,他太太在那个卖儿童用品的公司工作。这种与主题无关、却有着极高PR值的链接,有可能使一些网站获得很好的排名,但其实相关性并不高。
Hilltop算法就尝试矫正这种可能出现的疏漏。Hilltop算法同样是计算链接关系,不过它更关注来自主题相关页面的链接权重。在Hilltop算法中把这种主题相关页面称为专家文件。显然,针对不同主题或搜索词有不同的专家文件。
根据Hilltop算法,用户搜索关键词后,Google先按正常排名算法找到一系列相关页面并排名,然后计算这些页面有多少来自专家文件的、与主题相关的链接,来自专家文件的链接越多,页面的排名分值越高。按Hilltop算法的最初构想,一个页面至少要有两个来自专家文件的链接,才能返回一定的Hilltop值,不然返回的Hilltop值将为零。
根据专家文件链接计算的分值被称为LocalRank。排名程序根据LocalRank值,对原本传统排名算法计算的排名做重新调整,给出最后排名。这就是前面讨论的搜索引擎排名阶段最后的过滤和调整步骤。
Hilltop算法最初写论文和申请专利时对专家文件的选择有不同描述。在最初的研究中,Krishna Baharat把专家文件定义为包含特定主题内容,并且有比较多导出链接到第三方网站的页面,这有点类似于HITS算法中的枢纽页面。专家文件链接指向的页面与专家文件本身应该没有关联,这种关联指的是来自同一个主域名下的子域名,来自相同或相似IP地址的页面等。最常见的专家文件经常来自于学校、政府及行业组织网站。
在最初的Hilltop算法中,专家文件是预先挑选的。搜索引擎可以根据最常见的搜索词,预先计算出一套专家文件,用户搜索时,排名算法从事先计算的专家文件集合中选出与搜索词相关的专家文件子集,再从这个子集中的链接计算LocalRank值。
不过在2001年所申请的专利中,Krishna Baharat描述了另外一个挑选专家文件的方法,专家文件并不预先选择,用户搜索特定查询词后,搜索引擎按传统算法挑出一系列初始相关页面,这些页面就是专家文件。Hilltop算法在这个页面集合中再次计算哪些网页有来自于集合中其他页面的链接,赋予比较高的LocalRank值。由于传统算法得到的页面集合已经具备了相关性,这些页面再提供链接给某一个特定页面,这些链接的权重自然应该很高。这种挑选专家文件的方法是实时进行的。
通常认为Hilltop算法对2003年底的佛罗里达更新有重大影响,不过Hilltop算法是否真的已经被融入进Google排名算法中,没有人能够确定。Google从来没有承认、也没有否认自己的排名算法中是否使用了某项专利。不过从排名结果观察及招揽Krishna Baharat至麾下等迹象看,Hilltop算法的思想得到了Google的极大重视。
Hilltop算法提示SEO,建设外部链接时更应该关注主题相关的网站。最简单的方法是搜索某个关键词,目前排在前面的页面就是最好的链接来源,甚至可能一个来自竞争对手网站的链接效果是最好的。当然,获得这样的链接难度最大。
中文搜索结果页面
2007年4月,enquiro.com做了google.cn及百度搜索结果页面实验。参加实验的是50个18~25岁的中国留学生,这些留学生来到美国不超过几个星期,正在就读语言培训班,所以其浏览习惯大体上还与主流中文用户相同,没有受英文用户浏览习惯太大的影响。这次实验的结果如图2-35所示。
可以明显看出,相对于英文Google上比较规则的F型分布,中文用户在google.cn上的浏览更具随机性。虽然大体上还是呈现最上面的页面关注时间比较多,越往下越少,但是中文用户并不像英文用户那样垂直向下浏览结果,看到感兴趣的结果则向右方移动目光,阅读页面标题或说明。中文用户的目光更多地像是横向随机跳动,点击也是比较随机的,目光及点击分布都更广。
如果说用户在google.cn上还大致符合越上面的页面关注越多的规律,在百度上则连在垂直方向也呈现更多随机特性,用户目光从上向下并没有显现出关注时间的急剧下降,百度用户不仅浏览页面上部结果,也在页面下部的结果上花了不少时间。在页面底部的相关搜索上,更是呈现出聚集目光和点击的情况。
按照英文用户搜索引擎结果浏览习惯分析,中文用户无论在Google还是百度上,似乎都花了更长时间才能找到自己想要的结果。英文用户在 Google上平均8~10s就找到想要的结果,而中文用户在google.cn上则需要花30s,在百度上要花55s。这一方面说明中文搜索比英文搜索结果准确度低,另外也很可能是因为语言方面的差异。中文句子里的词都是连在一起的,用户必须花多一点时间真正阅读标题,才能了解列出的结果是否符合自己的要求。而英文单词之间有空格分隔,更利于浏览,用户很容易在一瞥之下就能看到自己搜索的关键词。
在百度上满天星似的浏览也可能与百度广告和自然结果都放在左侧、又没有背景颜色区分有关,一些用户会很自然地跳过广告,去查看排在后面的结果。
目前还没有见到中文搜索结果页面的点击数据统计。显然,前面介绍的点击数据不适用于中文搜索结果页面,尤其不适用于百度。可以想象,中文搜索结果点击率没有英文那样急剧下降的趋势,排在第五六位与排在第一位不会相差10倍之多。预估中文关键词流量时,不能照搬英文点击数据,而要更多地依靠自己网站的点击数据。
综合使用高级搜索指令
前面介绍的几个高级搜索指令,单独使用可以找到不少资源,或者可以更精确地定位竞争对手。把这些指令混合起来使用则更强大。
比如下面这个指令:
inurl:gov 减肥
返回的就是URL中包含“gov”,页面中有“减肥”这个词的页面。很多SEO人员认为政府和学校网站有比较高的权重,找到相关的政府和学校网站,就找到了最好的链接资源。
下面这个指令返回的是来自.edu.cn,也就是学校域名上的包含“交换链接”这个词的页面:
inurl:.edu.cn 交换链接
从中SEO人员可以找到愿意交换链接的学校网站。
或者使用一个更精确的搜索:
inurl:.edu.cn intitle:交换链接
返回的则是来自edu.cn域名,标题中包含“交换链接”这四个字的页面,返回的结果大部分应该是愿意交换链接的学校网站。
再比如下面这个指令:
inurl:edu.cn/forum/*register
返回的结果是在.edu.cn域名上,url中包含“forum”以及“register”这两个单词的页面,也就是学校论坛的注册页面。找到这些论坛,也就找到了能在高权重域名上留下签名的很多机会。
下面这个指令返回的是页面与减肥有关,URL中包含“links”这个单词的页面:
减肥 inurl:links
很多站长把交换链接页面命名为links.html等,所以这个指令返回的就是与减肥主题相关的交换链接页面。
下面这个指令返回的是URL中包含“gov.cn”以及“links”的页面,也就是政府域名上的交换链接页面:
allinurl:gov.cn+links
最后一个例子,在雅虎搜索这个指令:
linkdomain:dunsh.org -linkdomain:chinamyhosting.com
返回的是链接到点石网站,却没有链接到我的博客的网站。使用这个指令可以找到很多链向你的竞争对手或其他同行业网站、却没链向你的网站的页面,这些网站是最好的链接资源。
高级搜索指令组合使用变化多端,功能强大。一个合格的SEO必须熟练掌握这几个常用指令的意义及组合方法,才能更有效地找到更多竞争对手和链接资源。
竞争研究
初做网站的人很容易犯的最大错误之一是,脑袋一拍就贸然进入某个领域,跳过竞争研究,没规划好目标关键词就开始做网站。这样做常常导致两个结果,一是自己想做的关键词排名怎么也上不去,二是自己认为不错的关键词排名到了第一也没什么流量。
进行竞争研究,确定适当的关键词是SEO的第一步,而且是必不可少的一步。竞争研究包括关键词研究、竞争对手研究及现有网站评估诊断,其中关键词研究是最重要的。
确保目标关键词有人搜索
网站核心关键词不能想当然,必须经过关键词研究才能确保这个关键词确实有网民在搜索,没人搜索的词没有任何价值。
对SEO没概念的人决定目标关键词时常常会首先想到公司名称或自己的产品名称。但是当企业或网站没有品牌知名度时,没有用户会搜索公司名或网站名。产品名称如果不包含产品的通用名称,也往往没人搜索。
很多时候即使使用行业最通用的名字,也不一定有足够的真实搜索次数。最典型的就是“SEO”这个词本身。百度指数显示“SEO”每天被搜索两三千次以上,首先这与很多其他真正用户在搜索的词相比,已经属于比较低的。其次,搜索“SEO”的人很多是站长在研究记录“SEO”这个词排名的新动向,而不是对SEO服务感兴趣。
要确定适当的关键词,首先要做的是,确认用户搜索次数达到一定数量级。在这方面做出错误的方向选择,对网站的影响将会是灾难性的。
3.1.2 降低优化难度
找到有搜索量的关键词,不意味着就要把目标定在最热门、搜索次数最多的词上。虽然搜索“新闻”、“律师”、“租房”、“机票”、“减肥”、“旅游”、“化妆品”等这些词的用户很多,但是对中小企业和个人站长来说,要把这些词做到前几位,难度非常高。可以说没有强大的资源、人力支持,想都不用想。做关键词研究就是要找到被搜索次数比较多,同时难度不太大的关键词,网站优化才有可能在一定的预算、周期下取得较好效果。
3.1.3 寻找有效流量
排名和流量都不是目的,有效流量带来的转化才是目的。就算公司有足够的实力将一些非常热门的关键词排到前面,也不一定是投入产出比最好的选择。
假设网站提供律师服务,将核心关键词定为“律师”,一般来说并不是好的选择,因为搜索“律师”的用户动机和目的是什么很难判定。用户有可能是在寻找律师服务,但也可能是在寻找律师资格考试内容,也可能是在找大学专业报考指导,这样的用户来到提供律师服务的网站就没有什么机会转化为付费客户。
如果把核心关键词定为“北京律师”针对性就要强得多,用户已经透露出一定的购买意向。再进一步,如果目标关键词定为“北京刑事律师”,则购买意向或者说商业价值更高,几乎可以肯定这个用户是在寻找特定区域、特定案件的律师服务,这样的搜索用户来到你的网站,转化为客户的可能性将大大提高。
记住,流量本身并不一定是资产,很可能是浪费带宽、客服的无谓付出,只有能转化的有效流量才是资产。
关键词的选择
选择恰当的关键词是SEO最具技巧性的环节之一。只有选择正确的关键词,才能使网站SEO走在正确的大方向上。确定什么样的关键词决定了网站内容规划、链接结构、外部链接建设等重要后续步骤。
在介绍选择关键词步骤前,我们先讨论选择关键词的原则。
3.2.1 内容相关
目标关键词必须与网站内容有相关性。SEO早期曾经流行在页面上设置甚至堆积搜索次数多但与本网站没有实际相关性的关键词,也曾经起到很好的作用,能带来不少流量。现在这样的做法早已过时。网站需要的不仅仅是流量,更是有效流量,可以带来订单的流量。靠欺骗性的关键词带来访客却不能完成转化,对网站毫无意义。这样的排名和流量不是资产,而是负担,除了消耗带宽,没有其他作用。
如果你的网站想卖“上海律师服务”或者“特效减肥茶”,就不要想着靠“世博会”或“刘德华”这种关键词带来流量。抛开难度和可能性不谈,就算搜索这种不相关关键词的访客来到网站,也不会买你的产品或服务。
当然,这不一定适用于某些网站,比如新闻门户或纯粹依靠广告赢利的信息类网站。很多门户类网站包罗万象,内容相关性判断也比较模糊。对这些网站来说,只要有流量,就有一定的价值,网站并不依靠本身的转化赢利。
3.2.2 搜索次数多,竞争小
很显然,最好的关键词是搜索次数最多、竞争程度最小的那些词,这样既保证SEO代价最低,又保证流量最大。可惜现实不是这么理想的。大部分搜索次数多的关键词,也是竞争大的关键词。不过,通过大量细致的关键词挖掘、扩展,列出搜索次数及竞争程度数据,还是可以找到搜索次数相对多,竞争相对小的关键词。
研究搜索次数比较直接、简单,Google关键词工具及百度指数都提供搜索次数数据,详情请参考SEO工具相应章节。
竞争程度的确定比较复杂,需要参考的数据较多,而且带有比较大的不确定性。这部分请参考下面关键词竞争程度判断一节。
根据搜索次数和竞争程度可以大致判断出关键词效能。在相同投入的情况下,关键词效能高的词获得好排名的可能性较高,可以带来更多流量。
3.2.3 主关键词不可太宽泛
这实际上是上面两点的自然推论。关键词宽泛,竞争太大,所花代价太高,搜索词意图不明确,转化率也将降低。做房地产的公司,想当然地把“房地产”作为目标关键词,做旅游的公司就把“旅游”作为目标关键词,这都犯了主关键词过于宽泛的毛病。
一般行业通称都是过于宽泛的词,如“新闻”、“旅行”之类。把目标定在这种宽泛的词上,要么做不上去,要么费了九牛二虎之力做上去却发现转化率很低,得不偿失。
3.2.4 主关键词也不可太特殊
选择主关键词也不能走向另外一个极端。太特殊太长的词,搜索次数将大大降低,甚至没有人搜索,不能作为网站主关键词。
如果说“律师”这个词太宽泛,那么选择“北京律师”比较适当。根据不同公司业务范围,可能“北京刑事律师”更合适。但是如果选择“北京新街口律师”就不靠谱了。这种已经属于长尾的关键词可以考虑以内页优化,放在网站首页肯定不合适。
太特殊的关键词还包括公司名称、品牌名称、产品名称等。
所以网站主关键词,或者称为网站核心关键词,既不能太长、太宽泛,也不能太短、太特殊,需要找到一个平衡点。
3.2.5 商业价值
不同的关键词有不同的商业价值,就算长度相同,也会导致不同的转化率。
比如搜索“液晶电视原理”的用户购买意图就比较低,商业价值也低,他们很可能是在做研究,学习液晶电视知识而已。而搜索“液晶电视图片”的用户商业价值有所提高,很可能是在寻找、购买液晶电视的过程中想看看产品实物是什么样。搜索“液晶电视价格”,购买意图大大提高,已经进入产品比较选择阶段。而搜索“液晶电视促销”或“液晶电视购买”,其商业价值进一步提高,一个大减价信息就可能促成用户做出最后的购买决定。
在做关键词研究时,SEO人员可以通过各种方式查询到大量搜索词,通过常识就能判断出不同词的购买可能性。购买意图强烈、商业价值较高的关键词应该是优化时最先考虑的,无论内容规划,还是内部链接安排,都要予以侧重。
竞价结果数
搜索结果页面右侧以及最上和最下面有多少个广告结果,也是衡量竞争程度的指标之一。
一般来说广告商内部有专业人员做关键词研究和广告投放,他们必然已经做了详细的竞争程度分析及赢利分析,只有能产生效果和赢利的关键词,他们才会去投放广告。如果说搜索结果数还只是网上内容数量带来的竞争,竞价数则是拿着真金白银与你竞争的真实存在的竞争对手数目。
搜索结果页面右侧广告最多显示8个,比较有商业价值的关键词,通常都会显示满8个广告结果。如果某个关键词搜索页面右侧只有两三个广告,说明关注这个词的网站还比较少,竞争较低。
要注意的是,竞价数需要在白天工作时间查看。广告商投放竞价广告时,经常会设置为晚上停止广告。对于经常晚上工作的SEO人员来说,如果半夜查看搜索结果页面,没看到几个广告商,就认为没有多少人参与竞价,很可能导致误判。
3.3.4 竞价价格
几大搜索引擎都提供工具,让广告商投放前就能看到某个关键词的大致价格,能排到第几位,以及能带来多少点击流量。如Google的关键词流量估算工具:
显然,竞价价格越高,竞争程度也越高。当然也不能排除两三个广告商为了争抢广告位第一名而掀起价格战,把本来竞争程度不太高的关键词推到很高价格。实际上如果广告商只想出现在第四、第五位的话,竞价价格大幅下降,参与竞价的广告商人数也没有那么多。
另外,某些利润率高的行业,搜索竞价经常超出自然排名真正竞争程度,比如律师服务、特效药品。这些行业产品及服务的特性决定了一个订单的利润可能是成千上万,企业可以把竞价提到相当高的程度,甚至一个点击几十元钱也不罕见。而销售书籍、服装、化妆品等,利润不很高,竞价价格也不可能太高。广告价格的巨大差异,并不能说明自然搜索竞争程度真的有这么大差别。
各种形式的变体
1.同义词
假设核心关键词是酒店,与酒店基本同义的还有饭店、旅馆、住宿、旅店、宾馆等。再如网站推广、网络推广、网络营销意义也很相近。
2.相关词
虽然不同义,作用却非常类似的词。如网站建设、网页设计、网络营销与SEO非常相关,目标客户群也大致相同。
3.简写
Google PR与Google PageRank,北京大学与北大。
4.错字
还有一类变体是错字。如艾滋病与爱滋病,SEO每天一贴与SEO每天一帖,点石与电石。有不少用户使用拼音输入法经常会输入错字、同音字,所以有一些搜索量。但是优化错别字就不可避免地要在页面中出现这些错别字,可能会给网站用户带来负面观感,使用时需要非常小心。
3.5.6 补充说明文字
核心关键词可以加上各种形式的补充说明。
1.地名
有的核心关键词配合地名很明显,如:
· 旅游——云南旅游,海南旅游,北京旅游。
· 酒店——上海酒店,南京酒店。
有的关键词看似与地理位置无关,却有不少用户会加上地名搜索,如:
· 北京办公家具,上海办公家具,广州办公家具。
· 上海鲜花,深圳鲜花。
哪种核心关键词配合地名有搜索量,需要查看搜索引擎关键词工具。有的关键词就完全没有人加上地名搜索,如减肥。
2.品牌
核心关键词加上品牌名称也很常见,如:
· 电视机——康佳电视机,索尼电视机。
· 手机——诺基亚手机,摩托罗拉手机,索爱手机。
3.限定和形容词
比如:
· 主机——免费主机,免费服务器。
· 电视机——电视机价格,电视机促销。
· 京东商城——京东商城官方网站。
上面提到的免费、促销、价格、官方网站这些附加限定词都很常见。便宜、怎样、是什么、好吗、评测、图片等也都是常见限定词。
网站流量分析
查看网站现有流量,用户都使用什么关键词搜索来到网站?经常能看到一些站长自己并没有想到的关键词。用户之所以能搜索这些关键词找到网站,说明搜索引擎认为你的网站与这种关键词有比较高的相关性。把这些关键词输入到Google工具,生成更多相关词,也是一个很好的关键词扩展方式。
单词交叉组合
上面提到的核心关键词、同义词、近义词、相关词、简写、地名品牌限定词等,放在一起又可以交叉组合出很多变化形式。如北京办公家具价格、京东商城电视机促销、诺基亚手机评价、云南旅游攻略等。
如果前面已经找到几百个关键词,交叉组合起来很容易生成数千个扩展关键词。这些比较长的组合起来的关键词可能搜索次数并不多,但数量庞大,累计起来能带来的流量潜力可观。
关键词分布
经过核心关键词确定与关键词扩展,应该已经得到一个至少包含几百个相关关键词的大列表。这些关键词需要合理分布在整个网站上。
优化多个关键词是很多初学SEO的人感到迷惑的问题。显然不可能把这么多关键词都放在首页上,否则页面内容撰写、链接建设、内部链接及锚文字的安排都将无所适从。
3.6.1 金字塔形结构
一个比较合理的整站关键词布局类似于金字塔形式。
核心关键词位于塔尖,只有两三个,使用首页优化。
次一级关键词相当于塔身部分,可能有几十个,放在一级分类(或频道、栏目)首页。意义最相关的两三个关键词放在一起,成为一个一级分类的目标关键词。
再次一级则放置于二级分类首页。同样,每个分类首页针对两三个关键词,整个网站在这一级的目标关键词将达到几百上千个。小型网站经常用不到二级分类。
更多的长尾关键词处于塔底,放在具体产品(或文章、新闻、帖子)页面。
关键词分组
得到关键词扩展列表后,重要的一步是将这些关键词有逻辑性地分组,每一组关键词针对一个分类。
举个例子。假设核心关键词确定为云南旅游,次级关键词可能包括昆明旅游、丽江旅游、大理旅游、西双版纳旅游、香格里拉旅游、临沧旅游等,这些词放在一级分类首页。
每个一级分类下,还可以再分二级。如大理旅游下又可以设置大理旅游景点、大理旅游地图、大理旅游攻略、大理美食、大理旅游交通、大理旅游自由行等,这些关键词放在二级分类首页。
再往下,凡属于大理地区内的景点介绍文章,则放在大理旅游景点二级分类下的文章页面。
这样,整个网站将形成一个很有逻辑的结构,不仅用户浏览起来方便,搜索引擎也能更好地理解各个分类与页面的内容关系。
有的行业并不像旅游一样有地区这种明显的划分标准,所以关键词分组的逻辑性并不直接明显。比如“减肥”这种词,就需要在进行关键词扩展时按行业常识将关键词分成多个组别。
经过关键词扩展得到大关键词列表后,按搜索次数排序,整体观察这些关键词可以从逻辑意义上分为几种,如图3-15所示。
减肥类关键词大致可以分为饮食减肥、减肥方法、局部减肥、快速减肥、运动减肥等一级分类。
然后将所有关键词按上述分类分组,放在不同表内,如图3-16所示。
可以看到,凡是和局部减肥有关的词就放在局部减肥表内,饮食减肥,快速减肥等有关词同样处理。
从一级分类列表里可以看出又能分为哪些二级分类,如局部减肥可以分为腹部减肥、大腿减肥、脸部减肥等。使用Excel将关键词合并、排序、分组后,整个网站的关键词金字塔结构就清晰地展现出来了。
长尾关键词
长尾理论是著名的《连线》杂志主编Chris Anderson在2004年开始在《连线》杂志发表的系列文章以及后来出版的《长尾》这本书中具体阐述的。Chris Anderson研究了亚马逊书店、Google以及网上录像带出租网站Netflix等的消费数据,得出长尾理论。
3.7.1 长尾理论
所谓长尾理论,是指当商品储存、流通、展示的场地和渠道足够宽广,商品生产成本急剧下降以至于个人都可以进行生产,并且商品的销售成本急剧降低时,几乎任何以前看似需求极低的产品,只要有人卖,都会有人买。这些需求和销量不高的产品所占的市场份额总和,可以和少数主流产品的市场份额相比,甚至更大。
在传统媒体领域,大众每天接触的都是经过主流媒体(如电视台、电台、报纸)所挑选出来的产品,诸如各个电台每个月评选的十大畅销金曲,每个月票房最高的电影。图书市场也如此,权威的报纸杂志经常推出最畅销书名单。大众消费者无论自身品味差距有多大,在现实中都不得不处在主流媒体的狂轰滥炸之下,使得消费不得不趋向统一,所有的人都看相同的电影、书籍,听相同的音乐。
互联网及电子商务改变了这种情况。实体商店再大,也只能容下一万本左右的书籍。但亚马逊书店及Netflix这样的录像带出租网站,其销售场所完全不受物理空间限制。在亚马逊书店,网站本身只是一个巨大的数据库,网站能提供的书籍可以毫无困难地扩张到几万,几十万,几百万。
有各种各样奇怪爱好的消费者都可以在网上找到自己喜爱的书籍、唱片。网上书店可以出售非常另类、没有广泛需求的书,可以一年只卖出一本罕见的书给一个消费者,营销成本并不显著增加。实体商店就无法做到这一点,不可能为了照顾那些有另类爱好的人,而特意把一年只卖一本的书放在店面里。实体商店货架展示成本是非常高的。
根据Chris Anderson对亚马逊书店、Netflix网站及Google的研究,这种另类的、单个销售量极小的产品种类庞大,其销售总数并不少于流行排行榜中的热门产品。这类网站典型销售数字曲线如图3-17所示,也就是著名的长尾示意图。
横坐标是产品受欢迎程度,纵坐标是相应的销售数字。可以看到,最受欢迎的一部分产品,也就是左侧所谓的“头”,种类不多,单个销量都很大。“长尾”指的是右侧种类数量巨大,但单个产品需求和销售都很小的那部分。长尾可以延长到近乎无穷。虽然长尾部分每个产品销量不多,但因为长尾很长,总的销量及利润与头部可以媲美。这就是只有在互联网上才能实现的长尾效应。
搜索长尾
在SEO领域,较长的、比较具体的、搜索次数比较低的词就是长尾关键词。单个长尾词搜索次数小,但总体数量庞大,加起来的总搜索次数不比热门关键词搜索次数少,是流量金矿。另一个SEO人员关注长尾词的重要原因是,长尾词竞争小,使大规模排名提高成为可能。
搜索领域是长尾理论最明显的体现,因为渠道足够宽,每个网民的电脑都是渠道;送货、生产成本低,搜索引擎返回每一个关键词结果的成本几乎可以忽略不计;用户需求足够多元化,搜什么的都有。
搜索引擎工程师确认过,被搜索的关键词中有很大一部分搜索量很小,但总体数量庞大。甚至有的搜索词以前从来没有出现过,以后也再没有出现过,只被一个用户搜索过一次。
在长尾这个词被发明以前,SEO行业早就确立了同样的关键词原则,只不过没有长尾关键词这个名词而已。长尾理论被提出以后,最先经常使用的就是SEO行业,因为这个词非常形象贴切地说明了大家一直以来已经在遵循的关键词选择原则。
很多站长从流量统计中也可以明显看到长尾现象。主要热门关键词就算排名不错,带来的流量也经常比不过数量庞大的长尾关键词。可以说,长尾关键词是大中型网站的流量主力。大部分大型网站长尾流量应该占到一半以上,达到百分之七八十以上也不罕见。所以做好长尾是增加流量的关键之一。
长尾效应在小网站上较难发挥力量。大型网站主要关键词就算每天能带来几千访问量,与网站的几万甚至几十万日流量相比,还是个小小的零头。真正带来大量流量的,还是那几十万的长尾网页。小网站没有大量页面做基础,也无法有效吸引长尾搜索。
3.7.3 怎样做长尾关键词
做好长尾既简单又困难。说它简单是因为,一般来说不需要也无法做深入关键词研究,也不需要刻意优化特定长尾关键词。由于数量庞大,去查看搜索次数、专门调整页面优化都是不可行的,只能通过大量有效内容及网站结构方面的优化确保页面收录。只要页面基本优化做好,长尾关键词排名就能全面提高。
有的站长在论坛中询问,怎样做长尾关键词的研究?其实这很难研究。一个网站做几百几千个关键词的研究有可行性,但这个数量算不上是长尾词。真正体现长尾效应的网站至少要几万个页面,达到几十万数百万也只是普通的。长尾关键词数量至少上万。大致列出这些关键词,通过软件查询搜索次数或百度指数是可行的,但再进一步研究,如估计竞争程度、分配具体页面等,可行性及必要性大大降低。
所以做好长尾词的关键在于收录和页面基本优化,这两方面都是网站整体优化时必须要做的。不必考虑特定关键词,但结果是长尾词会全面上升。
说它难在于,做好长尾首先要有大量内容,对中小企业和个人站长来说,除了转载、采集,似乎没有更好的方法,除非网站是用户产生内容。
网站基本优化,尤其是内部链接结构,必须过关,才能保证大量包含长尾关键词的页面被收录。对一些大型网站来说,保证收录并不是一件简单的事。
要提高长尾词的排名,域名权重也是个因素。网上相同或相似内容很多,域名权重低,页面排名必然靠后。
所以长尾理论是SEO人员必须理解和关注的概念,但是要真正显示长尾关键词效果,却不能从关键词本身出发,而是从网站架构、内容及整体权重上着力。
预估流量及价值
正规公司关键词研究的最后一步是预估搜索流量及价值。
个人站长做关键词研究不一定需要这一步。找到最合适的关键词就可以直接去做,尽力能做多少就做多少。但正规公司,尤其是大公司则不行。整个SEO项目是否能获得批准,能否获得公司高层支持,申请预算、安排人员、工作流程及时间表等,都需要SEO人员提供明确的预计搜索流量及给公司带来的价值。
3.9.1 确定目标排名
要预估搜索流量,首先需要根据前面得到的关键词竞争指数及公司本身的人员、资金投入,预计网站关键词可以获得什么样的排名。
前面做了关键词研究的所有核心关键词及扩展关键词都应该有预计排名位置。当然,这种预计与个人经验、团队决心有很大关系,与最后的实际结果不可能完全吻合,完全符合预计只是巧合而已。这也是预估流量不可能很精确的第一个原因。
由于种种原因,项目执行下来能够达到预计排名的比例不可能是百分之百,只可能实现其中一部分关键词排名。所以在预估流量时不能按照所有目标关键词都达到预期排名计算,只要能完成30%~50%就已经不错了。好在网站通常还会获得一些没有研究过的关键词排名,使误差减小。