第二章 了解搜索引擎
2017-01-09 16:38:58 0 举报
AI智能生成
了解搜索引擎
作者其他创作
大纲/内容
2.1搜索引擎与目录
搜索引擎:蜘蛛的爬行、页面的收录及排序都是自动处理
网站目录:是一套人工编辑的目录,对建设外链有很大意义
2.2搜索引擎面对的挑战
1、页面抓取需要快而全
2、海量数据存储
3、索引处理快速有效,具有可扩展性
4、查询处理快速准确
5、判断用户意图及人工智能
2.3搜索结果显示格式
1、搜索结果页面:广告、自然搜索结果、相关搜索
2、经典搜索结果列表
第一行是页面标题,通常取自页面HTML代码中的标题标签(Title Tag)
第二三行是页面说明,有时取自说明标签(Description tag)有时从可见文字中动态抓取
第四行,网址、数据库中页面最后更新的日期、百度快照链接
3、整合搜索结果
新闻、博客、图片、视频等
4、缩进列表
同一网站的不同页面并排,第二位向右缩进三个字节的空间
5、全站链接
权重较高的网站,且这个网站结果是最权威的内容来源时,还将显示“内页链接”
6、迷你全站链接
同上,但仅单独显示一行“内页链接”
7、one-box
某些关键词会触发,直接在搜索结果页面上显示相关信息(如股票)
8、富摘要
某些使用RDFA或Marcodata标签格式的页面,会在标题下面以灰色文字显示一行富摘要
9、面包屑导航
原本显示为一个网址的地方,还显示分类链接且都指向网站上相应的分类页面
10、说明文字中的链接
说明文字中显示页面内锚链接
2.4搜索引擎工作原理简介
搜索引擎工作过程大体分为三个阶段
(1)爬行和抓取
(2)预处理
(3)排名
1、爬行和抓取
(1)蜘蛛:用来爬行和访问页面的程序(先访问robots.txt)
(2)跟踪链接
深度优先(网站内页);广度优先(爬行尽量多的网站))
(3)吸引蜘蛛
a、网站和页面权重
b、页面更新度
c、导入链接
d、与首页点击距离
(4)地址库
待访问(已发现未抓取);已访问(已抓取)
(5)文件存储
每一个URL都有一个独特的文件编号
(6)爬行时的复制内容检测
检测并删除内容通常在预处理中进行
2、预处理(索引)
(1)提取文字
以文字内容为基础,去除HTML标签、javascript程序等无法排名内容
(2)中文分词
分词是搜索引擎特有的步骤:基于词典匹配;基于统计
(3)去停止词
“的,地”等助词、“啊”等感叹词、“然而”等副词或介词
(4)消除噪声
根据HTML标签对页面分块,大量重复出现的区块往往属于噪声(如导航)
(5)去重
对页面特征关键词计算指纹
(6)正向索引
搜索引擎索引程序将页面及关键词形成词表结构存储至索引库
(7)倒排索引
每个关键词对应一系列文件
(8)链接关系计算
网站和链接的页面权重,谷歌PR值是这种关系最主要的表现之一
(9)特殊文件处理
图片、视频、FLASH等非文字内容无法处理,也无法执行脚本和程序
3、排名(直接与用户交互)
(1)搜索词处理
中文分词:与页面分词原理相同
去停止词
指令处理:包括加号、减号等高级搜索指令
拼写错误矫正
整合搜索触发:如明星姓名就经常触发图片和视频内容,热门话题触发资讯
(2)文件匹配
与倒排索引关键词快速匹配
(3)初始子集的选择
用于相关性计算的初始子集页面选择,主要依靠页面权重
(4)计算相关性
对子集中的页面计算关键词相关性
a、关键词常用程度
b、词频及密度(重要度越来越低)
c、关键词位置及形式
d、关键词距离:完全匹配说明与搜索词最相关,距离越近越相关
e、链接分析与页面权重:其中最重要的是锚文字
(5)排名过滤及调整
经过(3)(4)排名已大体确定,之后搜索引擎有过滤算法微调:最主要的过滤就是施加惩罚
(6)排名显示
排名程序调用原始页面的标题标签、说明标签、快照日期等数据显示在上面
(7)搜索缓存
最常见的搜索词存入缓存,不必经过文件匹配和相关性计算
(8)查询与点击日志
对搜索引擎判断搜索引擎质量、调整搜索算法、预期搜索趋势
2.5链接原理
在排名中计入链接因素,与基于关键词的相关性综合使用得到更准确的排名
1、李彦宏超链分析专利
2、HITS算法(超链诱导主题搜索)
(1)枢纽值:枢纽页面本身可能没有多少导入链接,但是有很多导出链接指向权威页面
(2)权威值:权威页面本身可能导出链接不多,但是有很多来自枢纽页面的导入链接
3、TRUSTRANK算法(信任指数)
基于假设:好的网站很少会链接到坏的网站
随链接关系减少的方式有两种:(1)随链接次数衰减(2)按导出链接数目分配trustrank值
4、Google PR值
(1)概念:表示页面重要性,反向链接越多的页面就是越重要的页面
(2)计算:一个页面的PR值(迭代计算)取决于导入链接的总数,发出链接页面的PR值,以及发出链接页面上的导出链接数(大于0.15,没有上线的数字,不间断计算更新)
(3)工具条PR:并不是真实PR值的精确反馈,简化为0-11的整数,几个月计算一次,与反向链接数目呈对数关系
(4)关于PR值得几个误解
a、PR值只与链接有关
b、工具条PR值更新与页面排名变化在时间上没有对应关系
C、名字来源于发明人Page(佩奇)
(5)PR的意义
a、网站收录深度与总页面数
b、更新频率
c、重复内容判定
d、排名初始子集的选择
5、HILLTOP算法
与主题相关的PR值,建设外链时更应该关注主题相关的网站。最简单的方法是搜索某个关键词,目前排在前面的页面就是最好的链接(可能是竞争对手,难度较大)
2.6用户怎样浏览和点击搜索结果
1、金三角分布
2、带有图片的列表往往起到一种分割页面
3、用户更愿意访问熟悉的网站
2.7高级搜索指令
1、双引号:代表完全匹配搜索
2、减号:不包含减号后面的词的页面,减号前必须有空格,减号后没有空格
3、*星号:通配符,代表任何文字,但百度不支持
4、inurl:搜索查询词出现在URL中的页面
5、inanchor:导入链接锚文字中包含搜索词的页面,百度不支持
6、intitle:页面title中包含关键词的页面
7、allintitle:页面标题中包含多组关键词的文件
8、allinurl:类似
9、filetype:搜索特定文件格式,如pdf/doc/xls/ppt等
10、site搜索某个域名下的所有文件
0 条评论
下一页