爬行与抓取:数据收集的基石
搜索引擎通过爬虫机器人(如百度Baiduspider、谷歌Googlebot)系统性地采集网页。这些程序基于预设规则跟踪链接,访问页面并提取HTML代码存入原始数据库。
核心爬行策略
1. 深度优先搜索
2. 广度优先搜索
爬行优先级影响因素
地址库管理
搜索引擎建立动态地址库以规避重复操作,包含:
文件存储与初筛
抓取的HTML以唯一ID存入原始数据库。部分引擎(如百度)在爬行阶段即启动初级内容去重,对低权重站点的批量转载内容直接停止爬行。
预处理:数据标准化与索引准备
原始页面需经多步骤处理

1. 文本提取与结构化
剔除HTML标签、脚本等非文本噪声,保留:
> 例:`
2. 中文分词技术
中文需额外切分连续字符为语义单元,主流方法:
| 方法 | 原理 | 特点 |
| 词典匹配 | 与预设词库比对切分 | 依赖词典完整性(如百度词库) |
| 统计模型 | 分析字间共现概率 | 自适应新词(如网络热词) |
> 引擎差异:百度更倾向长词匹配(如"搜索引擎优化"视为整体),谷歌则细碎切分(如"搜索引擎"+"优化")。
3. 去噪与去重优化
4. 索引体系构建
记录页面→关键词的映射,存储词频、位置(标题/H标签等)、格式权重。
转换为关键词→页面集合,加速查询(如搜索"SEO"直接锁定相关页)。
5. 链接关系计算
分析页面间链接指向,量化:
6. 非HTML文件处理
支持文本型文件(PDF/Word等)的解析,但图片、视频内容仍依赖关联文本描述。
排名:实时响应与结果生成
用户查询触发以下流程:
1. 关键词解析:对搜索词分词并匹配倒排索引条目;
2. 相关性计算:综合词频、位置权重、链接权威值等百余因子;
3. 结果生成:毫秒级返回排序后的页面摘要。
> 技术要点: