🔍 SEO 实战入门 · 搜索原理与技术 SEO

Google 搜索的三步流水线:抓取、索引、排序 | SEO 入门

抓取 → 索引 → 排序,缺一不可

三步流水线:抓取 → 索引 → 排序

Google 官方把搜索拆成三个独立阶段

1. 抓取(crawling)——Googlebot 等爬虫沿着链接发现并下载页面(文本、图片、视频)。
2. 索引(indexing)——分析页面内容和关键标签(比如 <title>、图片的 alt),把信息存进「索引」这个巨型数据库。
3. 排序 / 呈现(serving)——用户一搜,Google 从索引里挑出相关结果,按相关性和质量排好序返回。

这三步互相独立、缺一不可。任何一步出问题——抓不到、不被索引、排不进——页面都拿不到自然流量。所以技术 SEO 的本质,就是保障这三步畅通。

🔆把它想成一家图书馆:抓取是采购员满世界搜罗新书运回来,索引是图书管理员给每本书登记造册、编进检索卡片,排序是读者来问「有没有讲做菜的书」时管理员从卡片里挑出最对路的几本推给你。采购不回来、不造册、或者推荐时排在最后一页,结果都一样:没人看得到这本书。

📷 配图位:横向三栏流水线图,从左到右「抓取 Crawling → 索引 Indexing → 排序 Serving」,每栏配一个小图标(爬虫 / 数据库 / 搜索结果列表)

第一步抓取:Google 怎么找到你的页面

很多人以为网上有一份「所有网页的总目录」,Google 照着抄就行。并没有——Google 明确说「没有一个所有网页的中央注册表」。

既然没有总名册,Google 只能主动去发现新页面,途径主要两类:

- 它之前已经访问过的页面;
- 从已知页面里抽取出来的链接(比如一个分类页 / 枢纽页链向了新文章)。

而且 Googlebot 用「算法过程决定抓哪些站、多久抓一次、每个站抓多少页」,还会刻意控制速度,免得把你的服务器压垮——这就是所谓「抓取预算(crawl budget)」的来源。

💡实践启示:内链和外链是被发现的前提。一个没有任何页面链向它的「孤岛页面」,Google 可能永远抓不到,自然也就无从排名。

两个最坑人的误区:收录≠排名,robots.txt≠隐藏

误区一:「提交给 Google / 被收录了就能排名」。 两个连环坑都要破:

- *被处理 ≠ 被索引*——Google 明说「索引不保证,并非每个被处理的页面都会被索引」。低质内容、robots meta 规则、糟糕的站点设计都可能让页面进不了索引。
- *被索引 ≠ 能排名 / 出现*——一个页面可能被索引,却因为内容不相关、质量低或 robots 规则而压根不出现在结果里。

还有一条铁律:Google 不接受付费来把页面排得更靠前,排名由程序完成(自然结果和广告是两码事)。所以 SEO 的功夫在内容的相关性与质量,不在「提交」或买排名。

误区二:「在 robots.txt 里 Disallow 就能让页面从 Google 消失」。 这是错的:

- 被 robots.txt 屏蔽的 URL,如果别处有链接指向它,Google 仍可能发现并索引它,搜索结果里照样会冒出这个 URL。
- 更隐蔽的坑:robots.txt 一屏蔽,爬虫根本读不到页面里的 noindex 标签,于是 noindex 失效,页面反而留在结果里。

要真正让页面不被索引,得用 noindex(meta robots 或 X-Robots-Tag HTTP 头),并且保证这页没有被 robots.txt 屏蔽、爬虫能正常抓到。robots.txt 的正经用途是「避免抓取压垮站点」,不是用来隐藏页面。

⚠️想让页面消失却只在 robots.txt 里 Disallow,等于把门锁了但忘了告诉对方「别登记我」——结果对方进不来读你的「别登记」纸条,反而凭外面听来的地址把你登记上了。要隐藏就用 noindex,且别拿 robots.txt 把这页挡死。

自测 · 学完检查一下

想真正动手做题、记进度、攒连胜?到互动课里练。

Google 搜索被官方拆成哪三个独立阶段(按顺序)?

答案:抓取(crawling)→ 索引(indexing)→ 排序 / 呈现(serving)

Google 官方文档把搜索拆成三个独立阶段:抓取(爬虫沿链接发现并下载页面)、索引(分析内容与关键标签后存入索引数据库)、排序 / 呈现(用户查询时从索引找相关结果按相关性与质量排序)。三步缺一不可,任一步出问题页面都拿不到自然流量。

Google 是怎么发现一个新页面的?

答案:靠之前访问过的页面,以及从已知页面里抽取出来的链接

Google 明确说「没有一个所有网页的中央注册表」,所以它靠两类途径主动发现新页面:之前已经访问过的页面,以及从已知页面里抽取出来的链接。这也是为什么内链 / 外链是被发现的前提,孤岛页面可能永远抓不到。

判断:只要页面被 Google 收录(索引),就一定能在搜索结果里排上名。

答案:错误

错误。被索引 ≠ 能排名 / 出现——一个页面可能被索引,却因为内容不相关、质量低或 robots 规则而压根不出现在结果里。而且在此之前,「被处理」也不等于「被索引」,Google 明说索引并不保证。

判断:只要在 robots.txt 里把某页 Disallow,这个页面就一定不会出现在 Google 搜索结果里。

答案:错误

错误。robots.txt 是「禁抓取」不是「禁索引」——被屏蔽的 URL 如果别处有链接指向它,Google 仍可能发现并索引它,URL 照样出现在结果里。而且屏蔽后爬虫读不到页面里的 noindex 标签,noindex 反而失效。要真正不被索引,得用 noindex 并保证该页没被 robots.txt 挡住。

判断:可以通过向 Google 付费,直接把某个自然搜索结果排得更靠前。

答案:错误

错误。Google 不接受付费来把页面在自然结果里排得更靠前,排名由程序完成(自然结果和广告是两码事)。所以 SEO 的功夫在内容的相关性与质量,而不是「提交」或买排名。

想边练边学,而不只是读?

到互动课里答题、记进度、攒连胜——游客即可试学,无需注册。

进入互动课程 →

Learn something new — don't miss updates

New courses, features and learning tips. Occasional emails, unsubscribe anytime.

Google 搜索的三步流水线 · SEO Foundations · 喵学堂 PurrLearn