|
目录
|
脚本详解:generate-sitemap.ps1Sitemap Protocol 0.9 · changefreq · priority 这个脚本干什么
Sitemap 不保证收录——它只是一个建议。搜索引擎有权忽略某些页面,也有权抓取 sitemap 中没有列出的页面。但提供一个准确、最新的 sitemap 能显著加快新内容的发现速度, 尤其是对新网站和更新不频繁的页面。 Sitemap 协议的三个字段每个 <loc>(必填)—— 页面的完整 URL,包括协议和域名<lastmod> —— 最后修改日期,格式 YYYY-MM-DD。搜索引擎用它来优先抓取最近更新过的页面<changefreq> —— 更新频率提示(daily / weekly / monthly),帮助爬虫分配抓取预算<priority> —— 相对优先级(0.0-1.0)。首页 1.0,博文 0.7,工具页面 0.3-0.5说实话,现代搜索引擎对 扫了哪些页面当前版本扫描了以下内容,生成约 40 个 URL: src/content/blog/ 和 blog/en/ 扫描,自动跳过草稿src/content/page/ 和 page/en/ 扫描archive.html、tags.html、stats.html
为什么静态生成而不是动态有些网站用 CGI 或 PHP 动态生成 sitemap(每次请求时扫描数据库),本站选择了静态生成。原因很直接: 这是一贯的设计哲学:静态优先,CGI 作为最后手段。 输出位置与自动发现sitemap 输出到项目根目录(而非 本站的 搜索引擎发现流程一个完整的搜索引擎发现流程是这样的:爬虫先读 在 2026 年,一个没有 JavaScript、纯表格布局的 90s 风格网站能被 Google 搜到,sitemap 和良好的 SEO 元数据功不可没。
|