网站建设

WordPress免插件生成完整站点地图(sitemap.xml)的php代码

Jager · 10月20日 · 2014年 · 3889次已读

前言:站点地图(sitemap.xml)的作用,相信站长们都有所了解,我就不献宝了。而免插件生成 sitemap.xml,网络上也早就有了纯代码生成的方法。

一直以来,张戈博客都是用 DX-SEO 这个很好用的中文 SEO 插件生成的 sitemap。今天整理电脑文件时,看到了以前收藏的生成 sitemap.xml 的 php 脚本,就随手打开看了看,发现这个代码只能生成主页和文章页的 sitemap。果断百度了一下,发现网上分享的都大同小异,只有首页和文章页。感觉有点缺憾,反正今天也是闲着,就动手改造了一番,让这个代码更加完善,可以同时生成首页、文章、单页面、分类和标签的 sitemap!

一、PHP 代码

<?php
require('./wp-blog-header.php');
header("Content-type: text/xml");
header('HTTP/1.1 200 OK');
$posts_to_show = 1000; 
echo '<?xml version="1.0" encoding="UTF-8"?>';
echo '<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:mobile="http://www.baidu.com/schemas/sitemap-mobile/1/">'
?>
<!-- generated-on=<?php echo get_lastpostdate('blog'); ?> Diy By 张戈博客(https://zhang.ge)-->
  <url>
      <loc><?php echo get_home_url(); ?></loc>
      <lastmod><?php $ltime = get_lastpostmodified(GMT);$ltime = gmdate('Y-m-d\TH:i:s+00:00', strtotime($ltime)); echo $ltime; ?></lastmod>
      <changefreq>daily</changefreq>
      <priority>1.0</priority>
  </url>
<?php
/* 文章页面 */ 
$myposts = get_posts( "numberposts=" . $posts_to_show );
foreach( $myposts as $post ) { ?>
  <url>
      <loc><?php the_permalink(); ?></loc>
      <lastmod><?php the_time('c') ?></lastmod>
      <changefreq>monthly</changefreq>
      <priority>0.6</priority>
  </url>
<?php } /* 文章循环结束 */ ?>  
<?php
/* 单页面 */ 
$mypages = get_pages();
if(count($mypages) > 0) {
    foreach($mypages as $page) { ?>
    <url>
      <loc><?php echo get_page_link($page->ID); ?></loc>
      <lastmod><?php echo str_replace(" ","T",get_page($page->ID)->post_modified); ?>+00:00</lastmod>
      <changefreq>weekly</changefreq>
      <priority>0.6</priority>
  </url>
<?php }} /* 单页面循环结束 */ ?> 
<?php
/* 博客分类 */ 
$terms = get_terms('category', 'orderby=name&hide_empty=0' );
$count = count($terms);
if($count > 0){
foreach ($terms as $term) { ?>
    <url>
      <loc><?php echo get_term_link($term, $term->slug); ?></loc>
      <changefreq>weekly</changefreq>
      <priority>0.8</priority>
  </url>
<?php }} /* 分类循环结束 */?> 
<?php
 /* 标签(可选) */
$tags = get_terms("post_tag");
foreach ( $tags as $key => $tag ) {
	$link = get_term_link( intval($tag->term_id), "post_tag" );
	     if ( is_wp_error( $link ) )
		  return false;
		  $tags[ $key ]->link = $link;
?>
 <url>
      <loc><?php echo $link ?></loc>
      <changefreq>monthly</changefreq>
      <priority>0.4</priority>
  </url>
<?php  } /* 标签循环结束 */ ?> 
</urlset>

将以上代码保存为 sitemap.php,传到网站根目录。手动访问查看效果,如:https://zhang.ge/sitemap.php

二、伪静态

①、Nginx

编辑已存在的 Nginx 伪静态规则,新增如下规则后(平滑)重启 nginx 即可:

rewrite ^/sitemap.xml$ /sitemap.php last;

②、Apache

编辑网站根目录的 .htaccess ,加入如下规则:

RewriteRule ^(sitemap)\.xml$ $1.php

做好伪静态规则后,就可以直接访问 sitemap.xml 看看效果了,比如 https://zhang.ge/sitemap.xml

三、纯静态

此部分内容补充于:2016 年 10 月 24 日程序员节

看到很多朋友已经在问这个 sitemap 如何静态化,加快打开速度。毕竟每次重新生成绝对是一个耗能大户,而且还有可能被有心之人拿来作为攻击入口!

其实,张戈博客早就已经实现 sitemap.xml 静态化了,而且在后面的文章中也有提到=>【相关文章

实现方法有多种,比如在 Nginx 的 fastcgi 缓存中取消 xml 文件的缓存屏蔽,或者使用张戈博客最早使用的 php 生成静态文件等。

在这里,我就分享一个自己一直在用的最简单的实现方法:Linux 定时任务+wget 定时生成 sitemap.xml

具体实现:将 sitemap.php 放到某个不为人知的目录,然后定时使用 wget 去请求这个文件,并将数据保存为 sitemap.xml 存放到网站根目录就可以了!比如:

#每天在网站根目录生成一个 sitemap.xml diypath 为 sitemap.php 的实际位置
0 1 * * * wget -O /home/wwwroot/zhang.ge/sitemap.xml https://zhang.ge/diypath/sitemap.php  >/dev/null 2>&1

2017-09-22 补充:如果是启用了 https 的站点,需要加入 --no-check-certificate  的选项,即:

#每天在网站根目录生成一个 sitemap.xml diypath 为 sitemap.php 的实际位置(针对 https 网站)
0 1 * * * wget -O /home/wwwroot/zhang.ge/sitemap.xml --no-check-certificate https://zhang.ge/diypath/sitemap.php  >/dev/null 2>&1

Ps:使用这个方法,注意 sitemap.php 里面的 require('./wp-blog-header.php'); 要改成 require('../wp-blog-header.php'); 也就是注意相对位置!

如果实在搞不清楚什么是相对路径,那么就用简单粗暴的方法:将网站根目录的 sitemap.php 重命名为一个只有自己知道的 php 文件,比如 xml.php,然后如下添加任务:

#每天在网站根目录生成一个 sitemap.xml(xml.php 为自己重命名的 php 文件名称)
0 1 * * * wget -O /home/wwwroot/zhang.ge/sitemap.xml https://zhang.ge/xml.php  >/dev/null 2>&1

这样一来,就解决了 sitemap.xml 是动态数据问题了!

四、文章最后

①、确认无误之后,已开通 sitemap 权限的就可以前往百度站长平台提交了,没开通权限的可以发送申请邮件到百度站长平台管理员邮箱申请,并且将 sitemap.xml 使用 a 标签链接在网站底部即可。

②、代码使用很简单,可以根据需要增减内容,比如觉得标签不应该出现在 sitemap 里面的,可以将标签部分的 php 代码删除即可,但一定要注意不要误删除结尾的</urlset>标签。

③、今天,把分类、单页面及标签的 sitemap 都整出来了,那开放适配专用 sitemap 的 php 代码也就可以继续完善下了,回头有时间我会整理总结一篇关于 sitemap 及开放适配的终结篇,敬请期待!

174 条回应
  1. Sophia 2016-10-3 · 18:36

    张哥求救!我的站点.php格式的能打开,到了.xml就变成“有点尴尬,该页无法显示”。在网上查了很多其他教程试了各种.htaccess写法都不成功,能指点一下吗TAT
    RewriteEngine on
    RewriteRule ^(sitemap)\.xml$ $1.php

    • avatar
      Jager 2016-10-3 · 20:33

      RewriteRule ^/sitemap\.xml$ /sitemap.php [L]
      加到第一行试试

      • 免费电影吧 2016-10-24 · 16:10

        拜读此文后 有这样一个问题:是这样的 我用了这个代码后 每次点开 sitemap.xml 都要重新查询后生成内容,例如:http://www.dianyingbar.com/sitemap.xml,并不是Jager大神博客这样的sitemap.xml 点开即可看到生成好的页面。由于不能看到第1页的评论(怎么只能看到第2页的评论呢) 不知道是否已经有人提出过 望赐教。

        • avatar
          Jager 2016-10-24 · 18:55

          1、评论历史分页无法查看问题已解决。
          2、sitemap.xml 静态化问题有多重解决办法,最简单的就是利用linux 的crontab定时任务,定时生成一个siemap.xml 到网站根目录,而且伪静态也不需要了。
          比如把sitemap.php改成xml.php,然后在crontab中加入:

          0 1 * * * wget -O /data/wwwroot/www.domain.com/sitemap.xml  http://www.domain.com/xml.php >/dev/null 2>&1

          每天1点生成一个静态xml文件,够清楚吧?

    • 张小仙 2019-5-2 · 11:16

      我 :razz: 也遇到了这样的问题,请问你的解决了吗?

  2. bitch 2016-10-15 · 21:06

    张哥,丫的也太骚包了,被你吓死了,叉掉之后网页开始跳舞

  3. skysmile 2016-11-1 · 15:33

    百度的https sitemap.xml提交为什么是抓取失败

  4. 似水流年 2016-11-11 · 3:52
    server {
      listen 80;
      server_name izmm.me www.izmm.me;
      if ($host != izmm.me) {
        rewrite ^/(.*)$ $scheme://izmm.me/$1 permanent;
    	rewrite ^/sitemap.xml$ /sitemap.php last;
      }
      
      location ~ [^/]\.php(/|$) {
        #fastcgi_pass remote_php_ip:9000;
        fastcgi_pass unix:/dev/shm/php-cgi.sock;
        fastcgi_index index.php;
        include fastcgi.conf;
      }

    求指导,我是这样写对吗。实际测试还是打不开

    • 游者记 2017-9-17 · 11:26

      到底是加在了什么位置呢?

  5. 美剧天堂 2016-11-25 · 15:41

    我的博客准备试试

  6. 佐恒科技 2016-11-29 · 15:33

    This page contains the following errors:
    error on line 1 at column 161: Encoding error
    Below is a rendering of the page up to the first error.

    出现这个错误~咋办

    • ckeke 2017-7-8 · 23:35

      问题解决了吗,我和你一样的错误提示

  7. 大漠 2016-12-2 · 18:42

    网站数据量大的时候,生成的xml页面打开速度非常慢,有没有翻页或者限制xml数量,比如xml只展示最新更新的1000篇文章啥的。

  8. 番茄薯片 2017-1-9 · 16:05

    然后在crontab中加入,是指在哪里加入啊?

    • avatar
      Jager 2017-1-9 · 20:12

      执行 crontab -e 进入编辑界面
      后面的操作请参考vim,不会可以百度下。

  9. 番茄薯片 2017-1-9 · 16:06

    张神,在crontab中加入,是指在哪里加入啊?

  10. 野人摊影视分享 2017-3-3 · 19:53

    Jager你好,我的问题是这样的,因为使用了博客中的前端html代码压缩优化中的代码,导致结构化数据xml这个页面也被压缩了,我想让这个页面不需要压缩,要这样实现?麻烦博主知道下!谢谢!已经尝试过在开头和结尾都添加了避免压缩的注释,效果还是和原来一样,不知道到博主,是怎么解决这个问题!http://wx1.sinaimg.cn/mw690/ecd3b602gy1fd9vznwd51j20nn04umxh.jpg 谢谢!

    • 野人摊影视分享 2017-3-5 · 13:40

      Jager有空吗?可以帮忙看下吗?谢谢

      • avatar
        Jager 2017-3-5 · 15:44

        如下插入试试:

        echo '<!-- 免压缩代码 --><!-- -->';
        echo '<?xml version="1.0" encoding="UTF-8"?>';
        XXX
        XXXX
        </urlset>
        echo '<!-- --><!-- -->';
        • 野人摊影视分享 2017-3-5 · 16:53

          博主,还在吗?刚试了下你说的那个方法http://wx4.sinaimg.cn/mw690/ecd3b602gy1fdc2ch7tq3j20ju09zaau.jpg 问题还是 存在,麻烦博主再想想办法,谢谢

          • avatar
            Jager 2017-3-5 · 17:59

            sitemap.xml压缩好像不影响功能把。解决办法当然多想想也是有的:
            找到压缩函数调用代码:

            ob_start("wp_compress_html_main");

            替换成:

            if(!is_admin() &amp;&amp; $_SERVER['REQUEST_METHOD'] !='POST' &amp;&amp; !preg_match('|/sitemap|xml/|i',$_SERVER["REQUEST_URI"]) &amp;&amp; !preg_match('|/feed/|i',$_SERVER["REQUEST_URI"])){
            ob_start("wp_compress_html_main");
                 }
            

            表示,后台不压缩,POST请求不压缩,页面地址命中到sitemap或xml关键词不压缩,页面地址命中到feed不压缩,也是我博客当前的用法,关键词什么的,自己看着改改吧!

  11. 吾爱 2017-3-8 · 8:45

    shell脚本怎么执行

  12. 吾爱 2017-3-9 · 8:43

    我添加了ssl 怎么站点地图不行了

  13. boke112导航 2017-3-20 · 11:25

    我用的是ECS服务器,但是浏览器浏览sitemap_mob.php总会出现这个错误:error on line 1 at column 152: attributes construct error。同样的文件在虚拟主机却一切正常,不知道怎么解决?

  14. 牧羊人 2017-3-25 · 10:41

    这个好,收藏备用了~~

  15. 2017-4-20 · 18:17

    wget -O /home/wwwroot/zhang.ge/sitemap.xml https://zhang.ge/xml.php >/dev/null 2>&1

    执行以上后,有返回提示吗?

    • avatar
      Jager 2017-4-22 · 22:30

      后面的 >/dev/null 2>&1 就是屏蔽提示。

  16. 火车头 2017-6-5 · 17:41

    谢谢大神,但这个超过8500条的时候,就会出现
    This page contains the following errors:
    error on line 28 at column 1: Extra content at the end of the document
    Below is a rendering of the page up to the first error.
    这样的问题,我猜应该是服务器数据库限制导致的,如何修改下代码使他5000个为一个文件呢?求大神帮忙,可以有偿,嘿嘿

    • avatar
      Jager 2017-6-15 · 13:48

      看错误不是超出数量引起的

      • 火车头 2017-6-15 · 14:38

        已经解决了,最后还是用的插件,嘿嘿,谢谢哈

  17. 小幻酱 2017-6-11 · 9:44

    我是用的ob_start缓存页面,然后判断缓存时间输出,感觉也差不多 就是创建个cron任务感觉好麻烦
    不过Google已经不支持xml格式了 现在仅接受json格式的结构化数据提交了

    • avatar
      Jager 2017-6-15 · 13:43

      嗯,直接使用cron生成本地文件非常简单的。

  18. 花卉说 2017-6-14 · 12:17

    不知道从什么时候起,已经懒得折腾这些东西了。

    • avatar
      Jager 2017-6-15 · 13:39

      这已经是14年的文章了。。。

  19. 韦博 2017-6-15 · 17:52

    已解决

  20. 开着宝马要饭 2017-7-6 · 2:02

    Jager大大,我用的是虚拟主机IIS, 生成xml地图要怎么添加规则,如果有时间,求回答一下,谢谢!

  21. 田岗 2017-7-19 · 20:23

    我的哥,云虚拟主机咋设置crontab?还有Nginx也找不到啊,我是云虚拟主机,你们都是用的主机吗?不是虚拟主机?

  22. 索斌 2017-7-27 · 21:44

    大神,我按照你的方法弄了之后访问sitemap.php正常,访问sitemap.xml只显示头部内容:This XML file does not appear to have any style information associated with it. The document tree is shown below.,是怎么回事啊?

    • llanc.cn 2017-9-19 · 23:04

      我的也一样,你的解决了吗?

    • llanc.cn 2017-9-21 · 14:08

      注意ssl链接,要用--no-check-certificate,我的已经解决了。谢谢博主,之前的留言可以不用通过了

      • avatar
        Jager 2017-9-22 · 12:38

        因为你们启用了https

  23. llanc.cn 2017-9-19 · 23:53

    博主你给的展示链接https://zhang.ge/sitemap.xml也是只显示头部一句This XML file does not appear to have any style information associated with it. The document tree is shown below.我的也这样,只有一句,请问这是什么原因呢,能给解释下吗,万分感谢!

  24. 米扑 2017-10-20 · 13:46

    Good Share 赞一个

  25. 值得买 2017-10-26 · 17:44

    张老师,添加https后,不能生成sitemap.xml,看日志提示:省略sitemap.xml --no-check-certificate\302\240https省略
    --no-check-certificate\302\240https这是是什么原因,求解,谢谢!

    • avatar
      Jager 2017-10-28 · 14:18

      https要带上--no-check-certificate选项,你仔细看下文章【2017-09-22补充】内容。还是没仔细看文章,文章都说的很全面了。

      • 值得买 2017-10-28 · 14:34

        参数写了,http设置301跳转https后现在生成了,不知道是否和这个有关,非常感谢张老师的教导。

  26. 7S分享网 2017-12-11 · 18:32

    正在研究如何做这个网站地图 了

  27. 九米惠官网 2018-6-1 · 19:13

    请教下,采集站的问题,每天采集将近3K文章,文章太多以后这个办法就会失效,能否控制地图数量呢?

  28. 诗梦 2018-8-13 · 0:11

    教程很不错哦 [偷笑]

  29. 八爪印 2018-12-4 · 10:22
    wget -O /home/wwwroot/zhang.ge/sitemap.xml https://zhang.ge/xml.php  &gt;/dev/null 2&gt;&amp;1
    博主,这个是写错了,还是本来就是这个
    • avatar
      Jager 2019-1-1 · 16:54

      错误指的是?

  30. 简单生活 2019-1-1 · 23:14

    有个错误,求教下,,谢谢!
    Warning
    : Use of undefined constant GMT - assumed 'GMT' (this will throw an Error in a future version of PHP) in
    /www/wwwroot/abc.com/bgmap.php
    on line
    13

    2018-12-25T05:04:33+00:00

    • nice 2019-2-2 · 20:32

      我也是有这个错误呢 不知道怎么回事

    • nana 2019-6-28 · 15:04

      我也遇到这个问题,这个怎么弄啊?@Jager

  31. xiao 2019-1-4 · 10:34

    为啥加上定时任务 没有生成文件呢

    • 资源帝国 2019-2-18 · 11:13

      我得也是。不知道咋弄。shell指令是不是在宝塔面板里面可以执行。都要醉了。

  32. 卡家园 2019-2-23 · 16:57

    请问这个伪静态应该写在哪里?
    rewrite ^/sitemap.xml$ /sitemap.php last;
    LNMP,写在网站对应的.conf内吗?

    下面静态代码又写在哪里,用这个静态的上面伪静态代码就不要写了是吗?谢谢。
    #每天在网站根目录生成一个sitemap.xml diypath为sitemap.php的实际位置(针对https网站)
    0 1 * * * wget -O /home/wwwroot/zhang.ge/sitemap.xml --no-check-certificate https://zhang.ge/diypath/sitemap.php >/dev/null 2>&1

  33. 刘少技术博客 2019-4-12 · 17:06

    不懂技术就是不行,不知道为什么,我每次生成后会自动多出来一个首行,去掉首行就一切正常,不去就报错不显示~~所以只能给计划任务后在添加一个0 2 * * * sed -i 1d /webdata/www/sitemap.xml > /dev/null,然后就每天一点生成,然后两点去掉首行~~~

  34. 刘少技术博客 2019-4-12 · 17:11

    不知道为什么每次都会在首行,多生成一行,然后就网站地图打不开提示
    This page contains the following errors:
    error on line 2 at column 6: XML declaration allowed only at the start of the document
    Below is a rendering of the page up to the first error.
    然后,每次计划任务之后,0 2 * * * sed -i 1d /webdata/www/sitemap.xml > /dev/null,我添加这个,把行首删除就没有问题了,不知道是哪里的错误。

  35. 刘少技术博客 2019-4-12 · 17:20

    30 1 * * * wget -O /webdata/www/sitemap.xml --no-check-certificate https://www.ezliushao.com/ditu/sitemap.php && sed -i 1d /webdata/www/sitemap.xml 2>&1 还是改成这样吧

    • avatar
      Jager 2019-4-12 · 17:35

      多出来的第一行内容是什么呢?

      • 刘少技术博客 2019-4-12 · 17:48

        这样,好想就是多了一行空格~~但是有不应该是空格的问题,反正我把哪一行删除就没有问题~~~

        • avatar
          Jager 2019-4-12 · 18:08

          应该是你编写的sitemap.php格式不对,用的UTF-8+BOM格式,解决办法也简单,下载一个nodepad++,重新粘贴php代码,并另存为UTF-8无BOM格式。

  36. 叉子new 2019-5-30 · 17:22

    大神您好,我用的是宝塔安装的wordpress,按您说的做了前面的操作都没有问题,但是我在宝塔里找不到您说的aget定时任务,只找到shell脚本,但是我建立了一个定时任务输入了您的代码,运行日志一直是成功的,但是我每次查看网站根目录并没有生成sitemap.xml,请问是不是shell脚本没用呢,如果没用请问要怎么解决呢,请大神指点一下

  37. 信用卡学习网 2019-7-31 · 13:21

    我直接复制你的代码建立sitemap.php文件放到根目录,然后吧rewrite ^/sitemap.xml$ /sitemap.php last; 这个规则写道伪静态文件里,但是访问sitemap.xml的时候提示Parse error: syntax error, unexpected '?>' in /wwwroot/www.alcgpos.com/sitemap.php on line 11
    请问这是怎么回事,我已经重启过了,Nginx系统

  38. 信用卡学习网 2019-7-31 · 13:51

    如果我的sitemap.php放在XOXOXO目录底下,为了防止这个目录被遍历查询搜索出来,我们是不是可以这样写命令 chown -R root:root xoxoxo/sitemap.php

  39. Lopin 2019-8-17 · 3:31

    貌似没有看到分页的代码,请问如果超5w个网址,xml会自动分页吗

  40. 佛系软件 2020-1-23 · 16:55

    加入伪静态规则了,页面错误

  41. 财神 2020-4-2 · 12:39

    #每天在网站根目录生成一个sitemap.xml(xml.php为自己重命名的php文件名称)

    0 1 * * * wget -O /home/wwwroot/zhang.ge/sitemap.xml https://zhang.ge/xml.php >/dev/null 2>&1

    怎么转化到宝塔计划里面?

  42. 落英缤纷 2020-12-20 · 0:52

    如何限制一下生成最新的1000条tag标签呢???

  43. Henry 2023-6-19 · 5:50

    张哥 你好!尝试过很多次,这个代码可以完美解决单个网站的需求,但是在多语言网站(wordpress使用subdirectory)会遇到没有多语言对应文件夹存放sitemap.xml的问题。比如,现有域名(domain.com)子目录下新建一个英语网站,domain.com/en是域名网站的子目录(subdirectory)网站,因为在/var/www/html/domain.com/目录下不存在/en目录,在使用wget时候,系统会提示不存在en文件夹,因此wget命令无法执行。请教下你,有更好的办法可以解决subdirectory的sitemap.xml?谢谢!尝试过一些方法,感觉代码比插件靠谱,不知道是不是正确的认识