首页 > SEO入门 > 正文

第六章,学会优化网站的url,让网络爬虫爬取网站更方便

作者: admin     来源: 红尘画舫     发布时间: 2019-09-19 23:58:48    浏览人数:
摘要URL是通向网站每个页面的路径,这就好像一条路那样,如果你把路修得很漂亮,方便别人走路,别人就喜欢走你修的路;如果你修得坑坑洼洼、曲曲折折,不方便别人走路,别人就会不喜欢走你修的这条路。搜索引擎蜘蛛也如此,
URL是通向网站每个页面的路径,这就好像一条路那样,如果你把路修得很漂亮,方便别人走路,别人就喜欢走你修的路;如果你修得坑坑洼洼、曲曲折折,不方便别人走路,别人就会不喜欢走你修的这条路。搜索引擎蜘蛛也如此,如果你的url优化得很好,那就方便它来抓取你网页的内容;如果url乱七八糟的,搜索引擎蜘蛛需要经过千辛万苦才爬取得到你网页的内容,不利于网页的收录。因此,我们搭建了一个网站后别急着去添加栏目、文章内容什么的,先来设置优化好网站的url,然后再去添加文章内容。
url优化
url优化方法:

1、url不带特殊符号

URL中不要带有+、=、,、!、@、#、¥、%、&、*等等特殊符号和中文,不然网络爬虫爬取过程需要解码才能爬取到网页,这就好比在路上设置了层层关卡,要搬开了才能通过,这样会消耗搜索引擎资源,不利于网络爬虫的爬取。

2、动态url伪静态化

虽然百度等搜索引擎很久之前就已经表示支持动态url爬取,并且最长能抓取1024个自己的URL,不过,大家要知道,url越短,网络爬虫爬取的过程消耗的资源是越少的,所以,url越短就越有利于网络爬虫的爬取的。因此,一定要把动态url伪静态化,这样更有利于网络爬虫爬取我们的网站

至于怎么设置,这涉及到正则表达式,需要有一定的技术功底,而且不同的网站服务器(如web、Apache、Nginx)使用的伪静态规则也有所不同,因此这里就不多说了,在做seo优化的时候,通常是提方案给技术,他们就会帮你处理了。

3、url唯一化

一个页面只对应一个url,不能一个页面对应多个url,不然搜做引擎不知道哪个url是这个页面用来做排名的,会分散网页的权重,而且还有可能你网站产生了大量重复的垃圾页面,然后导致被搜索引擎降低网站的权重。

解决方法:

(1)、使用301重定向,将其他的url统一跳转到固定的一个url上。
(2)、将多余的url设置成404页面
(3)、在robots里屏蔽页面多余的url。

4、url的层级不超过4层

url的层级越深,网络爬虫的爬取难度就会越增加,因此url的层级最好控制在3层以内,最多不超过4层,否则会不利于搜索引擎蜘蛛的爬取。

url的层级以斜杠“/”划分,中间有多少个斜杠“/”就是多少层级,如:
一层:www.hchuafang.com/jiaocheng/  
二层:www.hchuafang.com/suanfa/baidu/
……
以此类推

5.url包含关键词拼音

现在的搜索引擎都很强大,能匹配关键词的拼音,如果我们在url中加入关键词的拼音,搜索引擎也能识别出来,在同等权重的页面中,更能获取更好的权重,更有利于排名。

关于url包含关键词有利于排名的详情,请看:url中包含关键词拼音将更有利于关键词排名
很赞哦! ()