一、什么是网站收录
1、网站收录指的是搜索引擎的爬虫已经爬取了网页,并将这个网页放到了搜索引擎的索引库,也就是数据库中。
2、通俗来说,就是当网站收录完成以后,在相应的搜索引擎进行网站搜索时,可以在搜索结果里面找到我们自己的网站了。
二、蜘蛛抓取的原理
网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
三、影响网站收录的因素
1、网站打开速度慢:网页打开速度最佳是2s,尽量在1s之内,用户能够忍受的最长等待时间在6~8s之间,所以一般不要超过这个时间段。否则很容易失去耐心而关闭网页。
2、网站的内容质量/重复度过高:内容过度的重复会被认定为作弊行为,导致网站收录变低。
3、网站的结构混乱:网站结构优化是指通过优化网站的页面结构、链接结构等方面来提高网站的可读性和可访问性。这样可以让搜索引擎更好地理解网站的内容,从而提高网站的收录率。
但如果网站结构混乱,内链系统杂乱无章也会导致收录缓慢。比如不同栏目的内容互相做链接,而有的内容链接很多另一些内页链接很少。网站的层次也是一个原因,对于一般的企业站点三层已经足够放置所有的内容,而如果层次太深会影响内页的收录。
4、网站标签设置不合理(主要针对的是网站tdk)
5、代码嵌套问题
很多的网站,基本上都是套用的模板,但是很多的模板网站过于老套,都是把js写在网站的html里面的,当网站开始上传图片之后,网站的打开速度非常慢,用户体验不好的站点,收录也是比较难的。
6、nofollow标签的使用和误用
nofollow 是HTML页面中a标签的属性值。这个标签的意义是告诉搜索引擎不要追踪此网页上的链接或不要追踪此特定链接。
引用nofollow标签的目的是:用于指示搜索引擎不要追踪(即抓取)网页上的带有nofollow属性的任何出站链接,以减少垃圾链接的分散网站权重!
四、如何提升网站的收录
1、降低网站内容的相似度:多一些原创性的内容。
有些网站为了能够快速在短时间内得到足够的流量和排名,就会使用相似度较低的伪原创方式进行更新网站文章等,但过一段时间网站的排名和流量就会降低,因此想要得到更高的网站排名就要降低文章的相似度,使网站更新文章尽量原创。
2、设置站点sitemap,提交各大搜索引擎监控网页的收录情况;
根据搜索引擎规则生成sitemap的文件进行提交推送,或是部分搜索引擎可添加自动推送的代码可进行推送;
3、设置添加网站的外链。
可以到权重比较高的站点去发软文,在软文里面加个锚文本就OK。例如:百家号,知乎,头条等;
4、增加网站友情链接。
增加网站的友情链接,可以提高权重,权重高了,网站的收录自然会更快;
5、网站页面的tdk设置
当网站页面TDK布局好,能够方便搜索引擎抓取,被收录抓取的页面都处于靠前的位置,网站的整体排名自然也能得到提升。
7、设置良好的站内链接
站内的链接合理的设置,使网站整体获得搜索引擎的价值认可,从而提升他的权重,收录。
(1)制作网站的导航,尽量使用文字链接,导航的名称也要通俗易懂,不要过于浮夸。
(2)制作面包屑导航,例如:华律网首页 > 一对一咨询 > 拆迁安置 > 问答详情。
(3)制作相关性链接,例如一篇文章阅读完,下方推荐相关性文章列表,可以进行点击跳转到详细页面。这种达到用户的满意度非常高,因为内容是相关联的。
(4)制作内文的链接,简称内链,在文章中的陌生词或是相关关键词添加上内链,将这个词链接对应到相关页面。可以看到解释和说明,加深用户的理解和好奇去点击。
8、监控网站爬取异常提示,确保网页的正常访问。
(1)服务器错误:爬虫发起抓取,httpcode返回码是5XX(504,502等等)
(2)访问被拒绝:爬虫发起抓取,httpcode返回码是403
(3)找不到页面:爬虫发起抓取,httpcode返回码是404
(4)其他错误:爬虫发起抓取,httpcode返回码是4XX,不包括403和404