首页 » 博客 » 另请参阅有关网站建设和网站推广的一些有用文章

另请参阅有关网站建设和网站推广的一些有用文章

Robots.txt 文件的最佳做法

a) 通过使用robots.txt文件,我们可以阻止抓取我们不想抓取的文件夹和子文件夹。例如,我们通常会拒绝访问内容管理系统中动态创建的与网站管理相关的文件夹 、包含网站构建中使用的各种模板、插件、模块的文件夹、包含内容管理系统安装文件的文件夹,以及任何其他我们希望搜索引擎无法访问的文件夹。

b) 很明显,通过这个文件,我们能够阻止爬虫 电报数据库 访问我们不拥有其权利的文档(例如图像)或属于外国网站并由我们复制的内容,当然,希望我们的页面不会因为重复内容而受到搜索引擎算法的惩罚。

c) robots.txt文件必须位于根目录‘/’下。这意味着任何其他位置均无效,因为爬虫程序不会爬行该网站以找到它,因为它们没有允许遵循的路径的相应指令。如果不存在或者为空,爬虫程序将假定服务器的所有区域均可访问。

尽管如此,该文件的存在,即使是空的,也会使网站对搜索引擎更加友好,促进其爬虫的运行,从而从其算法中获得更有利的处理。 (参见SEO)

d) 必须高度重视管理员认为可以隐藏的信息。在此需 另请参阅有关网站建设和网站推广的一些有用文章  要强调的是,任何访问 URL /robots.txt 的人都可以读取 robots.txt 文件(以及其中列出的信息,直至访问者通过访问我们禁止爬虫程序爬取的文件夹所发现的信息)。

e) 最后,如果命令的语法不正确且不符合标准,那么 robots.txt 中给出的指令就没有任何价值,同时还存在爬虫程序本身不遵守读取 robots 文件、忽略或绕过命令的过程的情况。尽管此过程需要爬虫的配合,但据观察,恶意爬虫的活动会忽略该文件,因为它们的目的是提取客户列表、电子邮件地址和其他个人敏感信息,而管理员可能希望防止这些信息在搜索引擎结果中暴露。

加入我们,我们 还将为您提供网站推广、  网站建设 和 网店建设、 数字营销 (搜索引擎优化、社交媒体营销、 电子邮件营销)方面的全面服务。专业地利用互联网新时代所需的一切。

搜索引擎:了解其工作原理
如何实现搜索引擎中的良好排名

SEO 成功的关键

为什么我的网站需要 SEO?

使用 WordPress 建立网站。为什么你应 安圭拉铅 该喜欢它?

滚动至顶部