欢迎来到山东商祺公司官网!本站主营:

淄博网站建设, 淄博网站优化, 淄博网站推广, 淄博网站制作.

当前位置: 首页 >  淄博网站优化 >  淄博网站优化怎么认识Robots.txt和Sitemap?

淄博网站优化怎么认识Robots.txt和Sitemap?

发表日期:2018-12-02 11:23:37文章来源:淄博网站建设文章编辑:淄博网站优化浏览次数:

现在淄博网站优化尽管搜索引擎在不断地升级算法,但是它终究还是一个计算机程序,因此我们 在布局网站结构的时候,要尽可能地让搜索引擎蜘蛛看得懂。每个搜索引擎蜘蛛都 有自己的名字,在抓取网页的时候都会向网站表明自己的身份。搜索引擎蜘蛛在抓 取网页的时候会发送一个请求,这个请求中有一个字段 User-agent,用于表示搜索 引擎蜘蛛的身份。
例如, Google搜索引擎蜘蛛的标识为“ GoogleBot”,百度搜索引擎蜘蛛的标识 为" Baidu spider,Yaho搜索引擎蜘蛛的标识为“ "Inktomi Slurp”,如果在网站上 有访问日志记录,网站管理员就能知道哪些搜索引擎蜘蛛访问过网站、什么时候访 问的及读取了多少数据等。如果网站管理员发现某个蜘蛛有问题,可以通过其标 搜索引擎蜘蛛进人一个网站、一般会访间一个特殊的文本文件 与其所有者联系。 文件一般存放在网站服务器的根日录下,网站管理员可以通过它定义搜索引擎 蜘蛛不能访问哪些目录,或者某些特定的搜索引擎蜘蛛不能访问哪些目录。例如,有 些网站的可执行文件目录和临时文件目录不希望被搜索引擎搜索到,网站管理员就 可以把这些目录定义为拒绝访问目录。 Robots.txt的语法很简单,如果对目录没有 任何限制,可以用以下两行代码来描述。 User-agent;
Disallow
当然,Robots.txt只是一个协议,如果搜索引擎蜘蛛的设计者不遵守这个协议 网站管理员也无法阻止搜索引擎蜘蛛对于某些页面的访问。但一般的搜索引擎蜘蛛 都会遵守这些协议,而且网站管理员还可以通过其他方式来拒绝搜索引擎蜘蛛对某 些网页的抓取。
搜索引擎蜘蛛在下载网页的时候,会去识别网页的HTML代码,在其代码中 会有META标识。这些标识可以告诉搜索引擎蜘蛛该网页是否需要被抓取,还可 以告诉搜索引擎蜘蛛该网页中的链接是否需要被继续跟踪。例如,可以表示一个网 页不需要被抓取,但是网页内的链接需要被跟踪。 现在一般的网站都希望搜索引擎能更全面地抓取自己的网页,因为这样做可以 让更多的访问者通过搜索引擎找到自己。为了让本网站的网页更全面地被抓取,网 站管理员可以建立一个网站地图,即 Sitemap。许多搜索引擎蜘蛛会把 Sitemap.htm 文件作为爬取一个网站网页的入口。网站管理员可以把网站内部所有网页的链接放 在这个文件里面,这样搜索引擎蜘蛛就可以方便地把整个网站抓取下来,不仅能避 免遗漏某些网页,也会减小网站服务器的负担(谷歌专门为网站管理员提供了 XML格式的 Sitemap)。
搜索引擎建立网页索引时处理的对象是文本文件。对搜索引擎蜘蛛来说,抓取 下来网页包括各种格式,如HTML、图片、DOC、PDF、多媒体、动态网页及其他 格式。把这些文件抓取下来后,需要将其中的文档信息提取出来。准确提取这些文 档的信息,一方面对提高搜索引擎的搜索准确性有重要作用、另一方面对搜索引擎 蜘蛛正确跟踪其他链接有一定影响。 对DOC、PDF等由专业软件生成的文档,厂商都会提供相应的文本提取接口。 搜索引擎蜘蛛只需要调用这些插件的接口,就可以轻松地提取文档中的文本信息和 文件的其他相关信息。
而HTML等文档则不同。HTML有自己的一套语法,通过不同的命令标识符表 示不同的字体、颜色、位置等,提取文本信息时需要把这些标识符都过滤掉。过滤 标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相 应的信息即可。但在识别这些信息的时候,需要同步记录许多版式信息。 除了标题和正文以外,会有许多广告链接和公共的频道链接。这些链接与文本 正文一点关系也没有,在提取网页内容的时候,也需要过滤这些无用的链接。例如, 某个网站有“产品介绍”频道,因为导航条在网站内的每个网页上都有,若不过滤 导航条链接,在搜索“产品介绍”的时候,则网站内每个网页都会被搜索到,这无 疑会带来大量垃圾信息。要想过滤这些无效链接,需要统计大量的网页结构规律, 抽取一些共性,统一过滤。对于一些重要但结构特殊的网站,还需要个别处理。这 些都要求搜索引擎蜘蛛的设计要有一定的可扩展性。
相关新闻