网站建设

揭示了搜索引擎优化中五种常见的网站日志文件分析方法的观点

作者:金沙js5线路    发布时间:2020-02-21 07:02     浏览次数 :53

[返回]
日志文件分析应该是每一个搜索引擎优化专业工具的一部分,但大多数搜索引擎优化从来没有做过。这意味着大多数搜索引擎优化缺乏独特的和有价值的见解,这是传统的爬行工具无法产生的。让我们揭开日志文件分析的神秘面纱...

日志文件分析应该是每个搜索引擎优化专业工具的一部分,但大多数搜索引擎优化从来没有做过。这意味着大多数搜索引擎优化缺乏独特的和有价值的见解,这是传统的爬行工具无法产生的。

让我们揭开日志文件分析的神秘面纱,让它不再那么令人畏惧如果你对日志文件的美妙世界和它们能带给你的网站评论感兴趣,这个指南绝对适合你。

什么是日志文件?

日志文件是一个包含向您的web服务器发出请求的人和内容的详细日志的文件每次漫游者向您的站点发出请求时,数据(如时间、日期、IP地址、用户代理等。)存储在此日志中。这些有价值的数据允许任何搜索引擎优化发现谷歌机器人和其他爬行工具在你的网站上做什么。不同于常规的爬行(例如,尖叫青蛙搜索引擎优化蜘蛛),这是真实的数据,不是对网站如何爬行的估计。这是网络爬行的准确概述

有这些准确的数据,可以帮助您识别哪些领域浪费了爬网预算,轻松找到访问错误,了解您的搜索引擎优化工作如何影响爬网,等等最棒的是,在大多数情况下,您可以使用简单的电子表格软件来完成这项工作。

在本指南中,我们将重点关注执行日志文件分析的Excel,但我也将讨论其他工具,如尖叫青蛙鲜为人知的日志文件分析器,它可以帮助您管理日志文件,使工作更轻松、更快捷。更大的数据集

注意:除了Excel之外的任何软件都不需要遵循本指南,可以避免使用日志文件。

如何打开日志文件重命名。登录。当您使用获取日志文件时。日志扩展名,实际上就像用。csv扩展名并在电子表格软件中打开文件如果要编辑扩展名,请记住将操作系统设置为显示文件扩展名

如何打开拆分日志文件

日志文件可以是大型日志或多个文件,具体取决于站点的服务器配置一些服务器将使用服务器负载平衡来分配服务器池或服务器场中的流量,从而导致日志文件被拆分好消息是组合起来真的很容易。您可以使用以下三种方法之一来组合它们,然后像往常一样打开它们:

在窗口中使用命令行,方法是按住Shift键并右键单击包含日志文件的文件夹,然后选择“从这里运行PowerShell”

,然后运行以下命令:

现在,您可以打开mylogfile.csv,它将包含您所有的日志数据或者,如果您是Mac用户,首先使用cd命令转到日志文件目录:

,然后使用cat或concatenate命令合并文件:

2)使用自由工具“日志文件合并”合并所有日志文件,然后编辑文件扩展名为。csv并正常打开它

3)使用尖叫青蛙日志文件分析器打开日志文件,只需拖放日志文件:

分割字符串

(请注意:如果您使用尖叫青蛙日志文件分析器,这一步不是必需的)

打开日志文件后,您需要将每个单元格中冗长的文本分成几列,以便以后排序这里使用

Excel的“文本到列”功能,就像选择所有填充单元格(Ctrl/Cmd+A)并转到Excel & ampgt。“数据”& gt。“文本到列”与选择“定界”选项一样简单。分隔符是一个空格字符分隔

后,您可能还想按时间和日期排序-您可以在“时间和日期”戳记列中排序,通常使用“:”冒号分隔符来分隔数据。

您的文件应该类似于以下文件:

如前所述,请不要担心您的日志文件看起来不完全一样-不同的日志文件有不同的格式只要有基本数据(时间和日期、网址、用户代理等)。),你可以用它!

了解日志文件

现在,您的日志文件已准备好进行分析,我们可以了解更多信息并开始了解我们的数据。日志文件可以以多种格式处理许多不同的数据点,但是它们通常包括以下内容:服务器请求方法(例如GET/POST)用户代理

要求的

服务器IP日期和时间HTTP状态代码如果您对特定的细节感兴趣,可以在下面找到关于常见格式的更详细的信息:

WC3Apache和Nginx Amazon弹性负载平衡高可用性代理JSON格式如何快速揭示抓取预算的浪费

快速查看,抓取预算是指每次访问网站时搜索引擎抓取的页面数量许多因素会影响爬行预算,包括链接资产或域权限,网站速度等。借助日志文件分析,我们将能够看到你的网站有什么样的爬行预算,以及在哪里浪费爬行预算的问题将导致。

理想情况下,我们希望为爬虫提供最有效的爬虫体验。爬行不应该浪费在低价值页面和网址上,优先页面(如产品页面)的索引和爬行速度也不应该太慢,因为网站有太多自尊的页面。游戏的名字是抓取预算节省,并有很好的抓取预算转换,这可以带来更好的自然搜索性能。

查看用户代理搜索的网址

了解网站被抓取的频率可以很快发现搜索引擎把他们的时间花在抓取的地方。

如果您有兴趣查看单个用户代理的行为,这很容易,因为您可以在excel中筛选出相关的列在这种情况下,我使用WC3格式的日志文件,通过谷歌搜索引擎:

过滤了cs(用户代理)列,然后过滤了URI列,以显示谷歌搜索引擎在示例网站首页爬行的次数:

。这是一种通过URI搜索引擎检查单个用户代理是否有任何问题的快速方法。您可以进一步查看URI词干列中的过滤选项,在本例中是cs-uri-词干:

。从这个基本菜单中,我们可以看到正在被爬网的URL(包括资源文件),以快速识别任何有问题的URL(例如,不应被爬网的参数化URL)

您还可以使用数据透视表进行更广泛的分析要获取特定用户代理爬网特定网址的次数,请选择整个表(Ctrl/cmd+A),然后转到插入>按钮。“数据透视表”,然后使用以下选项:

我们所要做的就是通过用户代理进行过滤,将该网址作为一行,然后计算每个用户代理出现的次数

通过示例日志文件,我得到了以下内容:

然后,为了通过特定的用户代理进行过滤,我单击了包含“(全部)”的单元格上的下拉图标,然后选择了谷歌机器人:

,以了解哪些不同的漫游器正在爬行,移动漫游器如何以不同的方式从桌面爬行,以及在哪里爬行发生最多,这可以帮助您立即了解哪里有爬行预算的浪费和需要改进的站点区域。

查找低附加值网址

爬网预算不应浪费在低附加值网址上,这通常是由会话标识、无限爬网空间和多面导航造成的

为此,请返回到您的日志文件并包含"?"或问号符号的网址(包括网址干)要在Excel中执行此操作,请记住使用“?”或一个波浪号问号,如下所示:

如自动筛选窗口中所述,单个"?"或者问号代表任何单个字符,因此添加连字符就像转义字符一样,可以确保问号符号本身被过滤掉

不是很容易吗?

找到重复的网址

重复的网址可能会浪费抓取预算,并导致伟大的搜索引擎优化问题,但找到他们可能会非常麻烦有时,网址可能会有一些小的变化(如网址的斜线和非斜线版本)

最后,找到重复网址的最好方法也是最没意思的方法——你必须按字母顺序对网站网址排序,然后手动关注它们

查找同一网址的尾随和非尾随斜线版本的一种方法是在另一列中使用SUPPORT函数,并使用它删除所有的正斜线:

在我的例子中,目标单元格是C2,因为stem数据在第三列中

然后使用条件格式来识别重复值并突出显示它们

然而,不幸的是,眼球是目前最好的方法。

查看子目录的爬网频率

找出最常爬网的子目录是揭示爬网预算浪费的另一种快速方法尽管应该记住,仅仅因为客户的博客从来没有收到反向链接,每年只有3次来自企业所有者祖母的访问,这并不意味着你应该认为它浪费预算,整个网站的内部链接结构应该始终处于良好状态。从客户的角度来看,可能需要这些内容。

要按子目录级别查找爬网频率,您需要关注它,但下面的公式可以帮助您:

= if(右(C2,1) = "/,SUM(LEN(C2)-LEN(替换(C2),/)。" ")))/LEN("/")+SUM(LEN(C2)-LEN(SULTATE(C2)," = "," "))))/LEN(" = ")2,SUM(LEN(C2)-LEN(SULTATE(C2,"/",")/LEN("/")+SUM(LEN(C2)-LEN(SULTATE(C2)," = ",")/len ("= "-1) < p >上述公式看起来有点笨拙,但它所做的只是检查斜线并根据答案计算斜线的数量,并从数字中减去2或1。如果你使用右公式从网址列表中删除所有尾随斜线,你可以缩短公式-但谁有时间剩下的就是子目录计数(第一个子目录从0开始)

将C2替换为第一个网址干/网址单元,然后将公式复制到整个列表中以使其生效。

确保用适当的起始单元格替换所有C2,然后按最小到最大的顺序对新的子目录计数列进行排序,以获得逻辑顺序良好的文件夹列表,或者按子目录级别轻松筛选例如,如下图所示:上面的

是一个按级别排序的子目录

上方的图像是按深度排序的子目录

如果您不处理大量的网址,您可以按字母顺序对网址进行排序,但是您将无法获得子目录计数过滤,这对于大型网站来说可能要快得多。

按内容类型查看爬网频率

查找要爬网的内容或是否有任何限制爬网预算的内容类型,这是查找爬网预算浪费的最佳选择使用这种策略,您可以很容易地找到不必要的或低优先级的CSS和JS文件的频繁爬网,或者在您试图优化图像搜索时爬网图像。

在Excel中,按内容类型查看爬网频率就像使用“结束方式”过滤选项按URL或URI词干过滤一样简单

快速提示:您也可以使用“不要以...结尾”过滤并使用。查看非HTML页面文件是如何被抓取的——总是值得检查,以防止不必要的js或css文件浪费抓取预算,甚至图像和图像变化(看看你的Wordpress)此外,请记住,如果您的网站有尾随和非尾随斜线网址,使用或运算符与过滤来考虑它们

监控机器人:了解网站的爬行行为

日志文件分析使我们能够了解机器人的优先级以及它们的行为不同的机器人在不同的情况下表现如何?有了这些知识,你不仅可以加深对搜索引擎优化和爬行的理解,还可以在理解网站架构的有效性方面有一个巨大的飞跃。

查看最多和最少搜索的网址

以前,这个策略可以通过查看用户代理搜索的网址来完善,但它甚至更快

在Excel中,选择表格中的单元格,然后单击插入>按钮。“数据透视表”,确保选择包含必要的列(在这种情况下,是网址或URI词干和用户代理),然后单击“确定”

创建数据透视表后,将该行设置为网址或URI词干,并将总和设置为用户代理

在这里,您可以右键单击“用户代理”列,并按爬网计数从最大到最小对网址进行排序:

现在,您将有一个很好的表格,您可以从中制作图表或快速查看并找到任何有问题的区域:

查看这些数据时,您要问自己的一个问题是:您或您的客户是否希望爬网页面?多久一次?频繁的爬行并不一定意味着更好的结果,但它可能表明谷歌和其他内容用户代理已经优先考虑的内容。

爬行频率每天、每周或每月

在谷歌更新或紧急情况下,检查爬行活动以确定一段时间内可见性降低的问题,并通知您问题可能在哪里。这很简单,只需选择日期列,确保它是日期格式类型,然后使用日期列上的日期筛选选项如果您想分析整个星期,只需选择适当的日期和可用的过滤选项。

了解谷歌通过命令捕获频率

遵循什么指令(例如,如果你使用机器人不允许或甚至没有索引的命令)对于任何搜索引擎优化评论或广告系列都是至关重要的。例如,如果一个网站使用多个导航网址,你需要确保这些网址被跟踪。如果没有,推荐更好的解决方案,如页面指令(如元机器人标签)

要根据说明查看捕获频率,您需要将捕获报告与日志文件分析结合起来。

(警告:我们将使用VLOOKUP,但它并不像人们想象的那么复杂)

要获取合并数据,请执行以下操作:

使用您最喜欢的爬网程序从您的站点爬网我可能有偏见,但我是审查青蛙的忠实支持者,所以我会使用它。如果您还在使用蜘蛛,请按照原样操作,否则,请致电获取相同的结果。从搜索引擎优化蜘蛛导出内部HTML报告(“内部标签”>;“过滤器:HTML”),然后打开“内部所有. xlsx”文件

在这里,您可以过滤可索引性状态列并删除所有空白单元格为此,请使用“不包括”过滤器,并将其留空您还可以添加“and”运算符,并通过使过滤器值等于“not contain”→“redirect”来过滤重定向的网址,如下所示:

这将显示元机器人的规范化,没有索引和规范化的网址

复制新表(仅包含“地址”和“可索引状态”列),并将其粘贴到通过日志文件分析导出的另一个表中现在让我们来看看一些VLOOKUP魔术。首先,我们需要确保URI或URL列数据的格式与捕获数据的格式相同日志文件通常在URL中没有根域或协议,因此我们需要在新创建的工作表中使用“查找和替换”来删除URL的开头,或者在日志文件分析表中添加一个新列,以将协议和根域附加到URI中继。我更喜欢这种方法,因为你可以快速复制和粘贴问题的网址并查看它。但是,如果您有大量的日志文件,使用“查找和替换”方法可能会大大减少CPU消耗的资源要获得完整的网址,请使用以下公式,但将网址字段更改为您要分析的任何站点(并确保协议正确)您还需要将D2更改为网址列的第一个单元格&D2,将公式拖到日志文件表的末尾,并得到一个完整网址的漂亮列表:现在,创建另一个列并将其称为“可索引状态”在第一个单元格中,使用类似如下的vlookup:= vlookup(E2,爬网表!1美元:1128.2美元,假)将E2替换为“完整网址”列中的第一个单元格,然后将查找表添加到新表中检索表请记住使用美元符号,这样查询表就不会随你而改变。将公式应用于其他角色然后,选择正确的列(1将是索引表中的第一列,所以数字2是我们后面的列)使用FALSE范围查找模式进行精确匹配现在,您有了一个整洁的网址列表,其可索引性状态与爬网数据相匹配:通过深度和内部链接爬网频率

通过这一分析,我们可以查看网站架构在爬网预算和爬网能力方面的性能主要目的是看看网址是否比请求的数量大得多——如果是这样,你会遇到问题。僵尸程序不应该“放弃”抓取整个网站,发现重要内容,或者在不重要的内容上浪费抓取预算

提示:在这个分析中,使用爬行可视化工具来查看网站的整体架构并查看哪里有“分支”或内部链接差的页面也是值得的。

要获取所有重要数据,请执行以下操作:

使用首选抓取工具抓取您的网站,并导出每个报告的点击深度和内部链接数量以及每个网址就我而言,我正在使用尖叫青蛙搜索引擎优化蜘蛛,并将导出内部报告:使用VLOOKUP将您的网址与“抓取深度”列和“链接数量”相匹配,这将为您提供以下信息:根据您想要查看的数据类型,您可能希望只过滤出此时返回200个响应代码的网址,或者在以后创建的数据透视表中将其设置为可过滤选项。如果您想查看电子商务网站,您可能只想关注产品网址,或者如果您想优化图像的爬网,您可以通过使用“内容”筛选日志文件的URI列-“类型”列进行爬网导出来按文件类型进行筛选,并选择使用数据透视表进行筛选。像所有这些支票一样,你有很多选择!使用数据透视表,您现在可以使用以下选项按爬网深度(在本例中,按特定的浏览器进行筛选)分析爬网率:

以获得以下结果:256以上的数据优于搜索控制台?识别爬行问题

搜索控制台可能是每个搜索引擎优化的首选,但它肯定是有缺陷的。历史数据很难获得,并且可以查看的行数有限(在撰写本文时为1000行)然而,借助于日志文件分析,这是极限。通过以下检查,我们将发现爬网和响应错误,对您的网站进行全面的运行状况检查

发现抓取错误

一个明显和快速的检查被添加到你的军械库。您所要做的就是过滤日志文件的状态列(在我的例子中,是W3C日志文件类型的“sc-状态”)来查找4xx和5xx错误:

查找不一致的服务器响应

对于特定的网址随时间变化的服务器响应可能是不同的,这可能是正常现象,例如修复断开的链接或严重的服务器问题的迹象(例如,过多的网站流量导致更多的内部问题)服务器错误正在影响您网站的可访问性。

分析服务器响应就像按网址和日期过滤一样简单:

此外,如果您想快速查看响应代码中网址的变化,可以使用数据透视表,其中行设置为网址,列设置为响应代码,并计算网址生成的第二个响应数。要实现此设置,请使用以下设置创建数据透视表:

这将产生以下结果:

如上表所示,您可以清楚地看到“/INCONCIST”。“HTML”(在红色框中突出显示)有不同的响应代码

按子目录检查错误

要找出哪些子目录导致最多的问题,我们只需要执行一些简单的网址过滤过滤掉URI列(在我的例子中是cs-uri-stem)并使用“包括”过滤选项来选择一个特定的子目录和该子目录中的任何页面(使用通配符*):

对我来说,我检查了博客子目录,结果如下:

查看用户代理的错误

找出哪些机器人可能在斗争中有用,原因有多种,包括查看移动机器人和桌面机器人之间的网站性能差异,或者哪些搜索引擎最能抓取更多的网站

您可能想知道哪些特定的网址会给特定的浏览者带来问题最简单的方法是使用数据透视表,它可以过滤每个URI特定响应代码的出现次数。为此,请使用以下设置来制作数据透视表:

在此,您可以按所选的漫游器和响应代码类型进行筛选,如下图所示,我正在筛选谷歌桌面以查找404个错误:

此外,您还可以使用数据透视表来查看特定漫游器生成不同响应代码的总次数,方法是创建一个数据透视表,该数据透视表按漫游器进行筛选,按URI事件计数,并将响应代码用作行为此,请使用以下设置:

例如,在数据透视表(如下)中,我正在查看谷歌机器人收到了多少响应代码:

诊断页面问题

该网站不仅需要为人类设计,还需要为机器人设计。该页面不应加载太慢或下载太多,通过日志文件分析,您可以从浏览器的角度查看每个网址的这两个指标。

查找慢速页面和大页面

虽然您可以按“花费的时间”或“加载时间”列从最大到最小对日志文件进行排序,以查找最慢的加载页面,但最好查看每个网址的平均加载时间,因为除了网页的实际速度之外,可能还有其他因素导致请求缓慢

为此,创建一个数据透视表,其中的行设置为URI词干或网址,合计设置为加载时间或加载时间:

。然后,在这种情况下,使用下拉箭头显示“总花费时间”并转到“值字段设置”:

在新窗口中,选择“平均”。您已经完成设置:

现在,当按最大时间时,当按最小时间和平均时间对URI词干排序时,应该有类似于

查找大页面

现在,您可以使用下面显示的设置添加下载大小列(在我的情况下是sc字节)请记住,将大小设置为平均值或总和取决于您想要看到的内容。对我来说,我已经完成了平均值:

,你应该得到类似下面的东西:

机器人行为:验证和分析机器人

了解机器人和爬行行为的最好方法,最简单的方法是使用日志文件分析,因为你将再次得到真实的数据,它将比其他方法节省很多时间。

查找未爬网的网址

只需使用您选择的工具爬网您的网站,然后将您的日志文件与该网址进行比较,以找到唯一的路径。您可以使用Excel的“重复数据消除”功能或条件格式来实现这一点,尽管前者的CPU占用率要低得多,尤其是对于较大的日志文件简单!

识别垃圾邮件机器人

日志文件和一些基本命令行操作人员可以轻松识别垃圾邮件和欺骗性机器人对服务器造成的不必要压力大多数请求还会有一个与之关联的ip,所以使用您的IP列(在我的例子中,W3C格式日志被标记为“c-ip”)来删除所有重复项,以找到每个单独的请求IP从

开始,您应该遵循谷歌文档中概述的IP认证过程(注意:对于Windows用户,请使用nslookup命令):

https://support.Google.com/webmasters/answer/80553? Hl = zh _ CN

,或者,如果您想验证Bing机器人,请使用其方便的工具:

HTTPS://www.bing.com/Toolbox/Verify-Bingbot

Conclusion:日志文件分析-听起来并不可怕

使用一些简单的工具,您可以更深入地了解谷歌机器人的行为。当你理解了网站是如何处理爬虫的,你就可以诊断出比咀嚼更多的问题——但是日志文件分析的真正功能是能够测试关于谷歌机器人的理论,并扩展上述技术来收集你自己的意见和启示。

您将使用日志文件分析来测试哪些理论?除了上面列出的日志文件之外,您还可以从日志文件中收集哪些见解?