2018年12月20日 | 标签:

免费sitemap 工具生成10万页面XML格式网站地图

前言

只要只从事过网站管理员或者SEO工作的人一定不会对XML格式的sitemap陌生,为了提升搜索引擎抓取网站的效率,需要把使用工具把网站里面所有的页面的URL按照W3C的标准制作成索引文件,再通过搜索引擎的站长工具提交。搜索引擎蜘蛛就可以按照这个索引文件按图索骥,大大方面的提升抓取效率

所以这个xml版本的sitemap文件是刚需,但是能制作这个文件的方法确不多。一般是两类工具来制作。

网页工具:因为这个文件需要占用很多网络资源 长时间的爬取网页,国内基本没有这样的雷锋,可以帮助你来做。就算国外的工具,也只适用于爬去1000个页面以内的页面 ,如果页面再多就无能为力。必经网络资源是有成本的

另外一类是桌面工具:这类工具国产有许多,但是基本都是收费的,毕竟别人开发工具有成本 而且这个工具没有太大的粘度,基本上也无法带来流量变现,想找到一款合适的实在很难,机缘巧合我找到了一款。就是本文的主角老虎地图。它是一款良心工具,免费,绿色免安装,功能强大,多线程,高度个性化定置。能安装规则爬取。

但是如果只是介绍一款工具运用 网站有许多这样的文字,本文主要是介绍在使用这款工具爬取超过10万多页面的网站的技巧。如果只是爬取几千页面的文字,可以忽略、

项目背景

目前有一个国际客户,中文内容,目前我们的需求是制作一份中文的站点地图文件。

项目挑战:

网站是一个全站站点,里面链接错综复杂,并且中英内容交叉,还有大量深不可测的网址(链接参数无线死循环),使用工具爬取了1天1夜,只能爬取10w个页面但是工具显示这个网站还有90万多的页面没有爬取,并且这个未爬取的数量还在增加,照这样下去,10天10夜也无法完成任务

项目分析思路:

于是我们就导出了已经爬取的10w个页面,进行分析,查看是什么类型的链接,是否都是必要的,如果不必要,如何避免被加入到sitemap,找出其中大部分不需要的网址的规律,添加到爬取或者过滤器中,提示爬取效率

实施技巧:

数据分析工具的选择:

这里要声明下 excel不是处理这种超过十万行数据比较好的方法,可以使用sublime或者tableau等,这里使用excel主要是为了效率,因为其他工具不熟,然后工具速度慢,但是人的操作熟练度比工具的效率对结果的影响更大,所以适合自己的工具才是最好的

过滤的策略:

这个工具有2个过滤策略,一个是爬取过滤,就是爬虫都不会去爬,还有一个是收录过滤

爬取过滤

就是决定是否添加到sitemap中,在爬取过滤中已经添加了一些脚本 邮件协议等不能抓取的,其他默认都是可以抓取的,但是这个客户的网站有需要是其他国家的,我们可以通过增加URL中其他国家的代码 把别的国家排除在外,或者使用包含命令 只包含自己国家代码的URL 过滤规律 把其他国家的网址都排除在外

收录过滤

在收录过滤中我们的可以把带有.html 作为包含在内 ,这个客户的URL有很多套,带有参数的带有?的我们都不需要他们真正需要优化的是html都已经做了静态化.所以我们做的url 需要包含.html,但是也有一些特例如.html/abc/dfdd?ddd  这样的,所以我们就添加了一个排除命令.hmtl/ 这样的既不是以.html结尾的我们都排除

基本上使用好过滤就可以把我们抓取的页面从10w迅速减少到2w,大大提升抓取效率,如图我们使用了其中一个过滤方法后 从10w页面降低到6w

在增加一个排除字符串? 即把所有带有参数的网址都排除(但是还是可以继续抓取,通过抓取可以这个页面上是否还有其他复合要求的网址)

进一步优化空间:

这个工具的过滤规则 不支持正则匹配,稍微复杂的规则就不能胜任,建议增加正则匹配选项

目前的包含字符串规则 无法写并列包含,也就是如果我需要抓取的网址

 包含abc 还要同时包含123 就无法满足

最后附上工具链接

链接: https://pan.baidu.com/s/1vfro0iNqYf9-qYwjVN7F8g 提取码: 2eu2

工具简单介绍




 

2018年12月10日 | 标签:

项目背景

客户尝试使用了一个比较长的单一网页去推广产品,页面上装有了GA的分析工具,经过一段时间的推广,积累了许多数据,希望知道用户对这种比较长页面接受度

点击放大查看长页面截图实例



项目难点

因为页面是单一页面,无任何跳转,所以通过GA是无法统计到用户的停留时间和跳出率的(GA需要利用不同页面的跳转间的时间差来计算停留时间,如果只有一个页面是,则该值永远为0),考虑使用访问深度这个参数来衡量用户的黏度,既网民是否访问到长页面底部。但是GA的默认是没有访问深度这个功能,通过chrome插件添加的功能也不准确 不好使用




解决思路

需要监控的数据可以通过GA的事件追踪 Event Tracking来传递到GA里去,可以再页面的不同位置添加代码,当用户的滚动栏滑动到指定位置,即触发代码,回传到GA




实现原理

通过JS获取用户当前的浏览器窗口的垂直偏离值,和整个页面的长以及当前窗口的高度,通过这3者的计算可以获得用户当前的访问深度(已经看完页面百分之X的内容既访问深度为X%)

进行循环判断,当X=20%的时候,触发GA的Event Tracking 代码将事件信息 event category为scrolling,event action 为20%,event label为当前页面URL 回传到GA 记录,同理可以记录触发其它3次访问深度的数据




实施过程:

  • 数据的收集:

将对应判断的JS代码添加到页面靠近顶部位置, 但是需要在GA代码的下方(需要先触发GA代码,再触发Event Tracking code),使用GA Debug工具查看是否传送数据回去

  • 数据的整理:

经过一段时间的积累,可以在GA的事件报告中看到我们之前记录的信息,如下

我们可以使用GA的自定义报告功能重新编辑数据形式,增加2个拆分维度,访问设备以及

访问时间,又因为这里是访问深度是具体数字,可以以20%的时间数量为100%,推算出各自访问深度的比例,例如90%的访问比例是 90%的触发次数除以20%的触发次数

数据的可视化:

通过对时间和设备的数据拆分,进行做图,可以看到不同时间段的不同设备的访问深度

数据的结论:

对比PC和Mobile数据

Mobile用户的访问深度比较稳定,而PC用户波动比较大,在这说明PC用户在午饭和晚饭时间(中午1点和晚上8点)是最没有耐心的,访问深度最浅(去除临时时间),在这段时间对PC用户进行广告推广效果不会很好,而在午饭前(11-12)和快下班(4-5点)PC用户的耐性最好,愿意去看比较复杂的信息

单独看Mobile用户的数据(PC数据变化大,需移除后看Mobile数据)

Mobile用户在早上的上班途中(8-9)是最有耐心的,可能是交通工具上需要打发时间,其次是下午的1-3点饭后时间,也是比较有耐心,可能是吃完饭需要看些信息同时消化食物,再其次是晚上11点睡前会有一个高峰,可能是消费者夜深人静时候会理性考虑产品

2017年5月21日 | 标签:

百度统计算是国内能正常访问的最强大的免费分析工具之一了,很多公司因为没有VPN所以很多网页数据分析解决方案选择的是它,目前手里有一个客户就是所有的网页数据都使用百度统计来进行

 

故事背景

目前客户建立了一个网站群,分别有8个子站,同一个域名 但是使用了8个百度统计代码分别记录(不要问我为什么会一个子站用一个代码,正确做法是8个子站用一个代码,甚至跨域的子站都要使用一个代码 再加一个跨域设置即可)

挑战

每天都需要人肉进行8个网站代码的流量统计以及事件统计,需要进入到8个账户 一个个下载

网页访问报告以及事件报告

工作量非常大 同时 因为有百度推广账户,也需要安装百度统计代码,方便分享转化数据到百度账户中

 

解决思路

本来准备新建立一个百度统计代码,把这8个代码都统一为一个,但是这样8个分析账户的中的数据就要受到影响以后都不能受到数据,新账户从0开始,无法迁移老账户到新账户

看到百度统计有合并功能 可以吧8个网站数据合并到一个里面,这里是可以不用换代码 一个虚拟账户中可以查看所有流量的合并,但是缺点是只能合并流量数据 无法合并事件和转化数据,还是需要一个个进入到8个账户中查看

换一个思路,再加一次代码,既一个页面同时加入新老2套代码,根据百度官方的答复是可以统计代码加2次 没有影响,我也测试过确实可以

但是转化代码可以加2个吗,咨询过技术,得到答复是不行,会自动覆盖,事件只能激发一次

但是很多事情需要自己尝试才知道 ,百度统计可以使用定义id的方式,点击某个元素 当这个元素有id的适合即可定义为转化,经常尝试 确实可以

既最终解决方案

原来代码全部保留,新建立一个网站生成一套代码加到这8个页面中

这新建立的网站中通过设置 元素id来创建转化

同时通过分享功能推荐给百度推广账户 打通数据