2019年5月18日 | 标签:

故事背景

上海移动提供一个和全家的服务,可以申请一个虚拟手机号,不需要买双卡刷待 即可同时拥有2个号码拨打电话和发送短信的功能(具体可以百度查)

但是移动选号提供最后4位选择号码,如果比较好的号码比如8888 肯定是没有了再比如生日也么有

这4位只能匹配移动号码的最后4位 无法中间查询,于是我就想使用爬虫模拟发送0001-9999

即可把移动数据库里面的所有可以选的号码抓出来

 

思路介绍:

APP IOS抓包:

最开始是在app上发现这个入口,想着去抓取手机的数据包看看发送请求的网址,但是因为事https加密,弄了很久

又是设置手机代理,又是下载电脑证书,还有手机证书,好生麻烦,最后放弃

 

转移战场:

无意间我在微信里面看到了这个活动页面,既它留了一个H5的接口,那么就可以绕过APP抓包的问题,通过谷歌浏览器

轻松看到发包对象的网址

然后看到了传递的4个参数,并且看到了传回来的的值

 

但是因为也是https加密,并且带cookie还有session,如果有第3方网抓软件是非常复杂的去模拟这些信息

也是无意间看到谷歌浏览器的console可以运行js脚本,并且js脚本是可以发送http请求的

于是就把好这个东西做出来了

如下图所示

为了安全就不放代码(免得被移动找人请喝茶)

 

 

没有评论 (969 views)
2019年5月10日 | 标签:

需求背景:

之前做了一个利用google sheets的script功能通过百度api下载账户金额然后自动报警的工具

然后想到之前网站看到别人用Excel也做过类似的东西,但是通过的是PowerBI

但是那东西太复杂了 就想着用VBA自己做了一个

 

使用场景:

自己定义时间账户的开始和结束时间,可以下载账户总的消费,也可以分周  分日 和分月

还可以下载每一个计划的分周 分月 分日,甚至是每一个关键词和每一个创意的

再也不用去登录账户了

之后跨账户的报告就可以用若干个这样的excel文件 打开一次 就可以复制一直的值 到大表里面 提升速度

 

先效果图(点击查看大图)

 

 

 

 

 

 

再放静态图

 

最后放链接

 

 

 

链接: https://pan.baidu.com/s/1GWYZMqZQ-A7KviULSKp1Eg

 

提取码: t2jy

 

 

 

里面有详细使用方法

如如何开通百度API

如果开启Excel宏

如何开启VBA中引用

 

3 条评论 (3,173 views)
2018年12月20日 | 标签:

免费sitemap 工具生成10万页面XML格式网站地图

前言

只要只从事过网站管理员或者SEO工作的人一定不会对XML格式的sitemap陌生,为了提升搜索引擎抓取网站的效率,需要把使用工具把网站里面所有的页面的URL按照W3C的标准制作成索引文件,再通过搜索引擎的站长工具提交。搜索引擎蜘蛛就可以按照这个索引文件按图索骥,大大方面的提升抓取效率

所以这个xml版本的sitemap文件是刚需,但是能制作这个文件的方法确不多。一般是两类工具来制作。

网页工具:因为这个文件需要占用很多网络资源 长时间的爬取网页,国内基本没有这样的雷锋,可以帮助你来做。就算国外的工具,也只适用于爬去1000个页面以内的页面 ,如果页面再多就无能为力。必经网络资源是有成本的

另外一类是桌面工具:这类工具国产有许多,但是基本都是收费的,毕竟别人开发工具有成本 而且这个工具没有太大的粘度,基本上也无法带来流量变现,想找到一款合适的实在很难,机缘巧合我找到了一款。就是本文的主角老虎地图。它是一款良心工具,免费,绿色免安装,功能强大,多线程,高度个性化定置。能安装规则爬取。

但是如果只是介绍一款工具运用 网站有许多这样的文字,本文主要是介绍在使用这款工具爬取超过10万多页面的网站的技巧。如果只是爬取几千页面的文字,可以忽略、

项目背景

目前有一个国际客户,中文内容,目前我们的需求是制作一份中文的站点地图文件。

项目挑战:

网站是一个全站站点,里面链接错综复杂,并且中英内容交叉,还有大量深不可测的网址(链接参数无线死循环),使用工具爬取了1天1夜,只能爬取10w个页面但是工具显示这个网站还有90万多的页面没有爬取,并且这个未爬取的数量还在增加,照这样下去,10天10夜也无法完成任务

项目分析思路:

于是我们就导出了已经爬取的10w个页面,进行分析,查看是什么类型的链接,是否都是必要的,如果不必要,如何避免被加入到sitemap,找出其中大部分不需要的网址的规律,添加到爬取或者过滤器中,提示爬取效率

实施技巧:

数据分析工具的选择:

这里要声明下 excel不是处理这种超过十万行数据比较好的方法,可以使用sublime或者tableau等,这里使用excel主要是为了效率,因为其他工具不熟,然后工具速度慢,但是人的操作熟练度比工具的效率对结果的影响更大,所以适合自己的工具才是最好的

过滤的策略:

这个工具有2个过滤策略,一个是爬取过滤,就是爬虫都不会去爬,还有一个是收录过滤

爬取过滤

就是决定是否添加到sitemap中,在爬取过滤中已经添加了一些脚本 邮件协议等不能抓取的,其他默认都是可以抓取的,但是这个客户的网站有需要是其他国家的,我们可以通过增加URL中其他国家的代码 把别的国家排除在外,或者使用包含命令 只包含自己国家代码的URL 过滤规律 把其他国家的网址都排除在外

收录过滤

在收录过滤中我们的可以把带有.html 作为包含在内 ,这个客户的URL有很多套,带有参数的带有?的我们都不需要他们真正需要优化的是html都已经做了静态化.所以我们做的url 需要包含.html,但是也有一些特例如.html/abc/dfdd?ddd  这样的,所以我们就添加了一个排除命令.hmtl/ 这样的既不是以.html结尾的我们都排除

基本上使用好过滤就可以把我们抓取的页面从10w迅速减少到2w,大大提升抓取效率,如图我们使用了其中一个过滤方法后 从10w页面降低到6w

在增加一个排除字符串? 即把所有带有参数的网址都排除(但是还是可以继续抓取,通过抓取可以这个页面上是否还有其他复合要求的网址)

进一步优化空间:

这个工具的过滤规则 不支持正则匹配,稍微复杂的规则就不能胜任,建议增加正则匹配选项

目前的包含字符串规则 无法写并列包含,也就是如果我需要抓取的网址

 包含abc 还要同时包含123 就无法满足

最后附上工具链接

链接: https://pan.baidu.com/s/1vfro0iNqYf9-qYwjVN7F8g 提取码: 2eu2

工具简单介绍




 

没有评论 (1,166 views)