标题:使用火车头抓取新浪论坛分析活跃用户及发帖质量实战(采取分页抓取发)

-------------------------------------------------------------------------------------------------------------------------------

时间:2013/6/23 16:18:49

-------------------------------------------------------------------------------------------------------------------------------

内容:

项目工具:
火车头是一个很好的抓取工作 可以设置不同的抓取规则遍历你需要的网页
同时设置不同的页面抓取方法 来获取页面上的指定内容 目前有免费版的火车头7.7

项目背景:
需要在新浪论坛 军事板块里对活跃用户做分析,主要是考察他们的发帖量以及发帖质量(回复率)
对其可以进行奖励或者收买

项目需求:
通过火车头工具,需要获得最新发帖的100个用户的发帖时间,注册id,注册时间,总发帖量,最近的10次发帖的
浏览量以及回复数

方法如下:
百度搜索火车头 找到官网
下载解压后 打开主要文件

新浪网站论坛进行分析
明确页面抓取策略
  1. 通过观察论坛页面的url变化规则找出了若干列表页面及为0级页面
  2. 通过这几个0级页面上的规律找出具体内容页面的url 及为1级页面
  3. 通过1级页面上的规则找出发帖人的个人信息页面 及为2级页面
  4. 通过个人信息页面找到此人最新的10次发帖记录的url为3级页面

具体步骤
查看更多精彩图片
如图所示 设置0级url 规则
因为发现新浪军事板块的列表url页面为http://club.mil.news.sina.com.cn/forum-2-2.html
其中网址中最后一个2是等差数列 如下图
查看更多精彩图片
添加5个列表url 的0级页面
然后设置下采集规则
自动从某些额页面元素开始抓
到某些页面元素结尾 找出其中url为1级url
这部要在心中铭记  这个1级url是原点,以后再往下面深挖都是以这点为基础的
 

发布一个采集规则 及抓取这个1级url打开后的标题
查看更多精彩图片
如上图所示 有一个默认页 心中要明白就是我前面说的原点 也就是1及url页面
然后通过截取的方法指定抓取文章标题的方法
同理可以在这个原点页面抓取到帖子的标题 帖子的主人 回复数及浏览数以及主人注册时间
当然我们还不能满足 因为我们还要抓这个发帖人最近几次的发帖的浏览情况以及回复情况
还有这个发帖人的总发帖量 都是考核数量和质量的方法
 
这里就要用到多页管理 增加一个个人信息页面
通过在原点页面分析
查看更多精彩图片
找出个人信息页面的抓取方法 如上图所示 测试下 然后因为我需要找到个人信息也还要加工下url
因为我要好他最近发帖的页面 所以加了点参数
 
 
继续深挖 因为我还要抓取这个个人信息页面上的多个链接
所以切到多页编辑模式 找到之前生成的多页 然后点击编辑多页规则
找到分页便签输入 测试下 这样可以找到发帖人最近10次的贴



查看更多精彩图片


到目前位置 我们已经抓取了所有我抓取的页面
接下来多页面的内容进行挖掘分析
回到采集内容下面
增加一个标签后
注意了 这里的标签你要选择从个人信息页面抓
然后你是抓个人信息页里面的分页 所以再选一个在分页中匹配
这样就可以从默认页面下挖2级了


查看更多精彩图片

查看更多精彩图片



项目工具:
火车头是一个很好的抓取工作 可以设置不同的抓取规则遍历你需要的网页
同时设置不同的页面抓取方法 来获取页面上的指定内容 目前有免费版的火车头7.7

项目背景:
需要在新浪论坛 军事板块里对活跃用户做分析,主要是考察他们的发帖量以及发帖质量(回复率)
对其可以进行奖励或者收买

项目需求:
通过火车头工具,需要获得最新发帖的100个用户的发帖时间,注册id,注册时间,总发帖量,最近的10次发帖的
浏览量以及回复数

方法如下:
百度搜索火车头 找到官网
下载解压后 打开主要文件

新浪网站论坛进行分析
明确页面抓取策略
  1. 通过观察论坛页面的url变化规则找出了若干列表页面及为0级页面
  2. 通过这几个0级页面上的规律找出具体内容页面的url 及为1级页面
  3. 通过1级页面上的规则找出发帖人的个人信息页面 及为2级页面
  4. 通过个人信息页面找到此人最新的10次发帖记录的url为3级页面

具体步骤
查看更多精彩图片
如图所示 设置0级url 规则
因为发现新浪军事板块的列表url页面为http://club.mil.news.sina.com.cn/forum-2-2.html
其中网址中最后一个2是等差数列 如下图
查看更多精彩图片
添加5个列表url 的0级页面
然后设置下采集规则
自动从某些额页面元素开始抓
到某些页面元素结尾 找出其中url为1级url
这部要在心中铭记  这个1级url是原点,以后再往下面深挖都是以这点为基础的
 

发布一个采集规则 及抓取这个1级url打开后的标题
查看更多精彩图片
如上图所示 有一个默认页 心中要明白就是我前面说的原点 也就是1及url页面
然后通过截取的方法指定抓取文章标题的方法
同理可以在这个原点页面抓取到帖子的标题 帖子的主人 回复数及浏览数以及主人注册时间
当然我们还不能满足 因为我们还要抓这个发帖人最近几次的发帖的浏览情况以及回复情况
还有这个发帖人的总发帖量 都是考核数量和质量的方法
 
这里就要用到多页管理 增加一个个人信息页面
通过在原点页面分析
查看更多精彩图片
找出个人信息页面的抓取方法 如上图所示 测试下 然后因为我需要找到个人信息也还要加工下url
因为我要好他最近发帖的页面 所以加了点参数
 
 
继续深挖 因为我还要抓取这个个人信息页面上的多个链接
所以切到多页编辑模式 找到之前生成的多页 然后点击编辑多页规则
找到分页便签输入 测试下 这样可以找到发帖人最近10次的贴



查看更多精彩图片


到目前位置 我们已经抓取了所有我抓取的页面
接下来多页面的内容进行挖掘分析
回到采集内容下面
增加一个标签后
注意了 这里的标签你要选择从个人信息页面抓
然后你是抓个人信息页里面的分页 所以再选一个在分页中匹配
这样就可以从默认页面下挖2级了


查看更多精彩图片

查看更多精彩图片