Spr Collection .NET 2006 是一款功能强大、容易上手、使用多线程的内容采

1 程序介绍
Spr Collection .NET 2006 是一款功能强大、容易上手、使用多线程的内容采集发布程序!
2 使用环境和安装说明
2.1 使用环境
Spr Collection .NET 2006采用 Microsoft Visual Studio .NET 2003 VB.NET编写,可独立在Windows2003下运行,如您在Windows2000、Xp等环境下使用请先到微软官方下载一个.net framework1.1或更高环境组件:
.Net Framework 1.1
.Net Framework 2.0
2.2 安装说明
当您系统配置好程序运行环境后,请在我们官方网站下载最新版本的Spr Collection .NET 2006,程序使用winrar压缩打包,下载后请使用winrar.340以上解压,然后进入程序目录双击SprCollection.exe即可运行。
3 界面说明
3.1 数据采集
http://spr.net.ru/images/sc/help/1.gif
3.2 采集列表
http://spr.net.ru/images/sc/help/2.gif
3.3 登陆发帖
http://spr.net.ru/images/sc/help/3.gif
4 操作流程说明
4.1 确认采集目标网站,我们以采集华军的软件新闻为例;
http://spr.net.ru/images/sc/help/4.gif
4.2 打开SprCollection,点击添加采集器
4.2.1
填写上采集器名称,不能有同名采集器存在。
4.2.2
连接索引:
4.2.2.1
单页:
输入我们要采集的网址:http://news.newhua.com/html/Soft_news/index.shtml
http://spr.net.ru/images/sc/help/5.gif
4.2.2.2
多页:
如果要采集后面的页面:
http://news.newhua.com/html/Soft_news/index_2.shtml
。。。。。。。。。。。。。。。。。。。。。。。
http://news.newhua.com/html/Soft_news/index_10.shtml
则填入http://news.newhua.com/html/Soft_news/index_[分页].shtml,在后面的文本框里分别填入2和10
http://spr.net.ru/images/sc/help/6.gif
4.2.3
连接规则:
连接规则可用标签: [连接] [变数]
打开http://news.newhua.com/html/Soft_news/index.shtml的源文件,就是在网页上点击鼠标右键,选择“查看源文件”.
在网页上随便找一条新闻,我找的是 让“中国芯”走向世界 “超越英特尔夕可死矣”
然后再源文件里查找 让“中国芯”走向世界 “超越英特尔夕可死矣”
下面就是在源文件里找到的连接地址了
CODE:
[Copy to clipboard]
·让“中国芯”走向世界 “超越英特尔夕可死矣”然后利用可用标签,将上面地址改成下面这一个样子。
CODE:
[Copy to clipboard]
·[变数]4.2.4
标题规则:
标题规则可用标签: [标题] [变数]
基本上连接地址都带有标题,所以将上面的改下就可以用了
CODE:
[Copy to clipboard]
·[标题]4.2.5
HTTP选项:
4.2.5.1
Cookie内容:
当一些网站需要登陆浏览的时候用到的功能。可以使用一些能捕捉cookies内容的软件。考虑以后版本加入登陆采集功能。
推荐:TouchNet浏览器
4.2.5.2
POST内容:
向CSDN这样的用POST传递数据的网站,可以使用POST功能。以后版本开放。
4.2.6
内容规则:
打开 让“中国芯”走向世界 “超越英特尔夕可死矣” 的连接. 查看它的源文件。
文件开头的文字是 “ 1月7日,星期六,北京大 ",在源码里查找它。
CODE:
[Copy to clipboard]
   1月7日,星期六,北京大在内容规则里填入
CODE:
[Copy to clipboard]
[内容]好了,接下来找文章的结尾。
文章结尾文字 " 旭激励自己和同事的“名言”。 " 在源文件里查找 它
找文章结尾 唯一的 文字 我选中了 “上一篇”, 把上面的内容规则补上。
CODE:
[Copy to clipboard]
[内容]上一篇4.2.7
分页区域规则:
如果文件没有分页,这里就留空。
华军有些文章都有分页,所以还要填写分页区域规则。
在源文件里找到分页的代码
CODE:
[Copy to clipboard]
本新闻共2页,当前在第1页  1  2  把第1页后面的都设置为分页区域,改成
CODE:
[Copy to clipboard]
本新闻共2页,当前在第1页  1  [分页区域]  4.2.8
过滤规则:
过滤的内容为 内容规则采集到的内容里进行过滤得,所以得在上面步骤都完成后再查找要过滤得内容。
过滤规则的格式为[Filter]xxxxxx[/Filter]。
上面内容规则里把 分页信息也包括了,所以这里先把分页信息给去掉。
CODE:
[Copy to clipboard]
[Filter]本新闻共[变数]  [/Filter]可以添加多个,无任何限制。
[Filter][变数]
[/Filter]
[Filter][/Filter]
这里 2个都是我后来根据采集的数据自己加的,把一些无用的信息过滤掉。
到这里就可以按下 添加采集器 按钮了,如果 数据采集 里没有刚才添加的采集器,按下刷新 即可
http://spr.net.ru/images/sc/help/7.gif
4.2.9
添加完规则,就可以按下 “采集连接” 的按钮了
采集到连接后,把连接保存下来。
可以自己选择要保存的连接。
也可以在采集列表 点鼠标右键,选择全选。
http://spr.net.ru/images/sc/help/8.gif
接下来可以测试下内容规则、分页区域规则、过滤规则
选定一个连接,点 测试 按钮,出现 “内容规则测试成功,成功采集到内容!” 就说明你的规则能够正常使用,如果出现失败字样,你的内容规则就需要重新改下了。
选择要导入的连接后,点击导入。
完成后,下面会显示导入的状态。
http://spr.net.ru/images/sc/help/9.gif
点击右边的刷新,已采集网址中会出现未导入的采集器集合,后面的数字代表,该采集器未导入的连接数。
4.3
登陆发帖:
4.3.1
输入登陆地址及登陆名称、密码等,点击登陆,会看到登陆成功
http://spr.net.ru/images/sc/help/10.gif
已经成功登陆论坛了。点击刷新分类.获取论坛的版块,也可以使用自定义分类。
http://spr.net.ru/images/sc/help/11.gif
4.3.2
开始导入
选择你需要发帖的格式。如果发HTML格式的帖子,必须要能发HTML文章的帐号。
也可以选择UBB格式发帖,软件内置HTML - UBB的转换。
在开始导入前,必须在 “采集列表”的 “已采集网址集合” 里选择一个采集器。
点击 开始导入 ,我们看到右边的状态栏已经开始在发表了。
http://spr.net.ru/images/sc/help/12.gif
4.4
我们来看看采集的结果吧~~
http://spr.net.ru/images/sc/help/13.gif
http://spr.net.ru/images/sc/help/14.gif

评论: 0 | 引用: 0 | 阅读: 1087
 加入网摘