飞采(NiniDown) 是一款基于.NET编写的多线程信息采集系统(使用前必须安装.NET framework 2.0)。通过直观的的规则制订,模拟浏览器不同的提交行为,可以方便的将浏览器中看到的信息抓取下来,并可以通过在线发布工具或数据库入库工具,将该信息发布到您自己的网站上。其灵活的规则制定,强大的分页处理和标签定义,计划任务,对Access,Mysql,MSsql的数据库支持等功能,将有效节约您的宝贵时间,让工作变得更加轻松。
特色介绍:
支持多任务、多线程:可以同时执行多个采集任务,每个任务又可以使用多个线程,采集速度飞快。
支持SSL协议,可以采集HTTPS://开头的网页(1.3以后版本)
支持暂停任务功能,方便以后采集(1.2以后版本)。
支持表格内容采集,每行数据分开保存到数据库(1.2以后版本)。
支持多层导航技术:可以跨层采集,分页采集,分页内容可以合并为一条记录。
支持采集内容可以多表,跨表保存;可以通过关键字关联,自动整合成一条完整记录。
支持历史记录功能,方便增量采集,避免重复采集。(免费版不支持)
支持固定时间、间隔一定时间采集、全部任务完成后自动关机。
支持网站登录采集,可以采集需要登录才能看到的页面。
支持普通、POST、脚本链接采集。对采用函数生成的分页地址也可以采集,参数支持四则算术表达式计算(1.2以后版本)。
支持POST数据、Cookie捕获,通过内置浏览器可以捕获特殊cookie,如HttpOnly类型的ASP.NET_SessionId等,方便创建下载、发布规则。
支持内容文件下载,可以提取并下载内容中的图片、Flash、附件(常见类型的文件)。
支持分块传输方式(chuncked),压缩(gzip,deflate)的数据流下载。
支持采集链接、文件链接筛选功能,对下载的内容标记剔除、文字替换。
支持模拟提交、源码查看(同web在线发布),方便测试采集规则。
支持HTTP请求头自定义,方便完美模拟各种浏览器请求动作。
支持采集内容保存到数据库,方便第三方软件对采集内容进行再加工。
支持采集结果web在线发布,通过在线方式发布到现有的网站系统。
支持采集结果数据库入库发布,可以发布到Access、SQL Server、MySQL数据库(支持存储过程调用,FTP上传采集的文件)。
2010-1-26:1.4.0.1更新说明
增加采集随机间隔时间1-5
增加导航规则特殊变量
增加导航时源码替换功能
增加自定义特殊结果,当前标题
增加替换支持正则表达式
修改采集结果替换中取消{*}的支持,请使用{任意字符串},任意字符串!=*
修改截取字符段落的解析方法
修正去网址标题判断条件错误问题
修正测试中需要先替换源码的错误
修正自动保存中间状态问题:任务结束不用继续保存中间状态
修正检查版本更新情况时导致程序假死情况,使用子线程