融合网络资源采集、转换、导出、发布、请求、监控。通过强大、灵活的采集工程,把数据挖掘到本地后,可以导出到各种数据库(MSSQL、Oracle、MySQL、Firebird、PostgreSQL、SQLite、ACCESS、XML、CSV)中,也可发布到各大网站、CMS、论坛,支持认证码识别,还可批量转换数十种文件格式、修改属性与修复媒体文件、制作电子书,亦可监控指定网站并在数据改变的时候够自动通过多种方式(MSN/ICQ/QQ/Jabber/电子邮件/手机短信/飞信/网络接口请求/信使服务/Web服务/各种数据库/文件/系统日志/系统声音/注册表/博客/Twitter/饭否/嘀咕/火兔/同学/做啥/9911/新浪微博/滔滔/QZone/ChinaRen/随心微博/雷猴/滴/KaiXin001/i贴吧/51/搜狐/豆瓣/人人/若邻/占座/人间/Follow5/原始村/海内/你我他/泡泡营/Plurk/Gadu/NNTP/IRC/第三方接口/脚本/插件等)通知,更可自定义发送网络请求(如自动投票等)。
特点:
1.功能强大:集网络资源采集、转换、导出、发布、请求、监控于一身;
2.高度弹性:所有功能模块都可使用插件系统扩展,更可使用内置的脚本系统进行自定义扩展;
3.完全绿色:不写注册表,绝不捆绑任何软件/插件,不用安装;
4.语言支持:内置对英文的支持,可以根据语言包格式进行对各种语言的本地化。
智能网络资源系统不是什么?
1).不是离线浏览器。当然,您可以利用它来把指定网站的资源都下载到本地,但这不是它的主要功能;
2).不是搜索引擎。当然,您可以利用内置的蜘蛛功能把一些网站的页面采集到本地;
智能网络资源系统到底是什么?能帮我做什么事情?
1).采集网站数据:通过多年来多互联网海量数据的分析、提炼,我们总结出一套通用的互联网资源模型,根据该模型,我们设计了本系统,通过本系统,您可以对指定网站的资源进行精准的采集;
2).转换数据:采集回来的资源,格式多样,您可以利用内置对过百种文件的支持,转换为指定文件格式;
3).导出到各种数据库:MSSQL、Oracle、MySQL、Firebird、PostgreSQL、SQLite、ACCESS、XML、CSV等;
4).发布到各大网站、论坛、CMS;
5).消息通知:在各种任务完成之后,或监控指定网站并在数据改变时,能够自动通过多种方式(MSN、ICQ、QQ、Jabber、电子邮件、手机短信、飞信、网络接口请求、信使服务、Web服务、各种数据库、文件、系统日志、系统声音、注册表、博客、Twitter、饭否、嘀咕、火兔、同学、做啥、9911、新浪微博、滔滔、QZone、ChinaRen、随心微博、雷猴、滴、KaiXin001、i贴吧、搜狐、豆瓣、51、人人、若邻、占座、人间、Follow5、原始村、海内、你我他、泡泡营、Plurk、Gadu、NNTP、IRC、第三方接口、脚本、插件等)通知;
6).网络请求:自定义发送网络请求(如自动投票等);
□采集:您可以使用采集,对网络上的各种资源进行挖掘。
a).采集工程:采集工作的详细设置文件,包含了要采集的资源链接;
1).采集模式:
i.精确:根据指定资源格式(字段)的定义,进行数据库字段级别的采集;
ii.蜘蛛/爬虫:根据指定的文件匹配表达式,自动对指定网站的资源进行全面分析和采集;
b).字段:各种资源的最小单位,譬如您要采集某个网站的多个帖子,那么每个帖子可能包含以下字段:作者、标题、日期、内容等;
c).链页:一些帖子在多页面里的,这种情况下您可以为帖子的内容字段设置链页属性,自动把多个分页的内容合并到内容字段;
d).追踪:一些资源是要从列表页面中,通过点击多个页面才显示的,这种情况下,您可以为内容自动设置跟踪属性,自动获取最终的内容;
e).登录验证:一些资源网站需要您登录后才可以访问内容,这种情况下下,您可以为整个网站、每个链接甚至每个资源单独定义登录验证以满足具体需求;
1).参数:这是模拟登录需要的参数,譬如用户名、密码等;
2).登录采集工程:一些网站的登录认证相当复杂,往往会采用一些动态参数/值,如果用固定的参数是无法满足登录需求的,这个时候,您可以使用采集工程来自动获取登录参数的值!
3).登录脚本:如果即便使用采集工程仍然无法满足一些特别网站的登录需求,您可以使用自定义的登录脚本来实现相应的登录认证;
f).数据处理:
1).脏字过滤:内置对超过11000个符合国家规定的敏感字符的过滤,您还可以自定义要过滤的字符,以确保您采集到的内容符合相关法律法规;
2).垃圾内容过滤:使用贝叶斯概率模型对已采集的内容自动分析判定是否为垃圾内容,您可以自行对各种垃圾内容进行训练;
3).内容嗅探:对于Flash/Silverlight播放器,会在页面加载之后才从后台获取实际的文件(.FLV/MP3/.XAP等),您可以使用内容嗅探实现对这些实际内容的采集;
4).关键字/标签(Tag)自动分析:利用全文分词对采集的内容进行分析,自动获取内容的关键字/标签列表;
5).文件格式批量转换:对大量文件的快速转换,改变图片或视频的大小/添加水印/改变格式,抽取压缩文件,Office系列文档转换为HTML,以多种方式修改文件名称和内容,修改多媒体文件属性,媒体文件修复与剪切,修改图片文件属性,文本排版,文本混淆,文本简繁大小写编码互转,文本切分合并,网页文本互转,电子书抽取制作,可执行文件抽取生成,不良图片过滤,数据转换等,支持插件,无限扩展支持的格式
a).图片:改变图片大小和格式,添加水印,支持jpg,bmp,png,gif,tif,tga,pcx,wmf,emf,psd,mng,ico,icl,cur,ani,ppm,pbm,pgm,svg,jpeg2000,eip,hif,raw,dicom,sgi等;
b).多媒体文件:支持wav,wmv,avi,asf,rm,rmvb,mpg,qt,mov,mp3,flv的格式转换等;
c).压缩文档:抽取/转换/生成压缩文档,支持zip,rar,7z,cab,msi,iso,cbz,cbr,jar,tar,gzip,bzip2,arj,cpio,deb,dmg,hfs,lzh,lzma,nsis,rpm,udf,wim,xar,xz,z,pak,nsa,ses,m2m,crx,qpsf等;
d).Office文档:支持doc,docx,xls,xlsx,ppt,pptx,uof,msg,eml,mht,chm,hxs,wps,db,xml,box,dps,et,xlb,pdf,rtf,odt,ods,fo,nws,isc,wml,aw,abw,zabw等,另支持iFilter;
e).多媒体文件属性:修改属性,支持wav,wmv,avi,asf,rm,rmvb,mpg,qt,mov,mp3,flc,wma,mpc,ogg,ape;
f).图片文件属性:修改属性,支持jpg,png;
g).文件名修改:支持所有文件;
h).文件名内容修改:支持所有文本文件;
i).媒体文件修复与剪切:支持rmvb,avi,asf;
j).文本排版:段落智能修正、去掉干扰符、修正段落首尾空格、修正标点符号,支持txt,htm,eml;
k).文本切分合并:按大小、行数或段落数剪切文本内容和并内容,支持txt,htm,eml;
l).文本混淆:给文本内容插入干扰字符,支持txt,htm,eml;
m).简繁大小写互转:简体和繁体、全角半角互相转换,支持txt,htm,eml;
n).网页文本互转:网页转为文本或文本转为网页,支持txt,htm,eml;
o).电子书抽取制作:支持UMD,JAR,CHM,PDB,EPub;
p).可执行文件抽取生成:抽取各种可执行文件,生成可执行文件,支持各种文件;
q).不良图片过滤:识别并过滤不良图片,支持所有图片;
r).数据转为网页:根据数据生成网页,支持采集工程和各种数据库;
s).数据转换:使用自定义脚本转换数据和文件,支持采集工程、各种数据库和各种文件;
6).贴霸:快速把其它论坛的帖子内容转换到使用UBB内容格式的论坛作为新帖子的工具,特别针对图片而进行了处理,非常适合进行灌水贴图;
7).媒体文件修复与剪切:修复rmvb文件的错误,剪切内容;
8).快速下载:
i.链接:复制要下载各种资源(如图片等)的链接或网页内容,全自动分析并下载到本地磁盘;
ii.嗅探:复制视频地址或内容,全自动分析并下载视频,特有嗅探功能,支持所有视频网站;
□导出:
a).数据库:把采集后的数据导出到各大数据库/数据文件中;
b).HTML/可执行文件
c).发布
d).消息通知
e).FTP
f).脚本
g).插件
□发布:
a).采集后的数据:您可以把采集后的数据,发布到各大网络CMS系统或者论坛;
b).网络请求:您可以自定义请求,譬如网络投票等;
□任务计划:您可以指定采集、转换、导出、发布、请求等各种任务定时执行。
□消息通知:能够自动通过多种方式(MSN、ICQ、QQ、Jabber、电子邮件、手机短信、飞信、网络接口请求、信使服务、Web服务、各种数据库、文件、系统日志、系统声音、注册表、博客、Twitter、饭否、嘀咕、火兔、同学、做啥、9911、新浪微博、滔滔、QZone、ChinaRen、随心微博、雷猴、滴、KaiXin001、i贴吧、51、搜狐、豆瓣、人人、若邻、占座、人间、Follow5、原始村、海内、你我他、泡泡营、Plurk、Gadu、NNTP、IRC、第三方接口、脚本、插件等)通知
a).在各种任务完成之后,如采集,发布,计划任务等;
b).监控指定网站并在数据改变时;
□监控:您可以定义当网络资源更新时,通过各种通知方式,随时提醒您。
□脚本:脚本是对各种功能的自定义扩展,您可以使用C#/VB.NET/JScript.NET/PHP/VBScript/JavaScript/IronPython/IronRuby等等语言编写;
a).采集脚本:在采集工程中,如果遇到一些特殊的资源,正常的采集方式无法胜任的时候,可以通过脚本来进行自定义的采集;
b).发布脚本:可以针对特殊的网站进行发送请求;
c).消息通知:
d).计划任务:
e).常用:本系统内置了超过100个常用的脚本,如对专用链的解释/编码、条形码的生成、敏感字符的过滤、中文分词/Tag识别、计算数学表达式、RSS解释与生成、消息通知等等;
□认证码识别:自动识别各种登录页面的认证码;
a).默认:全自动识别各种常见的认证码;
b).智能学习:自定义学习各种特殊的认证码;
□扩展与外部工具:
a).本系统提供以下丰富的程序接口,以便您对本系统进行二次开发:
1).消息通知:编写各种特定的消息通知方式以满足你的需求;
2).中文分词/Tag识别
3).数据转换:转换各种采集后的数据到您的业务系统中;
4).工程扩展:对各种工程(采集、发布、脚本、消息通知、计划任务等)进行自定义设置并应用到实际的工程运行中;
5).界面:个性化本系统;
b).外部工具:本系统内置对9大类100多种常用软件的识别,您还可以添加各种软件,以便快速运行;
□任务管理:您可以对采集、发布、请求、计划任务、脚本、消息通知等各种任务进行全面管理:添加、停止、跟踪进度、趋势图、性能报告等。
□应用服务器:应用服务器以Windows服务的形式在系统后台运行,它包括以下模块:
a).分布式计划任务管理器:
b).分布式数据采集与同步:
c).Web服务管理器:允许您在远程用Web浏览器(如IE/FireFox/Opera/Chrome/Safari等)对本系统进行全面管理;