雷电下载站:免费软件、共享软件、绿色软件下载基地!
当前位置:首页 > 电脑软件 > 网络工具 > 站长工具 > 海蛛 for Win/Linux 1.0.6

海蛛 for Win/Linux 1.0.6

海蛛 for Win/Linux 1.0.6

软件大小:9,441 KB

软件语言:简体中文

软件分类:站长工具

软件授权:免费版

软件类型:绿色软件

更新时间:2020-04-02

用户评分:

下载次数:1次

软件官网:www.thunderzz.com

运行环境:Win2003/XP/2000/NT/9x/ME/Unix/Linux

  对于垂直搜索引擎来说,网络蜘蛛是非常重要的,因为在垂直搜索领域,数据的收集工作都是由蜘蛛程序来完成的。垂直搜索引擎除了要设计蜘蛛程序外,还要管理这些蜘蛛程序的运行,这是比较复杂的工作。如果缺乏一套有效的管手段,那么垂直搜索引擎将面临一场恶梦。

  然而幸运的是,我们有了海蛛--这个领先的垂直搜索专用网络蜘蛛系统。有了海蛛,垂直搜索更简单!使用了海蛛,一切变得有条不紊,变得简单起来。

  海蛛五大功能特色

  一、提供WEB管理接口,操作方便

  海蛛启动后,用户可用浏览器访问localhost:6070(注:6070为默认端口,用户也可修改此端口号),登录后便可进行查看系统信息、管理任务和修改登录用户名及密码的工作。任务管理包括新建、修改、复制、启动、停止等项。一切都是通过浏览器来进行,非常简单。

  二、如何持久化数据,用户决定

  对于抓取到的数据,如何持久化的问题是由用户决定的,海蛛提供了持久化的接口IDataPersist,用户端需要实现这个接口。关于用户是如何实现的,海蛛并不关心。通过采用接口方式,用户持久化数据有了非常大的灵活性,对于不同类的数据,能够采用不同的方式进行持久化,满足了实际需求。亦即,抓取来的数据既可存到文件中,也可数据库中,更可通过网络传到另外一台机器中。这一切都由用户根据实际情况来决定。

  三、采用javascript编写蜘蛛程序,修改容易

  蜘蛛程序既可用C/C++等编译型语言来编写,也可用javascript、ruby、python等动态型脚本语言来编写。编译型语言不能直接执行,需要经编译器译成机器码后才能执行,速度较快,但维护不方便。动态脚本语言能马上执行,没有编译这个过程,编写容易,修改容易,维护也容易。有鉴于蜘蛛程序运行于后台且维护量比较大,我们采用了脚本语言javascript作为蜘蛛程序的编写语言。

  海蛛为蜘蛛程序提供了内置的document对象,通过这个对象,蜘蛛程序可以访问到当前抓取到的文档的任何位置的数据,并可将数据进行持久化。下面一段代码能将网页的文本内容抓下来:

  var text = document.textOfNode('/html/body');

  var map = new java.util.HashMap();

  map.put('text',text);

  document.saveData(map);

  document.textOfNode用于获取指定节点的文本内容,而document.saveData用于将数据持久化。怎么样?简单吧。

  四、蜘蛛程序运行时间多样,选择灵活

  为了适应各种情况,海蛛提供了多种运行时间选择:手动运行,每隔X分钟,每隔X小时,每天X时X分,每周周XX时X分,每月X日X点X分,每年X月X日X时X分。这些时间选择,完全满足了数据抓取任务的要求。

  每项任务都可选择自己的运行时间,任务启动后,海蛛会在合适的时刻运行此项任务,执行数据的抓取工作,经由用户提供的持久化类,将数据保存起来。

  五、采用海葵抓取网页,信息完整

  为了获取结构化的网页数据,并且得到网页的完整数据(静态或动态的),海蛛采用了海葵--这个全球首款基于浏览器构建的垂直搜索专用网页抓取服务器来作为后台的抓取工具。它有两种运行模式:第一种是普通模式,仅获取一页数据即关闭连接;第二种是分页模式,根据蜘蛛程序提供的翻到下一页的脚本,会一直保持连接,抓取数据,直到最后一页为止。分页模式适用于用javascript来实现翻页的网站,利用海葵能执行javascript的特性,可准确得到每页数据,抓到普通蜘蛛程序抓不到的网页数据。

  想做一个垂直搜索引擎吗?使用海蛛吧,它让您如虎添翼!

  想让您的垂直搜索引擎工作得更好吗?使用海蛛吧,它让您省力省心!

  海蛛,让垂直搜索更简单!

相关软件

返回顶部