产品介绍 Product introduction
网络资源采集与归档系统软件是一款针对互联网数据进行采集与挖掘的专业工具。它可将浏览器浏览到的任何数据进行采集获取,并可按照用户的需求将数据进行加工、保存,还可根据用户的需求对采集到的数据进行发布管理。
系统支持多机并行爬取、分布式存储、爬虫控制、全文检索、站点原版原貌展现、自动查重去重等功能。数据采集系统能够为数字图书馆的建设提供更新和增加图书、期刊数据库信息,对厂商提供的数据进行采集分析提取有用信息入库或全文检索。
产品功能 Product function
主要包括:采集管理、存储管理、发布管理以及系统平台管理等。
操作界面由菜单、工具栏、树形菜单、系统信息、分类显示数据页签、监控雷达、状态栏等几部分构成。
产品特点 Product feature
系统支持使用正则表示式去匹配需采集的数据
支持对学术站点的周期性保存,并以原版进行展现
系统支持信息采集、存储、展现,可伸缩式三层架构
信息采集层支持热插拔
针对不同站点,存储层支持异构数据库进行存储
异构数据库存储使资源能够进行主题应用的同时保持互联网资源原貌展现