根据用户自定义的任务配置,批量而精确地抽取因特网目标网页中的半结构化与非结构化数据,保存在云数据库中。
主要功能如下:
智能采集功能:
基于页面链接智能分组打分机制,分析目标采集链接
智能识别列表页有效内容,清除页面无关信息
基于机器学习技术,采集资讯详情正文内容、发布日期等多样化基础信息
智能适配96%以上网页详情页结构,准确抽取价值内容
便捷配置功能:
在线配置、实时测试、实时反馈
支持翻页配置、多页面信息组装
大多数情况下,无需编程;复杂情况支持在线编程
支持多种页面节点信息选取方式:css选择器、xpath选择器、正则表达式、groovy脚、Jsonpath选择器、Javascript脚本
采集订阅功能:
支持全系统数据订阅
收起
点评