数据收集是进行大数据处理的前提和必要条件,它在整个过程中占有重要地位。今天小编将为大家介绍三种大数据数据采集的形式:系统日志采集法、网络数据采集法和其它数据采集法。希望能够增加大家对大数据数据采集有哪几种形式的了解。
数据分析
系统日志是记录系统中硬件、软件和系统问题的信息,也可以监控系统中发生的事件。用户可以通过它检查错误的原因,或者找到攻击者留下的痕迹。系统日志包括系统日志、应用日志和安全日志。
大数据平台和开源Hadoop平台产生了大量高价值系统日志信息,如何收集成为研究者的研究热点。目前,基于Hadoop平台开发的Chukwa、Cloudera的Flume和Facebook的Scribe(李连宁、2016)成为系统日志收集法的典范。目前,这种采集技术可以每秒传输数百MB的日志数据信息,满足当前人们对信息速度的需求。一般来说,与我们有关的不是这样的收集法,而是网络数据收集法。
做自然语言的同学可能对这一点有很深的感触,除了现在已经存在的公开数据集,用于日常算法研究外,有时为了满足项目的实际需求,还需要收集和保存现实网页的数据。目前,收集网络数据有两种方法:API和网络爬虫类。
API又称应用接口,是网站管理者为用户创建的程序接口。这种接口可以阻挡网站基础的复杂算法,只需简单调用即可实现数据的请求功能。目前,主流的社交媒体平台,如新浪微博、百度贴吧和脸书等,都提供应用编程接口服务,可以在官方网站开放平台上获得相关的DEMO。但是,API技术最终限于平台开发者,为了减少网站(平台)的负荷,一般平台限制每天的接口调用上限,给我们带来很大的不便。因此,我们通常采用第二种方法。
网络爬行动物(也称为网络蜘蛛、网络机器人,在FOFA社区之间,经常被称为网络追踪者是根据一定的规则自动捕获万维网络信息的程序和脚本。另外,不怎么使用的名字有蚂蚁、自动索引、模拟程序和蠕虫。最常见的爬虫类是我们经常使用的搜索引擎,如百度、360搜索等。这种爬虫统称为通用爬虫,无条件收集所有网页。
给爬虫初始URL,爬虫在提取和保存网页所需的资源的同时,提取网站所存在的其他网站链接,发送请求,接受网站的响应,再次分析网页,提取所需的资源并保存,提取网页所需的资源当然,为了满足更多的需求,多线程爬虫类也诞生了主题爬虫类。多线程爬虫在多线程的同时执行采集任务,一般来说,数据采集数据会增加数倍。主题爬虫类与通用爬虫类完全相反,通过一定的战略过滤与主题(收集任务)无关的网页信息,只留下必要的数据。这可以大大降低与数据无关的数据稀疏问题。
其他采集法是指对科学研究院、企业政府等有机密信息,如何保证数据的安全传递?可采用系统的特定端口,进行数据传输任务,减少数据泄露的风险。
以上是小编介绍的大数据数据采集有哪几种形式的相关内容。大数据采集技术是大数据技术的开始,好的开始是成功的一半,因此在进行数据采集时必须慎重选择方法。特别是爬虫类技术,主题爬虫类对大部分数据采集任务来说应该是一个好方法,可以深入研究。
[免责声明]
文章标题: 大数据数据采集有哪几种形式?
文章内容为网站编辑整理发布,仅供学习与参考,不代表本网站赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请及时沟通。发送邮件至36dianping@36kr.com,我们会在3个工作日内处理。