| 企服解答
大数据采集方法有:1、实时采集;2、离线采集;3、互联网采集;4、其它方式采集。
1、实时采集
主要用在考虑流处理的业务场景,在流处理场景,数据采集会成为Kafka的消费者,就像一个水坝一般将上游源源不断的数据拦截住,然后根据业务场景做对应的处理,之后再写入到对应的数据存储中。
2、离线采集
在数据仓库的语境下,ETL基本上就是数据采集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。
在转换的过程中,需要针对具体的业务场景对数据进行治理。
3、互联网采集
Scribe是Facebook开发的数据(日志)收集系统。又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它支持图片、音频、视频等文件或附件的采集。
4、其它方式采集
对于保密性要求较高的数据,可以通过与数据技术服务商合作,使用特定系统接口等相关方式采集数据。
| 扩展阅读
大数据,可以理解为是数据的集合。
大数据的显著特征是:
1、大量化
2、多样化:不再是单一的文本形式,订单、日志、音频,多种多样。
3、快速化:在海量的数据面前,处理数据的效率有着本质的区别。
4、价值密度低:需要通过强大的算法迅速完成数据的价值提纯。
大数据带来的三大转变:
1、可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不是依赖于随机采样。
2、对数据更高的精确性可使人们发现更多的细节。
3、对数据的研究不再热衷于追求精确度、不再热衷于寻找因果关系,而是事物之间的相关关系。
[免责声明]
文章标题: 大数据采集方法有哪些
文章内容为网站编辑整理发布,仅供学习与参考,不代表本网站赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请及时沟通。发送邮件至36dianping@36kr.com,我们会在3个工作日内处理。