3.1数据采集(一) - 数据采集的步骤与方法

3.1数据采集(一) - 数据采集的步骤与方法

简介

数据采集就是搜集符合数据挖掘研究要求的原始数据(Raw Data)。原始数据是研究者拿到的一手或者二手资源。数据采集既可以从现有、可用的无尽数据中搜集提取你想要的二手数据,也可以经过问卷调查、采访、沟通等方式获得一手资料。不管用哪种方法得到数据的过程,都可以叫做数据采集。

一句话解释版本:

数据采集就是怎么获得原始数据,如果把数据采集看成吃饭,自己撸起袖子做饭就是用一手数据,点外卖就是用二手数据。

数据分析与挖掘体系位置

数据采集是数据挖掘的基础。数据挖掘如果是建房子,数据采集就是那些砖跟水泥等等基础材料。没有砖,拿什么盖房子,总不能用空气吧?所以,找砖、找水泥的工作就是数据采集。它是数据准备工作的第一步。

数据采集的工作中,包含着部分与样本的知识,但是那部分我们单独在“样本抽取”单元讲解。这里我们只说能够通过什么样的方法进行数据采集。因此,它在整个数据分析与挖掘体系中的位置如下图所示。

数据采集的理解

前面也说了,数据收集就是准备数据挖掘要用的那些数据。数据挖掘,没有数,哪来的挖掘呢?

但是我们肯定会说:世界上有那么多的数据,我怎么知道自己要用的数据能不能拿到?怎么拿到?有什么方法拿到?

数据收集的理论其实就是提供了一个方法论,或者说一个框架,它就是告诉你:有这些这些方法能够在你不知道数据中怎么来的时候帮到你。你不是不知道数据从哪里来吗?我告诉你

清芳推荐

landwind是什么车标志?landwind是什么牌子车
365bet最快线路检测中心

landwind是什么车标志?landwind是什么牌子车

📅 06-30 👀 2897
艾米手机
28365365tw五大联赛

艾米手机

📅 07-23 👀 956
【討論】Plextor M8PeG NVMe PCIe SSD搭轉卡 開箱+解說 @電腦應用綜合討論 哈啦板