歡迎來到培訓無憂網(wǎng)!

全國切換

咨詢熱線 400-001-5729

位置:培訓無憂網(wǎng) > 新聞資訊 > 電腦/IT > 數(shù)據(jù)庫工程師 >  大數(shù)據(jù)的采集方法是什么 采集的流程是什么

大數(shù)據(jù)的采集方法是什么 采集的流程是什么

來源:培訓無憂網(wǎng) 發(fā)布人:裴裴

2022-06-17 08:11:21|已瀏覽:364次

大數(shù)據(jù)的采集方法

      大數(shù)據(jù)的采集方法是什么?數(shù)據(jù)采集是所有數(shù)據(jù)系統(tǒng)必不可少的,大數(shù)據(jù)的采集方法有離線采集、實時采集、互聯(lián)網(wǎng)采集和其他數(shù)據(jù)采集方法。

大數(shù)據(jù)的采集方法是什么

      1、離線采集:

      工具:ETL。在數(shù)據(jù)倉庫的語境下,ETL基本上就是數(shù)據(jù)采集的代表,包括數(shù)據(jù)的提取、轉(zhuǎn)換(Transform)和加載。在轉(zhuǎn)換的過程中,需要針對具體的業(yè)務(wù)場景對數(shù)據(jù)進行治理,例如進行非法數(shù)據(jù)監(jiān)測與過濾、格式轉(zhuǎn)換與數(shù)據(jù)規(guī)范化、數(shù)據(jù)替換、保數(shù)據(jù)完整性等。

      2、實時采集:

      工具:Flume/Kafka。實時采集主要用在考慮流處理的業(yè)務(wù)場景,比如,用于記錄數(shù)據(jù)源的執(zhí)行的各種操作活動,比如網(wǎng)絡(luò)監(jiān)控的流量管理、金融應(yīng)用的股記賬和 web 服務(wù)器記錄的用戶訪問行為。在流處理場景,數(shù)據(jù)采集會成為Kafka的消費者,就像一個水壩一般將上游源源不斷的數(shù)據(jù)攔截住,然后根據(jù)業(yè)務(wù)場景做對應(yīng)的處理(例如去重、去噪、中間計算等),之后再寫入到對應(yīng)的數(shù)據(jù)存儲中。

      這個過程類似傳統(tǒng)的ETL,但它是流式的處理方式,而非定時的批處理Job,些工具均采用分布式架構(gòu),能滿足每秒數(shù)百MB的日志數(shù)據(jù)采集和傳輸需求。

      3、互聯(lián)網(wǎng)采集:

      工具:Crawler,DPI等。Scribe是Facebook開發(fā)的數(shù)據(jù)(日志)收集系統(tǒng)。又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機器人,是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本,它支持圖片、音頻、視頻等文件或附件的采集。

大數(shù)據(jù)的采集方法是什么采集的流程是什么

      大數(shù)據(jù)數(shù)據(jù)采集處理流程主要包括數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)處理與分析等環(huán)節(jié),數(shù)據(jù)質(zhì)量貫穿于整個大數(shù)據(jù)流程,非常的關(guān)鍵。每一個數(shù)據(jù)處理環(huán)節(jié)都會對大數(shù)據(jù)質(zhì)量產(chǎn)生影響作用。下面就來說一下大數(shù)據(jù)數(shù)據(jù)采集的流程及處理方法。

      大數(shù)據(jù)數(shù)據(jù)采集在數(shù)據(jù)收集過程中,數(shù)據(jù)源會影響大數(shù)據(jù)質(zhì)量的真實性、完整性數(shù)據(jù)收集、一致性、準確性和性。

      數(shù)據(jù)預(yù)處理大數(shù)據(jù)采集過程中通常有一個或多個數(shù)據(jù)源,這些數(shù)據(jù)源包括同構(gòu)或異構(gòu)的數(shù)據(jù)庫、文件系統(tǒng)、服務(wù)接口等,易受到噪聲數(shù)據(jù)、數(shù)據(jù)值缺失、數(shù)據(jù)沖突等影響,因此需先對收集到的大數(shù)據(jù)集合進行預(yù)處理,以保大數(shù)據(jù)分析與預(yù)測結(jié)果的準確性與價值性。

      注:尊重原創(chuàng)文章,轉(zhuǎn)載請注明出處和鏈接 http://m.universityresearchassociates.com/news-id-39759.html 違者必究!部分文章來源于網(wǎng)絡(luò)由培訓無憂網(wǎng)編輯部人員整理發(fā)布,內(nèi)容真實性請自行核實或聯(lián)系我們,了解更多相關(guān)資訊請關(guān)注數(shù)據(jù)庫工程師頻道查看更多,了解相關(guān)專業(yè)課程信息您可在線咨詢也可免費申請試課。關(guān)注官方微信了解更多:150 3333 6050

留下你的信息,課程顧問老師會一對一幫助你規(guī)劃更適合你的專業(yè)課程!
  • 姓名:

  • 手機:

  • 地區(qū):

  • 想學什么:

  • 培訓無憂網(wǎng)
免 費 申 請 試 聽
提交申請,《培訓無憂網(wǎng)》課程顧問老師會一對一幫助你規(guī)劃更適合你的專業(yè)課程!