北京天同互動技術有限公司

什麽是大(dà)數(shù)據大(dà)數(shù)據有(yǒu)什麽意義，隻是僅僅負責采集和(hé)收集數(shù)據嗎

發布時(shí)間(jiān)：2019-09-17

“大(dà)數(shù)據”是指數(shù)據量大(dà)、類别大(dà)的數(shù)據集，傳統的數(shù)據庫工具無法捕捉、管理(lǐ)和(hé)處理(lǐ)這些(xiē)數(shù)據集。“大(dà)數(shù)據”首先指的是數(shù)據量(卷)？大(dà)，是指大(dà)數(shù)據集，一般為(wèi)10TB？在實際應用中，許多(duō)企業用戶将多(duō)個(gè)數(shù)據集合在一起，形成了PB級的數(shù)據；其次，數(shù)據類别(多(duō)樣性)大(dà)，數(shù)據來(lái)源多(duō)樣，數(shù)據類型和(hé)格式越來(lái)越豐富，突破了以前的結構化數(shù)據類别，包括半結構化數(shù)據和(hé)非結構化數(shù)據。其次是數(shù)據處理(lǐ)速度（Velocity），它也可(kě)以

數(shù)據采集：ETL工具負責從分布式和(hé)異構數(shù)據源（如關系數(shù)據、平面數(shù)據文件等）中提取數(shù)據到臨時(shí)中間(jiān)層，然後進行(xíng)清理(lǐ)、轉換和(hé)集成。最後，将ETL工具加載到數(shù)據倉庫或數(shù)據集市中，成為(wèi)在線分析、處理(lǐ)和(hé)數(shù)據挖掘的基礎。

數(shù)據訪問：關系數(shù)據庫、NOSQL、SQL等。

基礎設施：雲存儲、分布式文件存儲等。

數(shù)據處理(lǐ)：自然語言處理(lǐ)(NLP，自然語言處理(lǐ))是人(rén)類與計(jì)算(suàn)機交互的語言問題的一個(gè)研究課題。自然語言處理(lǐ)的關鍵是使計(jì)算(suàn)機“理(lǐ)解”自然語言，因此自然語言處理(lǐ)也稱為(wèi)自然語言理(lǐ)解，也稱為(wèi)計(jì)算(suàn)語言學。它一方面是語言信息處理(lǐ)的一個(gè)分支，另一方面又是人(rén)工智能(AI)的核心學科之一。

統計(jì)分析：假設檢驗、顯著性檢驗、差異分析、相關分析、t檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多(duō)元回歸分析、逐步回歸、回歸預測及殘差分析、嶺回歸分析、邏輯回歸分析、曲線估計(jì)、因子分析、聚類分析、主成分分析因子分析、快速聚類分析、判别分析、對應分析、多(duō)元對應分析（最優尺度分析）、自舉技(jì)術(shù)等。

數(shù)據挖掘：分類（分類）、估計(jì)（估計(jì)）、預測（預測）、關聯分組或關聯規則（相關性分組或關聯規則）、聚類（聚類）、描述和(hé)視(shì)覺、描述和(hé)可(kě)視(shì)化）、複雜數(shù)據類型挖掘（文本、Web、圖形、圖像、視(shì)頻、音(yīn)頻等。）。

模型預測：預測模型、機器(qì)學習、建模與仿真。

結果：雲計(jì)算(suàn)、标簽雲、圖表等。

要理(lǐ)解大(dà)數(shù)據的概念，我們應該從“大(dà)”開(kāi)始，“大(dà)”是指數(shù)據的規模。大(dà)數(shù)據通(tōng)常指大(dà)于10 TB（1 TB=1024 GB）的數(shù)據量。大(dà)數(shù)據與過去的海量數(shù)據不同。其基本特性可(kě)以概括為(wèi)四伏（體(tǐ)積、種類、值和(hé)Velocc-ity），即，大(dà)體(tǐ)積、多(duō)樣性、低(dī)值密度和(hé)快速速度。

模型預測：預測模型、機器(qì)學習、建模與仿真。

結果：雲計(jì)算(suàn)、标簽雲、圖表等。

轉載自：https://baijiahao.baidu.com/s?id=1638117074417025714&wfr=spider&for=pc