什麽是大(dà)數(shù)據 大(dà)數(shù)據有(yǒu)什麽意義,隻是僅僅負責采集和(hé)收集數(shù)據嗎
發布時(shí)間(jiān):2019-09-17
“大(dà)數(shù)據”是指數(shù)據量大(dà)、類别大(dà)的數(shù)據集,傳統的數(shù)據庫工具無法捕捉、管理(lǐ)和(hé)處理(lǐ)這些(xiē)數(shù)據集。“大(dà)數(shù)據”首先指的是數(shù)據量(卷)?大(dà),是指大(dà)數(shù)據集,一般為(wèi)10TB?在實際應用中,許多(duō)企業用戶将多(duō)個(gè)數(shù)據集合在一起,形成了PB級的數(shù)據;其次,數(shù)據類别(多(duō)樣性)大(dà),數(shù)據來(lái)源多(duō)樣,數(shù)據類型和(hé)格式越來(lái)越豐富,突破了以前的結構化數(shù)據類别,包括半結構化數(shù)據和(hé)非結構化數(shù)據。其次是數(shù)據處理(lǐ)速度(Velocity),它也可(kě)以
數(shù)據采集:ETL工具負責從分布式和(hé)異構數(shù)據源(如關系數(shù)據、平面數(shù)據文件等)中提取數(shù)據到臨時(shí)中間(jiān)層,然後進行(xíng)清理(lǐ)、轉換和(hé)集成。最後,将ETL工具加載到數(shù)據倉庫或數(shù)據集市中,成為(wèi)在線分析、處理(lǐ)和(hé)數(shù)據挖掘的基礎。
數(shù)據訪問:關系數(shù)據庫、NOSQL、SQL等。
基礎設施:雲存儲、分布式文件存儲等。
數(shù)據處理(lǐ):自然語言處理(lǐ)(NLP,自然語言處理(lǐ))是人(rén)類與計(jì)算(suàn)機交互的語言問題的一個(gè)研究課題。自然語言處理(lǐ)的關鍵是使計(jì)算(suàn)機“理(lǐ)解”自然語言,因此自然語言處理(lǐ)也稱為(wèi)自然語言理(lǐ)解,也稱為(wèi)計(jì)算(suàn)語言學。它一方面是語言信息處理(lǐ)的一個(gè)分支,另一方面又是人(rén)工智能(AI)的核心學科之一。
統計(jì)分析:假設檢驗、顯著性檢驗、差異分析、相關分析、t檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多(duō)元回歸分析、逐步回歸、回歸預測及殘差分析、嶺回歸分析、邏輯回歸分析、曲線估計(jì)、因子分析、聚類分析、主成分分析因子分析、快速聚類分析、判别分析、對應分析、多(duō)元對應分析(最優尺度分析)、自舉技(jì)術(shù)等。
數(shù)據挖掘:分類(分類)、估計(jì)(估計(jì))、預測(預測)、關聯分組或關聯規則(相關性分組或關聯規則)、聚類(聚類)、描述和(hé)視(shì)覺、描述和(hé)可(kě)視(shì)化)、複雜數(shù)據類型挖掘(文本、Web、圖形、圖像、視(shì)頻、音(yīn)頻等。)。
模型預測:預測模型、機器(qì)學習、建模與仿真。
結果:雲計(jì)算(suàn)、标簽雲、圖表等。
要理(lǐ)解大(dà)數(shù)據的概念,我們應該從“大(dà)”開(kāi)始,“大(dà)”是指數(shù)據的規模。大(dà)數(shù)據通(tōng)常指大(dà)于10 TB(1 TB=1024 GB)的數(shù)據量。大(dà)數(shù)據與過去的海量數(shù)據不同。其基本特性可(kě)以概括為(wèi)四伏(體(tǐ)積、種類、值和(hé)Velocc-ity),即,大(dà)體(tǐ)積、多(duō)樣性、低(dī)值密度和(hé)快速速度。
模型預測:預測模型、機器(qì)學習、建模與仿真。
結果:雲計(jì)算(suàn)、标簽雲、圖表等。
要理(lǐ)解大(dà)數(shù)據的概念,我們應該從“大(dà)”開(kāi)始,“大(dà)”是指數(shù)據的規模。大(dà)數(shù)據通(tōng)常指大(dà)于10 TB(1 TB=1024 GB)的數(shù)據量。大(dà)數(shù)據與過去的海量數(shù)據不同。其基本特性可(kě)以概括為(wèi)四伏(體(tǐ)積、種類、值和(hé)Velocc-ity),即,大(dà)體(tǐ)積、多(duō)樣性、低(dī)值密度和(hé)快速速度。
轉載自:https://baijiahao.baidu.com/s?id=1638117074417025714&wfr=spider&for=pc