80电影天堂网,欢乐斗地主经典老版,精品人妻无码一区二区三区三级,中国xxxxxl19免费视频

返回首頁

網站導航
資訊首頁> 熱點推薦 > 大數據產業的定義及關鍵技術有哪些?

    大數據產業的定義及關鍵技術有哪些?

    熱點推薦2021年02月24日
    分享
      大數據的定義
      

      大數據是一個寬泛的概念,從 2001 年“大數據”一詞在 Gartner 的研究報告出現至今,大數據一直沒有統一的定義。

      
      Gartner 認為大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
      
      麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。
      
      國際數據公司(IDC)從大數據的 4 個特征來定義,即海量的數據規模(Volume)、快速的數據流轉和動態的數據體系(Velocity)、多樣的數據類型(Variety)、巨大的數據價值(Value)。
      
      維基百科對“大數據”的定義是“無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合”。
      
      無論各方對于大數據的定義有何不同,但均體現了大數據“大”的特征。但體量大、結構多樣體現更多的是數據特征,對于數據的處理與應用,則需要新技術(新型計算架構、智能算法等)、新理念與新知識。因此大數據不僅“大”,而且“新”,是新資源、新工具和新應用的綜合體。
      
      對于大數據的處理與應用,則需要新技術(新型計算架構、智能算法等)、新理念與新知識。因此大數據不僅“大”,而且“新”,是新資源、新工具和新應用的綜合體。
      
      大數據的關鍵技術
      
      大數據作為一種新興技術,目前尚未形成完善、達成共識的技術標準體系。對大數據的理解和分析,提出了大數據參考架構。
      
      大數據參考架構總體上可以概括為“一個概念體系,二個價值鏈維度”。“一個概念體系”是指它為大數據參考架構中使用的概念提供了一個構件層級分類體系,即“角色—活動—功能組件”,用于描述參考架構中的邏輯構件及其關系;“二個價值鏈維度”分別為“IT價值鏈”和“信息價值鏈”,其中“IT價值鏈”反映的是大數據作為一種新興的數據應用范式對IT技術產生的新需求所帶來的價值,“信息價值鏈”反映的是大數據作為一種數據科學方法論對數據到知識的處理過程中所實現的信息流價值。這些內涵在大數據參考模型圖中得到了體現。
      
      大數據的關鍵技術有:
      
      1、數據收集
      
      大數據時代,數據的來源極其廣泛,數據有不同的類型和格式,同時呈現爆發性增長的態勢,這些特性對數據收集技術也提出了更高的要求。數據收集需要從不同的數據源實時的或及時的收集不同類型的數據并發送給存儲系統或數據中間件系統進行后續處理。數據收集一般可分為設備數據收集和Web數據爬取兩類,常常用的數據收集軟件有Splunk、Sqoop、Flume、Logstash、Kettle以及各種網絡爬蟲,如Heritrix、Nutch等。
      
      2、數據預處理
      
      數據的質量對數據的價值大小有直接影響,低質量數據將導致低質量的分析和挖掘結果。廣義的數據質量涉及許多因素,如數據的準確性、完整性、一致性、時效性、可信性與可解釋性等。
      
      大數據系統中的數據通常具有一個或多個數據源,這些數據源可以包括同構/異構的(大)數據庫、文件系統、服務接口等。這些數據源中的數據來源現實世界,容易受到噪聲數據、數據值缺失與數據沖突等的影響。此外數據處理、分析、可視化過程中的算法與實現技術復雜多樣,往往需要對數據的組織、數據的表達形式、數據的位置等進行一些前置處理。
      
      數據預處理形式上包括數據清理、數據集成、數據歸約與數據轉換等階段。
      
      3、數據存儲
      
      分布式存儲與訪問是大數據存儲的關鍵技術,它具有經濟、高效、容錯好等特點。分布式存儲技術與數據存儲介質的類型和數據的組織管理形式直接相關。目前的主要數據存儲介質類型包括內存、磁盤、磁帶等;主要數據組織管理形式包括按行組織、按列組織、按鍵值組織和按關系組織;主要數據組織管理層次包括按塊級組織、文件級組織以及數據庫級組織等。
      
      不同的存儲介質和組織管理形式對應于不同的大數據特征和應用特點。
      
      4、數據處理
      
      分布式數據處理技術一方面與分布式存儲形式直接相關,另一方面也與業務數據的溫度類型(冷數據、熱數據)相關。目前主要的數據處理計算模型包括MapReduce計算模型、DAG計算模型、BSP計算模型等。
      
      (1)MapReduce分布式計算框架
      
      MapReduce是一個高性能的批處理分布式計算框架,用于對海量數據進行并行分析和處理。與傳統數據倉庫和分析技術相比,MapReduce 適合處理各種類型的數據,包括結構化、半結構化和非結構化數據,并且可以處理數據量為TB 和 PB 級別的超大規模數據。
      
      (2)分布式內存計算系統
      
      使用分布式共享內存進行計算可以有效的減少數據讀寫和移動的開銷,極大的提高數據處理的性能。支持基于內存的數據計算,兼容多種分布式計算框架的通用計算平臺是大數據領域所必需的重要關鍵技術。
      
      (3)分布式流計算系統
      
      在大數據時代,數據的增長速度超過了存儲容量的增長,在不遠的將來,人們將無法存儲所有的數據,同時,數據的價值會隨著時間的流逝而不斷減少,此外,很多數據涉及用戶的隱私無法進行存儲。對數據流進行實時處理的技術獲得了人們越來越多的關注。
      
      5、數據分析
      
      大數據分析技術包括已有數據信息的分布式統計分析技術,以及未知數據信息的分布式挖掘和深度學習技術。分布式統計分析技術基本都可藉由數據處理技術直接完成,分布式挖掘和深度學習技術則可以進一步細分為:
      
      (1)聚類
      
      聚類指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程。
      
      (2)分類
      
      分類是指在一定的有監督的學習前提下,將物體或抽象對象的集合分成多個類的過程。也可以認為,分類是一種基于訓練樣本數據(這些數據已經被預先貼上了標簽)區分另外的樣本數據標簽的過程,即另外的樣本數據應該如何貼標簽。
      
      (3)關聯分析
      
      關聯分析是一種簡單、實用的分析技術,就是發現存在于大量數據集中的關聯性或相關性,從而描述了一個事物中某些屬性同時出現的規律和模式。關聯分析在數據挖掘領域也稱為關聯規則挖掘。
      
      (4)深度學習
      
      深度學習是機器學習研究中的一個新的領域,其動機在于建立、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,例如圖像,聲音和文本。深度學習的實質,是通過構建具有很多隱層的機器學習模型和海量的訓練數據,來學習更有用的特征,從而最終提升分類或預測的準確性。
      
      6、數據可視化
      
      數據可視化(Data Visualization)運用計算機圖形學和圖像處理技術,將數據換為圖形或圖像在屏幕上顯示出來,并進行交互處理。它涉及到計算機圖形學、圖像處理、計算機輔助設計、計算機視覺及人機交互等多個技術領域。數據可視化概念首先來自科學計算可視化(Visualization in Scientific Computing),科學家們不僅需要通過圖形圖像來分析由計算機算出的數據,而且需要了解在計算過程中數據的變化。
主站蜘蛛池模板: 婺源县| 堆龙德庆县| 阿拉善盟| 绵阳市| 腾冲县| 沽源县| 微博| 四子王旗| 酒泉市| 永州市| 晋江市| 金塔县| 盈江县| 白银市| 威宁| 望江县| 聊城市| 云南省| 福清市| 金寨县| 仙居县| 义乌市| 双城市| 宁河县| 湖南省| 莱阳市| 靖宇县| 任丘市| 千阳县| 岳阳县| 婺源县| 吴旗县| 安化县| 平阴县| 通辽市| 禄丰县| 山东省| 枣强县| 峨眉山市| 会昌县| 历史|