• 關于我們

    大數據平臺解決方案

    發布日期:2019-08-16

    基于我公司多年來的開發經驗,并借鑒行業大數據分析平臺的實施、管理和應用方面的成功經驗,結合企業實際信息化情況,我們將大數據平臺實際為三層架構,其中:

    一、基礎數據源層:

    目前應用的數據主要來源于業務系統(EAS)與平面文本文件(Excel)兩種類型,結合未來信息化的發展,音頻數據和視頻數據等越來越豐富的數據類型也將陸續納入到我們的大數據平臺體系之中,因此為保證我們的大數據平臺的先進性,要能支持多種類型的數據源;

    二、大數據處理層:

    由于數據源類型的多樣性,傳統關系型數據倉庫架構或者分布式存儲架構各有優缺點,單獨使用都無法很好的滿足對結構化和非結構化數據的存儲和應用需求,因此我們建議采用傳統數據倉庫架構與大數據分布式數據倉庫架構兩者相結合的架構設計,兩者緊密配合共同承擔大數據處理任務,為大數據應用提供數據接口、數據交換、數據查詢、數據分析和數據挖掘提供數據基礎;

    三、大數據應用層:

    隨著信息化的發展,對大數據的應用方式也越來越多,大數據分析平臺應用層需要滿足諸如:固定報表、OLAP分析、KPI分析、指標監控、即席查詢(自助式分析)、決策支持、郵件推送、office集成、移動BI、預警預測(數據挖掘)等多種展現方式。

    根據我們實施建設大數據分析平臺多年的經驗,結合三層式數分析平臺系統構架,通過數據采集(包括數據源)、信息存儲與管理(數據倉庫和Hadoop)和信息共享三部分技術來實現。

    四、數據采集:

    1)結構化數據采集:

    現有的數據主要來自于EAS系統、電商平臺和文本文件都屬于結構化數據,大數據分析平臺采用ETL工具-kettle作為采集結構化數據的手段。ETL(Extract, Transform, Load)是建立大數據分析平臺的重要組成部分,它將大數據分析平臺中所需的數據按數據倉庫建立的方法每天或定期從各個業務系統中采集詳盡的業務數據,并根據各自的需求進行數據調整,數據遷移過程中需將原始數據進行抽取、清洗、合并和裝載。在此過程中要保證數據的完備性和數據的一致性。當業務數據量過大,未避免Mysql數據倉庫壓力過大,亦可將業務數據通過kettle遷移到hadoop平臺的數據庫Hbase中。

    2)非結構化數據采集:

    隨著信息化建設的發展,未來電話會議、視頻會議、影音文件、微博實時數據、傳感器采集的設備數據、移動端收集的數據以及其他流數據等非結構化數據,我們將通過傳感器接口、視頻接入設備、網絡爬蟲工具和流處理程序等方式分別進行采集并存儲到HDFS和Hbase中。

    由于Mysql不支持對非結構化數據的存儲,我們利用大數據應用框架Hadoop平臺的數據倉庫作為傳統數據倉庫的補充,實現對非結構化數據的存儲和管理,并對來自網絡的海量數據查詢提供支撐。Hadoop平臺集中了很多功能組件,其中HDFS是分布式文件系統,用于分布式存儲大數據文件;Hbase是可擴展的分布式列存儲NoSQL數據庫,用于存儲結構化和非結構化數據;Hive是基于Hadoop的數據倉庫工具,可以存儲、查詢和分析存儲在HBase中的數據;Mapreduce是用于對Hadoop平臺大規模數據集進行并行查詢的編程模型;Pig 是一個高級過程語言,適合于使用 Hadoop 和 MapReduce 平臺來查詢大型半結構化數據集。

    五、應用與分析:

    大數據分析平臺為滿足不同用戶的需求,需要提供多種不同的應用與分析方式,大數據分析平臺提供三種應用方式。1:支持利用java或C等開發語言編寫程序實現對Hadoop平臺和MySQL數據倉庫中數據的應用;2:我們選用強大的商務智能軟件IBM-Cognos作為信息共享工具。Cognos作為多樣化的前端分析展示工具,支持建立DMR和OLAP兩種模型,提供了在線報表、OlAP分析、儀表板、記分卡、即席查詢、郵件分發、Office集成、移動APP等多種信息共享技術。第三種:我們選用”統計產品與服務解決方案”軟件IBM-SPSS作為數據挖掘工具,SPSS支持以Hadoop平臺和MySQL搭建挖掘模型,用于統計學分析運算、數據挖掘、預測分析和決策支持任務,支持描述性統計、均值比較、一般線性模型、相關分析、回歸分析、對數線性模型、聚類分析、數據簡化、生存分析、時間序列分析、多重響應等多類統計分析和挖掘算法。


    分享到:
      亚洲综合国产偷拍_亚洲综合国产偷自区第1页_亚洲综合国产偷自区第3页_首页