574-87125682~574-87285796

軟件開(kāi)發|系統開(kāi)發|信息化建設|物(wù)聯網開(kāi)發

KNOWLEDGE/知(zhī)識

分(fēn)享你我(wǒ)軟件開(kāi)發、系統開(kāi)發方面的感悟

大(dà)數據

發表時間:2022-08-19 08:39:05

文章作者:小(xiǎo)編

浏覽次數:

對于“大(dà)數據”(Big data)研究機構Gartner給出了這樣的定義。“大(dà)數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來适應海量、高增長率和多樣化的信息資(zī)産。

麥肯錫全球研究所給出的定義是:一(yī)種規模大(dà)到在獲取、存儲、管理、分(fēn)析方面大(dà)大(dà)超出了傳統數據庫軟件工(gōng)具能力範圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大(dà)特征。[3] 
大(dà)數據技術的戰略意義不在于掌握龐大(dà)的數據信息,而在于對這些含有意義的數據進行專業化處理。換而言之,如果把大(dà)數據比作一(yī)種産業,那麽這種産業實現盈利的關鍵,在于提高對數據的“加工(gōng)能力”,通過“加工(gōng)”實現數據的“增值”。[4] 
從技術上看,大(dà)數據與雲計算的關系就像一(yī)枚硬币的正反面一(yī)樣密不可分(fēn)。大(dà)數據必然無法用單台的計算機進行處理,必須采用分(fēn)布式架構。它的特色在于對海量數據進行分(fēn)布式數據挖掘。但它必須依托雲計算的分(fēn)布式處理、分(fēn)布式數據庫和雲存儲、虛拟化技術。[1] 
随着雲時代的來臨,大(dà)數據(Big data)也吸引了越來越多的關注。分(fēn)析師團隊認爲,大(dà)數據(Big data)通常用來形容一(yī)個公司創造的大(dà)量非結構化數據和半結構化數據,這些數據在下(xià)載到關系型數據庫用于分(fēn)析時會花費(fèi)過多時間和金錢。大(dà)數據分(fēn)析常和雲計算聯系到一(yī)起,因爲實時的大(dà)型數據集分(fēn)析需要像MapReduce一(yī)樣的框架來向數十、數百或甚至數千的電(diàn)腦分(fēn)配工(gōng)作。
大(dà)數據需要特殊的技術,以有效地處理大(dà)量的容忍經過時間内的數據。适用于大(dà)數據的技術,包括大(dà)規模并行處理(MPP)數據庫、數據挖掘、分(fēn)布式文件系統分(fēn)布式數據庫、雲計算平台、互聯網和可擴展的存儲系統。
最小(xiǎo)的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它們按照進率1024(2的十次方)來計算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
容量(Volume):數據的大(dà)小(xiǎo)決定所考慮的數據的價值和潛在的信息;[5] 
種類(Variety):數據類型的多樣性;[5] 
速度(Velocity):指獲得數據的速度;[5] 
可變性(Variability):妨礙了處理和有效地管理數據的過程。[5] 
真實性(Veracity):數據的質量。[5] 
複雜(zá)性(Complexity):數據量巨大(dà),來源多渠道。[5] 
價值(value):合理運用大(dà)數據,以低成本創造高價值。
大(dà)數據包括結構化、半結構化和非結構化數據,非結構化數據越來越成爲數據的主要部分(fēn)。據IDC的調查報告顯示:企業中(zhōng)80%的數據都是非結構化數據,這些數據每年都按指數增長60%。[6] 大(dà)數據就是互聯網發展到現今階段的一(yī)種表象或特征而已,沒有必要神話(huà)它或對它保持敬畏之心,在以雲計算爲代表的技術創新大(dà)幕的襯托下(xià),這些原本看起來很難收集和使用的數據開(kāi)始容易被利用起來了,通過各行各業的不斷創新,大(dà)數據會逐步爲人類創造更多的價值。[7] 
其次,想要系統的認知(zhī)大(dà)數據,必須要全面而細緻的分(fēn)解它,着手從三個層面來展開(kāi):
第一(yī)層面是理論,理論是認知(zhī)的必經途徑,也是被廣泛認同和傳播的基線。在這裏從大(dà)數據的特征定義理解行業對大(dà)數據的整體(tǐ)描繪和定性;從對大(dà)數據價值的探讨來深入解析大(dà)數據的珍貴所在;洞悉大(dà)數據的發展趨勢;從大(dà)數據隐私這個特别而重要的視角審視人和數據之間的長久博弈。
第二層面是技術,技術是大(dà)數據價值體(tǐ)現的手段和前進的基石。在這裏分(fēn)别從雲計算、分(fēn)布式處理技術、存儲技術和感知(zhī)技術的發展來說明大(dà)數據從采集、處理、存儲到形成結果的整個過程。
第三層面是實踐,實踐是大(dà)數據的最終價值體(tǐ)現。在這裏分(fēn)别從互聯網的大(dà)數據,政府的大(dà)數據,企業的大(dà)數據和個人的大(dà)數據四個方面來描繪大(dà)數據已經展現的美好景象及即将實現的藍(lán)圖。[7] 
洛杉矶警察局加利福尼亞大(dà)學合作利用大(dà)數據預測犯罪的發生(shēng)。
Google流感趨勢(Google Flu Trends)利用搜索關鍵詞預測禽流感的散布。
統計學家内特·西爾弗(Nate Silver)利用大(dà)數據預測2012美國選舉結果。
麻省理工(gōng)學院利用手機定位數據和交通數據建立城市規劃。
梅西百貨的實時定價機制。根據需求和庫存的情況,該公司基于SAS的系統對多達7300萬種貨品進行實時調價。[8] 
醫療行業早就遇到了海量數據和非結構化數據的挑戰,而近年來很多國家都在積極推進醫療信息化發展,這使得很多醫療機構有資(zī)金來做大(dà)數據分(fēn)析。[9] 
現在的社會是一(yī)個高速發展的社會,科技發達,信息流通,人們之間的交流越來越密切,生(shēng)活也越來越方便,大(dà)數據就是這個高科技時代的産物(wù)。[10] 阿裏巴巴創辦人馬雲來台演講中(zhōng)就提到,未來的時代将不是IT時代,而是DT的時代,DT就是Data Technology數據科技,顯示大(dà)數據對于阿裏巴巴集團來說舉足輕重。[11] 
有人把數據比喻爲蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分(fēn)類,而露天煤礦、深山煤礦的挖掘成本又(yòu)不一(yī)樣。與此類似,大(dà)數據并不在“大(dà)”,而在于“有用”。價值含量、挖掘成本比數量更爲重要。對于很多行業而言,如何利用這些大(dà)規模數據是赢得競争的關鍵。[12] 
大(dà)數據的價值體(tǐ)現在以下(xià)幾個方面:
(1)對大(dà)量消費(fèi)者提供産品或服務的企業可以利用大(dà)數據進行精準營銷;
(2)做小(xiǎo)而美模式的中(zhōng)小(xiǎo)微企業可以利用大(dà)數據做服務轉型;
(3)面臨互聯網壓力之下(xià)必須轉型的傳統企業需要與時俱進充分(fēn)利用大(dà)數據的價值。
不過,“大(dà)數據”在經濟發展中(zhōng)的巨大(dà)意義并不代表其能取代一(yī)切對于社會問題的理性思考,科學發展的邏輯不能被湮沒在海量數據中(zhōng)。著名經濟學家路德維希·馮·米塞斯曾提醒過:“就今日言,有很多人忙碌于資(zī)料之無益累積,以緻對問題之說明與解決,喪失了其對特殊的經濟意義的了解。”這确實是需要警惕的。
在這個快速發展的智能硬件時代,困擾應用開(kāi)發者的一(yī)個重要問題就是如何在功率、覆蓋範圍、傳輸速率和成本之間找到那個微妙的平衡點。企業組織利用相關數據和分(fēn)析可以幫助它們降低成本、提高效率、開(kāi)發新産品、做出更明智的業務決策等等。例如,通過結合大(dà)數據和高性能的分(fēn)析,下(xià)面這些對企業有益的情況都可能會發生(shēng):
(1)及時解析故障、問題和缺陷的根源,每年可能爲企業節省數十億美元。
(2)爲成千上萬的快遞車(chē)輛規劃實時交通路線,躲避擁堵。
(3)分(fēn)析所有SKU,以利潤最大(dà)化爲目标來定價和清理庫存。
(4)根據客戶的購買習慣,爲其推送他可能感興趣的優惠信息。
(5)從大(dà)量客戶中(zhōng)快速識别出金牌客戶。
(6)使用點擊流分(fēn)析和數據挖掘來規避欺詐行爲。[13] 
趨勢一(yī):數據的資(zī)源化
何爲資(zī)源化,是指大(dà)數據成爲企業和社會關注的重要戰略資(zī)源,并已成爲大(dà)家争相搶奪的新焦點。因而,企業必須要提前制定大(dà)數據營銷戰略計劃,搶占市場先機。
趨勢二:與雲計算的深度結合
大(dà)數據離(lí)不開(kāi)雲處理,雲處理爲大(dà)數據提供了彈性可拓展的基礎設備,是産生(shēng)大(dà)數據的平台之一(yī)。自2013年開(kāi)始,大(dà)數據技術已開(kāi)始和雲計算技術緊密結合,預計未來兩者關系将更爲密切。除此之外(wài),物(wù)聯網、移動互聯網等新興計算形态,也将一(yī)齊助力大(dà)數據革命,讓大(dà)數據營銷發揮出更大(dà)的影響力。
趨勢三:科學理論的突破
随着大(dà)數據的快速發展,就像計算機和互聯網一(yī)樣,大(dà)數據很有可能是新一(yī)輪的技術革命。随之興起的數據挖掘、機器學習和人工(gōng)智能等相關技術,可能會改變數據世界裏的很多算法和基礎理論,實現科學技術上的突破。
趨勢四:數據科學和數據聯盟的成立
未來,數據科學将成爲一(yī)門專門的學科,被越來越多的人所認知(zhī)。各大(dà)高校将設立專門的數據科學類專業,也會催生(shēng)一(yī)批與之相關的新的就業崗位。與此同時,基于數據這個基礎平台,也将建立起跨領域的數據共享平台,之後,數據共享将擴展到企業層面,并且成爲未來産業的核心一(yī)環。
趨勢五:數據洩露泛濫
未來幾年數據洩露事件的增長率也許會達到100%,除非數據在其源頭就能夠得到安全保障。可以說,在未來,每個财富500強企業都會面臨數據攻擊,無論他們是否已經做好安全防範。而所有企業,無論規模大(dà)小(xiǎo),都需要重新審視今天的安全定義。在财富500強企業中(zhōng),超過50%将會設置首席信息安全官這一(yī)職位。企業需要從新的角度來确保自身以及客戶數據,所有數據在創建之初便需要獲得安全保障,而并非在數據保存的最後一(yī)個環節,僅僅加強後者的安全措施已被證明于事無補。
趨勢六:數據管理成爲核心競争力
數據管理成爲核心競争力,直接影響财務表現。當“數據資(zī)産是企業核心資(zī)産”的概念深入人心之後,企業對于數據管理便有了更清晰的界定,将數據管理作爲企業核心競争力,持續發展,戰略性規劃與運用數據資(zī)産,成爲企業數據管理的核心。數據資(zī)産管理效率與主營業務收入增長率、銷售收入增長率顯著正相關;此外(wài),對于具有互聯網思維的企業而言,數據資(zī)産競争力所占比重爲36.8%,數據資(zī)産的管理效果将直接影響企業的财務表現。
趨勢七:數據質量是BI(商(shāng)業智能)成功的關鍵
采用自助式商(shāng)業智能工(gōng)具進行大(dà)數據處理的企業将會脫穎而出。其中(zhōng)要面臨的一(yī)個挑戰是,很多數據源會帶來大(dà)量低質量數據。想要成功,企業需要理解原始數據與數據分(fēn)析之間的差距,從而消除低質量數據并通過BI獲得更佳決策。
趨勢八:數據生(shēng)态系統複合化程度加強
大(dà)數據的世界不隻是一(yī)個單一(yī)的、巨大(dà)的計算機網絡,而是一(yī)個由大(dà)量活動構件與多元參與者元素所構成的生(shēng)态系統,終端設備提供商(shāng)、基礎設施提供商(shāng)、網絡服務提供商(shāng)、網絡接入服務提供商(shāng)、數據服務使能者、數據服務提供商(shāng)、觸點服務、數據服務零售商(shāng)等等一(yī)系列的參與者共同構建的生(shēng)态系統。而今,這樣一(yī)套數據生(shēng)态系統的基本雛形已然形成,接下(xià)來的發展将趨向于系統内部角色的細分(fēn),也就是市場的細分(fēn);系統機制的調整,也就是商(shāng)業模式的創新;系統結構的調整,也就是競争環境的調整等等,從而使得數據生(shēng)态系統複合化程度逐漸增強。[14] 

IT分(fēn)析工(gōng)具

編輯播報
大(dà)數據概念應用到IT操作工(gōng)具産生(shēng)的數據中(zhōng),大(dà)數據可以使IT管理軟件供應商(shāng)解決大(dà)廣泛的業務決策。IT系統、應用和技術基礎設施每天每秒都在産生(shēng)數據。大(dà)數據非結構化或者結構數據都代表了“所有用戶的行爲、服務級别、安全、風險、欺詐行爲等更多操作”的絕對記錄。
大(dà)數據分(fēn)析的産生(shēng)旨在于IT管理,企業可以将實時數據流分(fēn)析和曆史相關數據相結合,然後大(dà)數據分(fēn)析并發現它們所需的模型。反過來,幫助預測和預防未來運行中(zhōng)斷和性能問題。進一(yī)步來講,他們可以利用大(dà)數據了解使用模型以及地理趨勢,進而加深大(dà)數據對重要用戶的洞察力。他們也可以追蹤和記錄網絡行爲,大(dà)數據輕松地識别業務影響;随着對服務利用的深刻理解加快利潤增長;同時跨多系統收集數據發展IT服務目錄。
大(dà)數據分(fēn)析的想法,尤其在IT操作方面,大(dà)數據對于我(wǒ)們發明并沒有什麽作用,但是我(wǒ)們一(yī)直在其中(zhōng)。Gartner已經關注這個話(huà)題很多年了,基本上他們已經強調,如果IT正在引進新鮮靈感,他們将會扔掉大(dà)數據老式方法開(kāi)發一(yī)個新的IT操作分(fēn)析平台。[15] 

促進發展

編輯播報
經李克強總理簽批,2015年9月,國務院印發《促進大(dà)數據發展行動綱要》(以下(xià)簡稱《綱要》),系統部署大(dà)數據發展工(gōng)作。
《綱要》明确,推動大(dà)數據發展和應用,在未來5至10年打造精準治理、多方協作的社會治理新模式,建立運行平穩、安全高效的經濟運行新機制,構建以人爲本、惠及全民的民生(shēng)服務新體(tǐ)系,開(kāi)啓大(dà)衆創業、萬衆創新的創新驅動新格局,培育高端智能、新興繁榮的産業發展新生(shēng)态。
《綱要》部署三方面主要任務。一(yī)要加快政府數據開(kāi)放(fàng)共享,推動資(zī)源整合,提升治理能力。大(dà)力推動政府部門數據共享,穩步推動公共數據資(zī)源開(kāi)放(fàng),統籌規劃大(dà)數據基礎設施建設,支持宏觀調控科學化,推動政府治理精準化,推進商(shāng)事服務便捷化,促進安全保障高效化,加快民生(shēng)服務普惠化。二要推動産業創新發展,培育新興業态,助力經濟轉型。發展大(dà)數據在工(gōng)業、新興産業、農業農村(cūn)等行業領域應用,推動大(dà)數據發展與科研創新有機結合,推進基礎研究和核心技術攻關,形成大(dà)數據産品體(tǐ)系,完善大(dà)數據産業鏈。三要強化安全保障,提高管理水平,促進健康發展。健全大(dà)數據安全保障體(tǐ)系,強化安全支撐。[16] 
2015年9月18日貴州省啓動我(wǒ)國首個大(dà)數據綜合試驗區的建設工(gōng)作,力争通過3至5年的努力,将貴州大(dà)數據綜合試驗區建設成爲全國數據彙聚應用新高地、綜合治理示範區、産業發展聚集區、創業創新首選地、政策創新先行區。
圍繞這一(yī)目标,貴州省将重點構建“三大(dà)體(tǐ)系”,重點打造“七大(dà)平台”,實施“十大(dà)工(gōng)程”。
“三大(dà)體(tǐ)系”是指構建先行先試的政策法規體(tǐ)系、跨界融合的産業生(shēng)态體(tǐ)系、防控一(yī)體(tǐ)的安全保障體(tǐ)系;“七大(dà)平台”則是指打造大(dà)數據示範平台、大(dà)數據集聚平台、大(dà)數據應用平台、大(dà)數據交易平台、大(dà)數據金融服務平台、大(dà)數據交流合作平台和大(dà)數據創業創新平台;“十大(dà)工(gōng)程”即實施數據資(zī)源彙聚工(gōng)程、政府數據共享開(kāi)放(fàng)工(gōng)程、綜合治理示範提升工(gōng)程、大(dà)數據便民惠民工(gōng)程、大(dà)數據三大(dà)業态培育工(gōng)程、傳統産業改造升級工(gōng)程、信息基礎設施提升工(gōng)程、人才培養引進工(gōng)程、大(dà)數據安全保障工(gōng)程和大(dà)數據區域試點統籌發展工(gōng)程。
此外(wài),貴州省将計劃通過綜合試驗區建設,探索大(dà)數據應用的創新模式,培育大(dà)數據交易新的做法,開(kāi)展數據交易的市場試點,鼓勵産業鏈上下(xià)遊之間的數據交換,規範數據資(zī)源的交易行爲,促進形成新的業态。
國家發展改革委有關專家表示,大(dà)數據綜合試驗區建設不是簡單的建産業園、建數據中(zhōng)心、建雲平台等,而是要充分(fēn)依托已有的設施資(zī)源,把現有的利用好,把新建的規劃好,避免造成空間資(zī)源的浪費(fèi)和損失。探索大(dà)數據應用新的模式,圍繞有數據、用數據、管數據,開(kāi)展先行先試,更好地服務國家大(dà)數據發展戰略。[17] 

2016年3月17日,《中(zhōng)華人民共和國國民經濟和社會發展第十三個五年規劃綱要》發布,其中(zhōng)第二十七章“實施國家大(dà)數據戰略”提出:把大(dà)數據作爲基礎性戰略資(zī)源,全面實施促進大(dà)數據發展行動,加快推動數據資(zī)源共享開(kāi)放(fàng)和開(kāi)發應用,助力産業轉型升級和社會治理創新;具體(tǐ)包括:加快政府數據開(kāi)放(fàng)共享、促進大(dà)數據産業健康發展。 [1


相關案例查看更多