“大數(shù)據”一詞時下的熱門程度無需贅言,這一兩年來互聯(lián)網相關的任何活動、會議必不可少“大數(shù)據”板塊。剛剛結束的第13屆“中國互聯(lián)網大會”也專設了大數(shù)據論壇。
對于任何一個大數(shù)據的從業(yè)者或初接觸者,或許都會有個共同的感觸:大數(shù)據很有用!大數(shù)據該怎么用?
關于大數(shù)據的著作和文章鋪天蓋地,似乎也共同在傳遞一個信息:越來越多的行業(yè)、人士開始關注并實際探索大數(shù)據的應用,我們正在一起描繪著大數(shù)據巨大效用的藍圖,但在實踐的路上,我們都還在起步階段小步前行。
大數(shù)據根基于互聯(lián)網,數(shù)據倉庫、數(shù)據挖掘、云計算等互聯(lián)網技術的發(fā)展為大數(shù)據的應用奠定了基礎。然而實踐應用尚處于在探索中前進。同樣作為探索學習,我想從我個人的理解角度,分享并與大家探討四個問題:大數(shù)據是什么?大數(shù)據可以做什么?大數(shù)據實際做了什么?大數(shù)據要怎么做?
首先,大數(shù)據是什么?
引用3個比較常用的大數(shù)據定義:
(1)需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。
——Gartner
(2)海量的數(shù)據規(guī)模(Volume)、快速的數(shù)據流轉和動態(tài)的數(shù)據體系(Velocity)、多樣的數(shù)據類型(Variety)、巨大的數(shù)據價值(Value)。
—— IDC
(3)或稱巨量數(shù)據、海量數(shù)據、大資料,指所涉及的數(shù)據量規(guī)模巨大到無法通過人工,在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的信息。
—— Wiki
其他關于大數(shù)據的定義也大抵類似,我們可以用幾個關鍵詞對大數(shù)據做一個界定。
首先,“規(guī)模大”,這種規(guī)??梢詮膬蓚€維度來衡量,一是從時間序列累積大量的數(shù)據,二是在深度上更加細化的數(shù)據。
其次,“多樣化”,可以是不同的數(shù)據格式,如文字、圖片、視頻等,可以是不同的數(shù)據類別,如人口數(shù)據,經濟數(shù)據等,還可以有不同的數(shù)據來源,如互聯(lián)網、傳感器等。
第三,“動態(tài)化”。數(shù)據是不停地變化的,可以隨著時間快速增加大量數(shù)據,也可以是在空間上不斷移動變化的數(shù)據。
這三個關鍵詞對大數(shù)據從形象上做了界定。
但還需要一個關鍵能力,就是“處理速度快”。如果這么大規(guī)模、多樣化又動態(tài)變化的數(shù)據有了,但需要很長的時間去處理分析,那不叫大數(shù)據。從另一個角度,要實現(xiàn)這些數(shù)據快速處理,靠人工肯定是沒辦法實現(xiàn)的,因此,需要借助于機器實現(xiàn)。
最終,我們借助機器,通過對這些數(shù)據進行快速的處理分析,獲取想要的信息或者應用的整套體系,才能稱為大數(shù)據。
我們可以用下面的圖示給大數(shù)據定義:
對大數(shù)據概念有了界定后,那大數(shù)據可以做什么呢?
想要應用大數(shù)據,從流程上來說,大概是這樣。
首先我們要有數(shù)據源,然后對數(shù)據進行收集和存儲,在這基礎上,再進行分析和應用,形成我們的產品和服務,而產品和服務也會產生新的數(shù)據,這些新數(shù)據會循環(huán)進入我們的流程中。
當這整個循環(huán)體系成為一個智能化的體系,通過機器可以實現(xiàn)自動化,那也許就會成為一種新的模式,不管是商業(yè)的,或者是其他。
然后具體到實際的應用中,我認為,大數(shù)據能夠實現(xiàn)的應用,可以概括為兩個方向,一是精準化定制,二是預測。
首先,精準化定制。
主要是針對供需兩方的,獲取需方的個性化需求,幫助供方定準定位目標,然后依據需求提供產品,最終實現(xiàn)供需雙方的最佳匹配。