1、大數(shù)據(jù)概述
1.1 大數(shù)據(jù)
大數(shù)據(jù)就是通過統(tǒng)計分析計算機收集的數(shù)據(jù),在人們可能不知道“為什么”的前提下,了解到事物的狀態(tài)、趨勢、結(jié)果等“是什么”。對于大數(shù)據(jù),一直來說,數(shù)據(jù)規(guī)模導(dǎo)致的存儲、運算等技術(shù)問題從來不是最重要的瓶頸。瓶頸只在于前端數(shù)據(jù)的收集途徑,以及后端商業(yè)思想引領(lǐng)的模型和算法問題。早期的各類OLAP工具已經(jīng)足夠了,后來類似海杜普這樣的研究則徹底降低了分布式數(shù)據(jù)的架構(gòu)成本和門檻,就徹底將大數(shù)據(jù)帶入了一個普及的領(lǐng)域。從技術(shù)層面說,大數(shù)據(jù)和以前的數(shù)據(jù)時代的最大差異在于,以前是數(shù)據(jù)找應(yīng)用/算法的過程(例如各大銀行的大集中項目,以及數(shù)據(jù)建倉),而大數(shù)據(jù)時代的重要技術(shù)特征之一,是應(yīng)用/算法去找數(shù)據(jù)的過程,因為數(shù)據(jù)規(guī)模變成了技術(shù)上最大的挑戰(zhàn)。
大數(shù)據(jù)的特點:(1)大數(shù)據(jù)不等同于數(shù)據(jù)大,我們處理問題是根據(jù)這個問題的所有數(shù)據(jù)而非樣本數(shù)據(jù),即樣本就是總體;不是精確性而是混雜性;不是因果關(guān)系而是相關(guān)關(guān)系。(2)大數(shù)據(jù)應(yīng)用的幾個可能:當(dāng)文字變成數(shù)據(jù),此時人可以用之閱讀,機器可以用之分析;當(dāng)方位變成數(shù)據(jù),商業(yè)廣告,疫情傳染監(jiān)控,雅安地震時的谷歌尋人;當(dāng)溝通變成數(shù)據(jù),就成了社交圖譜。一切都可以量化,將世界看作可以理解的數(shù)據(jù)的海洋,為我們提供了一個從來未有過的審視現(xiàn)實的視角。(3)數(shù)據(jù)創(chuàng)新的價值:數(shù)據(jù)的再利用。例如重組數(shù)據(jù):隨著大數(shù)據(jù)出現(xiàn),數(shù)據(jù)的總和比部分更有價值,重組總和和本身價值也比單個總和更大;可擴展數(shù)據(jù):在設(shè)計數(shù)據(jù)收集時就設(shè)計好了它的可擴展性,可以增加數(shù)據(jù)的潛在價值;數(shù)據(jù)的折舊值:數(shù)據(jù)會無用,需淘汰更新;數(shù)據(jù)廢氣:比如語音識別,當(dāng)用戶指出語音識別程序誤解了他的意思,實際上就有效的訓(xùn)練了這個系統(tǒng)??傊?,大數(shù)據(jù)是因為對它的分析使用,才產(chǎn)生和體現(xiàn)它的價值,而不是因為其用到了突出的技術(shù)和算法才體現(xiàn)了它的價值。
1.2 數(shù)據(jù)分析
數(shù)據(jù)分析的過程其實簡單的說就是做報告,做什么樣的報告反映什么樣的指標(biāo)。最開始的時候基本上是data processing。例如零售行業(yè)來說,最主要的指標(biāo)就是庫存、銷售同比增長情況、利潤同比增長情況、促銷率等等。對于不同的行業(yè)會有不同的相關(guān)的KPI需要跟蹤,所以報告的內(nèi)容也會有所側(cè)重,但是只要你一個行業(yè)做久了,熟悉了套路之后,基本上就是以同樣的方法開展。對于數(shù)據(jù)分析,如果公司部門分的比較細(xì)的(例如可能有建模組),那么做數(shù)據(jù)分析可能永遠(yuǎn)都是做data processing了。對于模型的分析,需要你對業(yè)務(wù)有了深入的了解就可以建立一些模型出來(例如推薦模型)等等。
數(shù)據(jù)分析主要涉及的技能:(1)數(shù)據(jù)庫的能力。越全面越好,如果不是理工科的,最起碼要會select那些簡單的查詢語句。(2)EXCEL、PPT的能力。報告的呈現(xiàn)一般都是Excel+PPT的形式,最好VBA,這樣就可以將很多人工的工作轉(zhuǎn)化為自動化的能力,提高工作效率,領(lǐng)導(dǎo)也對你刮目相看,自己也有更多空余的時間準(zhǔn)備其他方面的知識。(3)市場分析能力。學(xué)會觀察市場的走向和關(guān)注的內(nèi)容,例如零售行業(yè),現(xiàn)在大家都對CRM很熱衷,那相關(guān)的分析方法和方式是怎么樣的,你要自己去了解。從來不會有人手把手的將所有東西都告訴你,你必須自己學(xué)會去增長知識。(4)一些會計的知識。因為通過以上分析,就是會計管理的一部分內(nèi)容,最后還是公司盈利問題。有興趣的也可以去看看戰(zhàn)略管理方面的,對于做數(shù)據(jù)分析也很有好處的說。綜合來看,可以說數(shù)據(jù)分析=技術(shù)+市場+戰(zhàn)略。
2、智能數(shù)據(jù)理念分析
雖然在大數(shù)據(jù)時代傳統(tǒng)的智能數(shù)據(jù)分析法已經(jīng)不能適應(yīng)當(dāng)前的需求,但是依然有一定的相似性,相關(guān)理論和技術(shù)依然可以沿用,幾種常見數(shù)據(jù)分析法:第一種方法是決策樹。這種數(shù)據(jù)分析方法需要基于信息論基礎(chǔ)上,這種方法實現(xiàn)的輸出結(jié)果容易理解,精確度較高,效率也較快,但是它不能用來對復(fù)雜的數(shù)據(jù)進(jìn)行處理與分析。第二種方法是關(guān)聯(lián)規(guī)則。這種方法主要是用于事物數(shù)據(jù)庫中,通常帶有大量的數(shù)據(jù),當(dāng)今使用這種方法來削減搜索空間。第三種方法是粗糙集。這種數(shù)據(jù)分析方法能夠?qū)?shù)據(jù)進(jìn)行主觀評價,只要通過觀測數(shù)據(jù),就可以清除冗余的信息。第四種方法是模糊數(shù)學(xué)分析。這種數(shù)據(jù)分析方法能夠?qū)嶋H問題進(jìn)行模糊的分析,與其他的分析方法相比,能夠取得更為客觀的效果。第五種方法是人工神經(jīng)網(wǎng)絡(luò)。這種數(shù)據(jù)分析方法具有自學(xué)習(xí)功能,在此基礎(chǔ)上還具有聯(lián)想存儲的功能。第六種方法是混沌和分形理論。這兩種理論主要是用來對自然社會中存在的現(xiàn)象進(jìn)行解釋,一般用來進(jìn)行智能認(rèn)知研究,還能應(yīng)用于自動控制等眾多領(lǐng)域中。第七種方法是自然計算分析方法。這種數(shù)據(jù)分析方法根據(jù)不同生物層面的模擬與仿真,通??梢苑譃橐韵氯N不同類型的分析方法:一是群體智能算法,二是免疫算法,三是DNA算法。群體智能主要是對集體行為進(jìn)行研究,免疫算法具有多樣性,經(jīng)典的主要有反向、克隆選擇等,而DNA算法主要使屬于隨機化搜索方法,它可以進(jìn)行全局尋優(yōu),在實際的運用中一般都能獲取優(yōu)化的搜索空間,在此基礎(chǔ)上還能自動調(diào)整搜索方向,在整個過程中都不需要確定的規(guī)則。當(dāng)前DNA算法普遍應(yīng)用于多種行業(yè)中,并取得了不錯的成效。
3、大數(shù)據(jù)背景下的智能數(shù)據(jù)理念分析
大數(shù)據(jù)具有一定的復(fù)雜性,只有通過使用新的智能分析技術(shù)才能對數(shù)據(jù)進(jìn)行有效處理。目前已經(jīng)有專家針對大數(shù)據(jù)提出了新的智能分析技術(shù)方案,例如HAVEn、Teradata Aster分析平臺,經(jīng)過研究發(fā)現(xiàn)推出的一系列分析方案,基本上離不開Hadoop分析平臺。Hadoop主要分為以下兩大部分,其中一個部分是分布文件系統(tǒng),專家稱之為HDFS,另一部分是分布計算系統(tǒng),專家稱之為MapReduce。一般來說HDFS主要是表現(xiàn)為主/從結(jié)構(gòu),其中主結(jié)構(gòu)稱為名字節(jié)點,主要功能是管理元數(shù)據(jù),從結(jié)構(gòu)通常稱為數(shù)據(jù)節(jié)點。主要功能是用來存放,或者管理相關(guān)的應(yīng)用數(shù)據(jù)。一個HDFS系統(tǒng)能夠支持的數(shù)據(jù)非常龐大,一般能夠達(dá)到10PB數(shù)量級,因此HDFS系統(tǒng)能夠應(yīng)用于大數(shù)據(jù)處理分析中。同時為了能夠更好的支持大數(shù)據(jù),在HDFS系統(tǒng)的基礎(chǔ)上,還繼續(xù)構(gòu)建Hbase系統(tǒng),該系統(tǒng)的接口語言色設(shè)為Pig。并且還構(gòu)建了Hivi系統(tǒng),該系統(tǒng)主要是屬于數(shù)據(jù)倉庫。此外還構(gòu)建了機器學(xué)習(xí)軟件包,稱為Mahout,這樣就可以對大數(shù)據(jù)進(jìn)行有效管理以及分析。這些新的智能數(shù)據(jù)分析融合了多種傳統(tǒng)的技術(shù),能夠?qū)Υ髷?shù)據(jù)進(jìn)行更為全面、高效的分析。
4、結(jié)語
大數(shù)據(jù)包含結(jié)構(gòu)內(nèi)外的海量數(shù)據(jù),隨著云計算平臺進(jìn)行大規(guī)模收集處理,通過建立數(shù)據(jù)庫的手段,對數(shù)據(jù)分流,使用數(shù)據(jù)挖掘等方法進(jìn)行處理、分析,使得所數(shù)據(jù)結(jié)果更加符合顯示狀況。數(shù)據(jù)分析理念是通過闡明存在于世界、物質(zhì)、感官享受上的復(fù)雜網(wǎng)絡(luò)關(guān)系,從而做出符合時代背景的分析決策。