- 第4節(jié) 前言
-
什么是大數(shù)據(jù)
最早提出“大數(shù)據(jù)”時(shí)代來臨的是全球知名的咨詢公司麥肯錫。麥肯錫公司稱:“數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)領(lǐng)域,成為重要的組成部分之一。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來。”
2008年9月,《自然》雜志推出了封面專欄—“大數(shù)據(jù)”,內(nèi)容講述了數(shù)據(jù)在生物、物理、工程、數(shù)學(xué)及社會(huì)經(jīng)濟(jì)等多方面學(xué)科所占據(jù)的位置和角色的重要性。
如今,“大數(shù)據(jù)”這個(gè)詞匯儼然成了工商界和金融界的新寵。在哈佛大學(xué)擔(dān)任社會(huì)學(xué)教授的加里·金說:“這是一場(chǎng)革命,龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開始了量化進(jìn)程。無論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進(jìn)程!
說到這里,還是有人對(duì)“大數(shù)據(jù)”不明所以:到底什么是大數(shù)據(jù)?
“大數(shù)據(jù)”是從英語“Big Data”一詞翻譯而來的!按髷(shù)據(jù)”這一概念在近幾年逐漸被人們所熟知,并為全球各大企業(yè)所重視。簡(jiǎn)單來說,“大數(shù)據(jù)”是一種巨量資料庫,可以在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理并整理為幫助公司、企業(yè)經(jīng)營(yíng)和決策的資訊信息。
隨著云時(shí)代的悄然到來,“大數(shù)據(jù)”漸漸得到了越來越多的企業(yè)關(guān)注。后來,業(yè)界將“大數(shù)據(jù)”概括成四個(gè)V,即大量化(Volume)、多樣化(Variety)、快速化(Velocity)和價(jià)值化(Value)。
大數(shù)據(jù)不僅是量大而已
“大數(shù)據(jù)”的量到底有多大?根據(jù)2012年3月的一份調(diào)查結(jié)果顯示:在短短的一天之內(nèi),互聯(lián)網(wǎng)產(chǎn)生的資料內(nèi)容可以刻滿1.68億張DVD;發(fā)出的社區(qū)帖子高達(dá)200萬個(gè),相當(dāng)于《時(shí)代》雜志770年的文字?jǐn)?shù)量;發(fā)出的郵件高達(dá)2940億封,相當(dāng)于美國(guó)兩年的紙質(zhì)信件數(shù)量;賣出的手機(jī)為37.8萬臺(tái),高于全世界每天出生的嬰兒數(shù)量37.1萬……
截止到2012年,數(shù)據(jù)量已經(jīng)從TB級(jí)別躍升到PB、EB乃至ZB級(jí)別。(1024GB=1TB,1024TB=1PB,1024PB=1EB,1024EB=1ZB)。國(guó)際數(shù)據(jù)公司(IDC)經(jīng)過詳細(xì)的調(diào)查研究,得出一個(gè)結(jié)論:2008年,全球產(chǎn)生的數(shù)據(jù)量為0.49ZB;2009年的數(shù)據(jù)量為0.8ZB;2010年的數(shù)據(jù)量為1.2ZB;2011年的數(shù)據(jù)量更是持續(xù)增長(zhǎng),竟高達(dá)1.82ZB。這個(gè)數(shù)據(jù)量,相當(dāng)于全世界的每個(gè)人產(chǎn)生200GB以上的數(shù)據(jù)?梢,大數(shù)據(jù)的信息量有多大。
IBM公司稱,截止到2013年10月,全世界所獲得的數(shù)據(jù)中,有90%都是過去兩年內(nèi)產(chǎn)生的。預(yù)計(jì)到2020年時(shí),全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達(dá)到今天的44倍。
當(dāng)然了,“大數(shù)據(jù)”不僅是量大而已,它還具有多樣化、快速化、價(jià)值化等優(yōu)勢(shì)。
多樣化:數(shù)據(jù)的類型繁多。這種特質(zhì)也讓數(shù)據(jù)被分為兩部分—結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對(duì)于以往那些以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括日志、圖片、音頻、視頻、地理位置信息等。
快速化:處理的速度快。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最明顯的特征。根據(jù)IDC的一份名為“數(shù)字宇宙”的報(bào)告,預(yù)計(jì)到2020年,全世界的數(shù)據(jù)使用量將高達(dá)35.2ZB。在如此浩瀚的數(shù)據(jù)面前,處理數(shù)據(jù)的效率快慢決定了企業(yè)生命的長(zhǎng)短。
價(jià)值化:價(jià)值密度低。價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。
我們來舉個(gè)例子:一部時(shí)長(zhǎng)為一小時(shí)的視頻,在持續(xù)不間斷的監(jiān)控中,有用的數(shù)據(jù)僅僅有那么一兩秒而已。因此,如何通過強(qiáng)大的計(jì)算方式迅速地完成數(shù)據(jù)的價(jià)值“精純度”,已成為目前“大數(shù)據(jù)”背景下需要解決的難題。
大數(shù)據(jù)—潛藏的金庫
隨著技術(shù)的革新,我們已經(jīng)踏進(jìn)大數(shù)據(jù)時(shí)代,而數(shù)據(jù)背后潛藏著巨大的商業(yè)機(jī)會(huì),值得我們?nèi)ネ诰颉?
根據(jù)技術(shù)研究機(jī)構(gòu)IDC的研究結(jié)果可知,近年來,大量的新數(shù)據(jù)無孔不入,它們以每年50%的速度在增長(zhǎng);蛘哒f,它們每?jī)赡昃鸵环,完全超出人們的預(yù)料。
事實(shí)上,我們生活的方方面面,都會(huì)因大數(shù)據(jù)的存在而發(fā)生變化。如消費(fèi)習(xí)慣、興趣愛好、人際關(guān)系,以及整個(gè)互聯(lián)網(wǎng)的走向與潮流等,都將成為IT行業(yè)所關(guān)注的重點(diǎn)。當(dāng)然了,這一切的獲取和分析都與大數(shù)據(jù)息息相關(guān)。
我們不能說數(shù)據(jù)的圈子越來越大,而是全新的圈子越來越多。比如,全世界有數(shù)不清的數(shù)字傳感器依附在汽車、工業(yè)設(shè)備、電表和板條箱上,它們能準(zhǔn)確地掌握方位、溫度、濕度、運(yùn)動(dòng)、振動(dòng),以及大氣中的化學(xué)變化。
從一方面來說,大眾媒體基礎(chǔ)上的大數(shù)據(jù)挖掘和分析,將衍生出令人意想不到的應(yīng)用;從另一方面來說,基于數(shù)據(jù)分析的營(yíng)銷和咨詢服務(wù)也正在崛起。這些專注于數(shù)據(jù)挖掘和數(shù)據(jù)服務(wù)的公司,將成為IT行業(yè)乃至互聯(lián)網(wǎng)服務(wù)業(yè)中的新興力量。
以往,只有像谷歌、微軟這樣的全球化公司能做關(guān)于大數(shù)據(jù)的深挖和分析。但現(xiàn)在,大數(shù)據(jù)偏向平民化,讓越來越多的IT公司有機(jī)會(huì)進(jìn)入這個(gè)領(lǐng)域。也因此,大數(shù)據(jù)領(lǐng)域有了不同的數(shù)據(jù)分析和服務(wù),促使人們不斷地創(chuàng)新商業(yè)模式。比如在一分鐘內(nèi),用戶就會(huì)在Facebook(臉譜網(wǎng))上發(fā)布近70萬條信息;在一分鐘內(nèi),用戶會(huì)在Flicker(雅虎旗下圖片分享網(wǎng)站)上傳3125張照片;在一分鐘內(nèi),用戶就會(huì)在YouTube(世界上最大的視頻網(wǎng)站)上點(diǎn)擊200萬次觀賞……
鐵一般的事實(shí)告訴互聯(lián)網(wǎng)從業(yè)人員,這些龐大數(shù)字意味著一種全新的致富手段?梢哉f,它的價(jià)值不可估量。
雖然在目前來說,大數(shù)據(jù)在中國(guó)還處于初級(jí)階段,但是它的商業(yè)價(jià)值已經(jīng)告訴人們—凡是掌握大數(shù)據(jù)的公司,就相當(dāng)于站在“金庫的門口”;跀(shù)據(jù)交易產(chǎn)生的經(jīng)濟(jì)效益和創(chuàng)新商業(yè)模式的誕生,能幫助企業(yè)進(jìn)行內(nèi)部數(shù)據(jù)挖掘,以便更準(zhǔn)確地找到潛在客戶,從而降低營(yíng)銷成本,提高企業(yè)的銷售利潤(rùn)。
百分點(diǎn)信息科技的聯(lián)合創(chuàng)始人蘇萌曾說過:“未來,數(shù)據(jù)可能成為最大的交易商品。但數(shù)據(jù)量大并不能算是大數(shù)據(jù),大數(shù)據(jù)的特征是數(shù)據(jù)量大、數(shù)據(jù)種類多、非標(biāo)準(zhǔn)化數(shù)據(jù)的價(jià)值最大化。因此,大數(shù)據(jù)的價(jià)值是通過數(shù)據(jù)共享、交叉復(fù)用后獲取的最大的數(shù)據(jù)價(jià)值!痹谒磥,未來,大數(shù)據(jù)將會(huì)如基礎(chǔ)設(shè)施一樣,有數(shù)據(jù)提供方、管理者、監(jiān)管者,數(shù)據(jù)的交叉復(fù)用將大數(shù)據(jù)變成一大產(chǎn)業(yè)。
據(jù)一項(xiàng)統(tǒng)計(jì)結(jié)果顯示:截止到2012年10月,大數(shù)據(jù)所形成的市場(chǎng)規(guī)模在51億美元左右。到了2017年,此數(shù)據(jù)預(yù)計(jì)會(huì)上漲到530億美元。
由此,可見“大數(shù)據(jù)”的價(jià)值所在。
改變思維模式,用數(shù)據(jù)說話
近幾年,“大數(shù)據(jù)”變成了香餑餑,成為各大企業(yè)、公司、媒體甚至是學(xué)者都津津樂道的東西。他們有著不同的見解和理論,唯一相同的觀點(diǎn)就是—大數(shù)據(jù)時(shí)代對(duì)人類有著至關(guān)重要的影響,甚至即將成為改變未來社會(huì)的重要力量。
然而,大數(shù)據(jù)究竟改變了什么呢?在人們的腦中,這個(gè)問題仍然是一個(gè)亂糟糟的毛線團(tuán),想要找到毛線的一頭,卻又不知道從哪里入手。
在“第五屆中國(guó)云計(jì)算大會(huì)”的第二天,中國(guó)電子學(xué)會(huì)云計(jì)算專家委員會(huì)候任主任委員、中國(guó)科學(xué)院院士懷進(jìn)鵬發(fā)表了一篇演講,題為《大數(shù)據(jù)及大數(shù)據(jù)的科學(xué)與技術(shù)問題》。在演講中,他表示:“大數(shù)據(jù)的發(fā)展可能會(huì)改變經(jīng)濟(jì)和社會(huì)生活,可能會(huì)改變科學(xué)研究的途徑,甚而改變?nèi)祟惖乃季S方式。”
我們可以來舉一個(gè)簡(jiǎn)單的例子:
蘋果公司創(chuàng)始人史蒂夫· 喬布斯在罹患癌癥后,不惜花費(fèi)巨額抽取了全身的DNA信息。這樣一來,醫(yī)生就可以根據(jù)他全身的DNA信息來判斷癌細(xì)胞的變化,從而對(duì)癥下藥。然而,對(duì)于普通的患者來說,是拿不出巨額錢款來做這種抽取檢測(cè)的。換句話說,醫(yī)生只能從普通患者身上提取很小的一部分DNA信息。兩者的治療效果有多大差異,可想而知。
對(duì)此,或許你還有疑問,大數(shù)據(jù)真的能獲得最全面的信息,能夠找到信息的源頭和結(jié)果嗎?
我們?cè)賮砼e個(gè)簡(jiǎn)單的例子:
如果你上淘寶,登錄支付寶賬戶,點(diǎn)開電子對(duì)賬單,你是不是能夠看到自己一年的消費(fèi)曲線圖?是不是能夠看到每個(gè)月的支出和收入?是不是能夠看到自己的錢花到哪里去了?是不是比拿筆記賬清晰和準(zhǔn)確得多?根據(jù)網(wǎng)絡(luò)購物的數(shù)據(jù)中,你還會(huì)發(fā)現(xiàn):哪個(gè)城市的男人比女人購買的東西還要多;哪個(gè)城市的人用支付寶繳納水電費(fèi)的頻率最高;什么星座的男性或女性在某年的消費(fèi)額最高;在一年里,在父母或親友身上花費(fèi)了多少;節(jié)假日時(shí),什么東西最暢銷……
這樣龐大的數(shù)據(jù)分析,在過去單一的小數(shù)據(jù)時(shí)代根本無法做到,甚至想都想不到。大數(shù)據(jù)專家維克托·邁爾-舍恩伯格在《大數(shù)據(jù)時(shí)代》中是這樣解釋的:云計(jì)算在獲取海量數(shù)據(jù)的同時(shí),也帶來了數(shù)據(jù)的混雜性,這會(huì)給傳統(tǒng)的數(shù)據(jù)分析帶來一些困擾。在以往,我們習(xí)慣于由數(shù)據(jù)得出具體結(jié)果。而在大數(shù)據(jù)時(shí)代,我們應(yīng)當(dāng)關(guān)注的是數(shù)據(jù)之間的相關(guān)關(guān)系,而不是數(shù)據(jù)之間的因果關(guān)系。
數(shù)據(jù)之間的相關(guān)關(guān)系可以幫助我們捕捉現(xiàn)在的線索和預(yù)測(cè)未來。如A和B的情況經(jīng)常一起發(fā)生,那么只要注意到B情況發(fā)生,就能預(yù)測(cè)A的情況是怎么樣的。這種“A和B”的關(guān)系在零售行業(yè)和IT行業(yè)中已被廣泛運(yùn)用。7-11便利店通過分析零售終端的數(shù)據(jù),得出了這樣的一個(gè)相關(guān)關(guān)系—溫度低于15攝氏度,暖寶寶的銷售量便增加5%。于是,只要溫度低于這一度數(shù),7-11便利店內(nèi)的暖寶寶就會(huì)上架;豆瓣電臺(tái)會(huì)推薦一些你可能會(huì)喜歡的音樂;當(dāng)你在當(dāng)當(dāng)網(wǎng)買某本書后,系統(tǒng)就會(huì)提醒你—購買這本書的人中,有30%也購買了另外一本書……
這些結(jié)論或預(yù)測(cè),都是基于大數(shù)據(jù)分析而來的。當(dāng)然了,大數(shù)據(jù)也為我們帶來了另一種生活方式,那就是還有更多的事物都可以數(shù)據(jù)化。通過對(duì)關(guān)鍵詞的分析和搜索,我們可以看到購物的習(xí)慣被數(shù)據(jù)化、人際關(guān)系被數(shù)據(jù)化、社會(huì)熱點(diǎn)和考試重點(diǎn)的走向也被數(shù)據(jù)化。這些數(shù)據(jù)可以導(dǎo)出商業(yè)潛能,更能導(dǎo)出社會(huì)走向。
阿里巴巴創(chuàng)始人馬云敏銳地捕捉到大數(shù)據(jù)的巨大潛能。在2012年,他提出大數(shù)據(jù)戰(zhàn)略,通過資源共享與數(shù)據(jù)互通創(chuàng)造商業(yè)價(jià)值。在每年一度的“雙十一”銷售熱潮中,阿里巴巴以云計(jì)算為基礎(chǔ)的數(shù)據(jù)服務(wù),對(duì)數(shù)以億萬計(jì)的消費(fèi)者需求信息進(jìn)行詳細(xì)地捕捉,并幫助電商隨時(shí)調(diào)整銷售決策。
的確,大數(shù)據(jù)的出現(xiàn),不僅改變了人們的思維方式,還讓更多的企業(yè)和社會(huì)決策有足夠的力量和依據(jù)—以數(shù)據(jù)說話。
- 最新書評(píng) 查看所有書評(píng)
-
- 發(fā)表書評(píng) 查看所有書評(píng)
-