- 第2節(jié) 集合思維
-
如果把毫不相干或緊密相連的數(shù)據(jù)組合到一個集合中,就能更有效地處理這些相關(guān)的數(shù)據(jù)。這些數(shù)據(jù)可以清晰地告訴我們:每一個客戶的消費觀念、傾向、愛好、需求等,哪些可以歸為一類,哪些可以歸為另一類。
大數(shù)據(jù)的集合是數(shù)據(jù)數(shù)量上的增加,能夠?qū)崿F(xiàn)從量變到質(zhì)變的過程。舉個簡單的例子,這里有一張照片,照片里的每個人都在騎馬。每一分鐘,每一秒都要拍一張照片。隨著處理速度越來越快,照片從一分鐘一張,到一秒一張,再到一秒十張,就產(chǎn)生了電影。當照片的數(shù)量增長實現(xiàn)質(zhì)變的時候,這一張張照片就變成了一部完整的電影。
在美國,有一家創(chuàng)新企業(yè)叫Decide.com,就是充分運用了大數(shù)據(jù)的集合功能,在全球的各大網(wǎng)站上搜集數(shù)以十億計的數(shù)據(jù),從而預測產(chǎn)品和產(chǎn)品的價格趨勢。告訴消費者在什么時間段做購買決策,什么時間該購置什么產(chǎn)品,什么時間購買產(chǎn)品是最實惠的。此外,還幫助一些生產(chǎn)廠家提高生產(chǎn)率,降低交易成本,等等。
除了這家企業(yè)外,美國的跨國科技企業(yè)谷歌公司(Google公司)也順應時代,走進了大數(shù)據(jù)的潮流中。其實,谷歌公司的高管們一直不愿意讓公司的任何一款產(chǎn)品與大數(shù)據(jù)有什么聯(lián)系,而且,禁止公司的員工在對外交流中提到大數(shù)據(jù)。但是《大數(shù)據(jù)》作者維克托-舍恩伯格在評價谷歌公司時指出,谷歌公司很清楚自己的位置和處境。實際上,它就是一個大數(shù)據(jù)公司,因為他們理解大數(shù)據(jù)的核心所在。如果他們沒有看到這些數(shù)據(jù)的價值,絕對不會邁入這個充滿競爭和玄妙的市場。
維克托這話不無道理。早在十多年前,Google公司就已經(jīng)開始了數(shù)據(jù)搜集之旅,并利用數(shù)據(jù)來構(gòu)建產(chǎn)品。比如,Google搜索,廣告,翻譯,音樂,趨勢以及更多的其他產(chǎn)品,都無法離開海量的大數(shù)據(jù)。當Google取景車載著全景攝像頭滿世界跑的時候,Google公司就已搜集到了世界絕大部分城市的街景圖;當Google三維紅外線照相機不停運作的時候,Google公司已經(jīng)完成了數(shù)千萬圖書的掃描。
此外,Google還搜集了一些意想不到的數(shù)據(jù)。比如,用戶在進行搜索時打錯的字,Google將這些錯誤的輸入存儲起來,然后將其和最后正確的輸入進行聯(lián)系,用于開發(fā)Google自動更正系統(tǒng)和Google翻譯。同樣,海量的數(shù)據(jù)不是關(guān)鍵,重要的是Google公司擁有多項世界領(lǐng)先的大數(shù)據(jù)技術(shù),如Colossus分布式存儲,Big Table列式存儲,Caffeine索引系統(tǒng),Big Query數(shù)據(jù)分析服務和Cloud SQL(云SQL)。借助強大的技術(shù)以及先進的計算模型,Google公司能以一種高效而可靠的方式,充分運用大數(shù)據(jù)和展示成果。
隨著大數(shù)據(jù)的運用廣泛,F(xiàn)acebook在互聯(lián)網(wǎng)大數(shù)據(jù)搜集方面也后來者居上。如今,每天有500TB以上的數(shù)據(jù)上傳到Facebook。Facebook上已經(jīng)存儲著近十億用戶分享的個人信息,例如,年齡、性別、所在地、興趣,等等。同時,這些用戶還在Facebook的Timeline(個人生活時間軸)頁面記錄個人生活故事。在通過個人的基礎(chǔ)信息和時間線獲取了大量的數(shù)據(jù)后,F(xiàn)acebook就如同一個用戶親密的朋友,清楚地記得用戶的過去和現(xiàn)在,并預測著用戶的未來。為了處理這些海量的信息,公司配置了最大的分布式處理系統(tǒng),單個集群中的數(shù)據(jù)存儲容量就超過了100PB。之后,F(xiàn)acebook通過復雜的數(shù)據(jù)分析來幫助商家接觸潛在目標顧客,從而實現(xiàn)投放廣告的準確有效。用戶留下的數(shù)據(jù)越多,F(xiàn)acebook就越了解用戶,投放的廣告就越發(fā)精準。Facebook收入的未來在于其對復雜數(shù)據(jù)的分析,而不是靠輸送大量廣告來吸引用戶的眼球。
在大數(shù)據(jù)新興的模式下,盡管有一些零售商的利潤會受到一些影響或打擊,但從較好的商業(yè)本質(zhì)來說,消費者可以更理性地購物,更有效地管理資金。
我們再來舉一個例子:SWIFT(環(huán)球同業(yè)銀行金融電訊協(xié)會)是全球最大的支付平臺。在這個平臺上,每一筆交易都可以進行大數(shù)據(jù)分析。研究人員可以預測出一個經(jīng)濟體的健康性和增長性。比如,這個公司現(xiàn)在為全球性客戶所能提供的經(jīng)濟指數(shù)。
此外,大數(shù)據(jù)的基本結(jié)構(gòu)還分為三個層次,反映出觀察數(shù)據(jù)庫的不同角度。
第一層是物理數(shù)據(jù)層:是數(shù)據(jù)庫最里面的一層,是物理存貯設備上實際存儲的數(shù)據(jù)的集合。這些數(shù)據(jù)是最原始數(shù)據(jù),也是供用戶加工的對象。物理數(shù)據(jù)層由內(nèi)部模式描述的指令操作處理的位串、字符和字組合而成。
第二層是概念數(shù)據(jù)層:是數(shù)據(jù)庫置于中間的一層,也是數(shù)據(jù)庫的整體邏輯的部分。這層數(shù)據(jù)層指出了數(shù)據(jù)與數(shù)據(jù)之間的邏輯定義和聯(lián)系,是存貯資料的整合點。此時要注意的是,這層數(shù)據(jù)層所涉及的是數(shù)據(jù)庫所有對象的邏輯關(guān)系,而不是其物理情況。
第三層是邏輯數(shù)據(jù)層:是體驗用戶能夠看到和使用的數(shù)據(jù)庫,也是能夠證明用戶使用過的證明和蹤跡。
總之,小數(shù)據(jù),大集合就是按照某種數(shù)據(jù)集中起來并存放二級存儲器中的一種方式。這種數(shù)據(jù)集合還有著一定的特點,比如盡量不出現(xiàn)重復的情況。
- 最新書評 查看所有書評
-
- 發(fā)表書評 查看所有書評
-