《大數(shù)據時代》是國外大數(shù)據研究的先河之作,本書作者維克托·邁爾·舍恩伯格被譽為"大數(shù)據商業(yè)應用第一人",擁有在哈佛大學、牛津大學、耶魯大學和新加坡國立大學等多個互聯(lián)網研究重鎮(zhèn)任教的經歷,早在2010年就在《經濟學人》上發(fā)布了長達14頁對大數(shù)據應用的前瞻性研究。出國留學網為您編輯整理大數(shù)據時代讀后感,歡迎閱讀。
大數(shù)據時代讀后感(一)
去年的“云計算”炒得熱火朝天的,今年的“大數(shù)據”又突襲而來。仿佛一夜間,各廠商都紛紛改旗換幟,推起“大數(shù)據”來了。于是乎,各企業(yè)的CIO也將熱度紛紛轉向關注“大數(shù)據”來了。有一張來自《程序員》微博的漫畫很形象。我覺得這張圖,很真實地反映了現(xiàn)實中小企業(yè)云計算,大數(shù)據的現(xiàn)狀。
不過話又還得說回來,《大數(shù)據時代》是本好書。
當然,很多IT知名人士也大力推薦,寫了好多讀后感來表述對這本書的喜歡沒看此書之前,對所謂大數(shù)據的概念基本上是一頭霧水,雖則有了解關注過現(xiàn)在也比較火熱的BI,覺得也差不多,可能就是更多的數(shù)據,更細致的數(shù)據分析與數(shù)據挖掘??催^此書后,感覺到之前的想法,只能算是中了一小半吧---巨量的數(shù)據,而另一前:著眼于數(shù)據關聯(lián)性,而非數(shù)據精確性,或許才是大數(shù)據與現(xiàn)時BI最大的不同,不僅僅是方法,更多的時思想方法。不過坦白講,到底是數(shù)據的關聯(lián)性重佳,還是數(shù)據的精確性更好,還真的需要時間來檢驗一下,至少從現(xiàn)在的數(shù)據分析方法來論,更多的傾向于數(shù)據的精確性??赐甏藭?,我心中的一些問題:
1.什么是大數(shù)據?
查了查百度百科,是這樣定義的:大數(shù)據(bigdata),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業(yè)經營決策更積極目的的資訊。大數(shù)據的4V特點:Volume、Velocity、Variety、Veracity--這個好像是IBM的定義吧。
以個人的觀點來看:數(shù)據海量,存儲海量都是大數(shù)據的基本原型吧。
2.大數(shù)據適合什么樣的企業(yè)?
誠然,大數(shù)據的前提是海量的數(shù)據,只有擁有巨量的數(shù)據資源,方能從中查找出數(shù)據的關聯(lián)性,才可以讓通過
專業(yè)化的處理,讓其為企業(yè)產生價值。針對電信運營,互聯(lián)網應用這樣海量用戶的數(shù)據的大企業(yè),也是在應用大數(shù)據的道路上擁有得天獨厚的條件,但是針對中小企業(yè)呢?銷售訂單數(shù)據?若非百年老店,估計數(shù)據也是少得可憐,5,能用的可能只有消費者數(shù)據了吧。貌似大多數(shù)廠商,用來舉例的也就是消費都購買行為分析為最多。同樣,在公共事業(yè)類的政府機構,大數(shù)據的作用也許也能很好的發(fā)揮。反而感覺在大多數(shù)中小型企業(yè)應用大數(shù)據,似乎有點大題小作。書中說:大數(shù)據是企業(yè)競爭力。誠然,數(shù)據是一個企業(yè)的核心無形資源(利用得好的話),但是否所有的數(shù)據,或都換則方式說:所有的企業(yè)都以大數(shù)據為競爭力,是否真的合適么?是否在中小企業(yè)中,會顯示得小題大做呢?
3.大數(shù)據帶來的影響
當一波又一波的IT技術熱潮源源不斷地向我們鋪面而來的時候,你甚至都沒有做好準備,你都要開始迎接它所給你帶來的影響了。經過物聯(lián)網,云計算的推波助瀾下,大數(shù)據開始登場了。但它到底給我們帶來了什么呢?
1)預測未來書中以Google成功預測了未來可能發(fā)生流感的案例來開篇,表明通過大數(shù)據的應用,可以為我們的生活起一個保駕護航的指向標。實質很簡單,技術改變世界。
2)變革商業(yè)大數(shù)據所帶來的商機,同時會衍生出一系列與大數(shù)據相關的商業(yè)機遇與商業(yè)模式,數(shù)據的潛在價值會源源不斷地發(fā)揮作用可以容易想到的是未來有專門的數(shù)據收集,數(shù)據分析,數(shù)據生成的一條數(shù)據產業(yè)鏈產生。影響最大的,當然是IT公司
3)變革思維書中所說:因為有海量的數(shù)據作基礎,未來,我們可能更關注數(shù)據的相關,而非精細度。對這條,本人還是持保留意見的。
大數(shù)據時代讀后感(二)
如今說起新媒體和互聯(lián)網,必提大數(shù)據,似乎不這樣說就OUT了。而且人云亦云的居多,不少談論者甚至還沒有認真讀過這方面的經典著作——舍恩佰格的《大數(shù)據時代》。維克托·邁爾——舍恩伯格何許人也?他現(xiàn)任牛津大學網絡學院互聯(lián)網研究所治理與監(jiān)管專業(yè)教授,曾任哈佛大學肯尼迪學院信息監(jiān)管科研項目負責人。他的咨詢客戶包括微軟、惠普和IBM等全球頂級企業(yè),他是歐盟互聯(lián)網官方政策背后真正的制定者和參與者,他還先后擔任多國政府高層的智囊。這位被譽為:大數(shù)據時代的預言家“的牛津教授真牛!那么,這位大師說的都是金科玉律嗎?并不一定,讀大師的作品一定要做些功課才好讀懂,如果能做足功課又具備相應的理論功底,就能與之進行一場思想上的對話。
舍恩伯格分三部分來討論大數(shù)據,即思維變革、商業(yè)變革和管理變革。在第一部分”大數(shù)據時代的思維變革“中,舍恩伯格旗幟鮮明的亮出他的三個觀點:一、更多:不是隨機樣本,而是全體數(shù)據;二、更雜:不是精確性,而是混雜性;三、更好:不是因果關系,而是相關關系。對于第一個觀點,我不敢茍同。一方面是對全體數(shù)據進行處理,在技術和設備上有相當高的難度。另一方面是不是都有此必要,對于簡單事實進行判斷的數(shù)據分析難道也要采集全體數(shù)據嗎?我曾與香港城市大學的祝建華教授討論過。祝教授是傳播學研究方法和數(shù)據分析的專家,他認為一定可以找到一種數(shù)理統(tǒng)計方法來進行分析,并不一定需要全部數(shù)據。聯(lián)系到舍恩伯格第二個觀點中所說的相關關系,我理解他說的全體數(shù)據不是指數(shù)量而是指范圍,即大數(shù)據的隨機樣本不限于目標數(shù)據,還包括目標以外的所有數(shù)據。我認為大數(shù)據分析不能排除隨機抽樣,只是抽樣的方法和范圍要加以拓展。
我同意舍恩伯格的第二觀點,我認為這是對他第一個觀點很好的補充,這也是對精準傳播和精準營銷的一種反思。”大數(shù)據的簡單算法比小數(shù)據的復雜算法更有效。“更具有宏觀視野和東方哲學思維。對于舍恩伯格的第三個觀點,我也不能完全贊同。”不是因果關系,而是相關關系。“不需要知道”為什么“,只需要知道”是什么“。傳播即數(shù)據,數(shù)據即關系。在小數(shù)據時代人們只關心因果關系,對相關關系認識不足,大數(shù)據時代相關關系舉足輕重,如何強調都不為過,但不應該完全排斥它。大數(shù)據從何而來?為何而用?如果我們完全忽略因果關系,不知道大數(shù)據產生的前因后果,也就消解了大數(shù)據的人文價值。如今不少學者為了闡述和傳播其觀點往往語出驚人,對舊有觀念進行徹底的否定。
世間萬物的復雜性多樣化并非非此即彼那么簡單,舍恩伯格也是這種二元對立的幼稚思維嗎?其實不然,讀者在閱讀時一定要看清楚他是在什么語境下說的,不要因囫圇吞棗的淺讀而陷入斷章取義的誤讀。比如說舍恩伯格在提出”不是因果關系,而是相關關系。“這一論斷時,他在書中還說道:”在大多數(shù)情況下,一旦我們完成了對大數(shù)據的相關關系分析,而又不再滿足于僅僅知道‘是什么’時,我們就會繼續(xù)向更深層次研究的因果關系,找出背后的‘為什么’。“[i]由此可見,他說的全體數(shù)據和相關關系都在特定語境下的,是在數(shù)據挖掘中的選項。
大數(shù)據研究的一大驅動力就是商用,舍恩伯格在第二部分里討論了大數(shù)據時代的商業(yè)變革。舍恩伯格認為數(shù)據化就是一切皆可”量化“,大數(shù)據的定量分析有力地回答”是什么“這一問題,但仍然無法完全回答”為什么“。因此,我認為并不能排除定性分析和質化研究。數(shù)據創(chuàng)新可以創(chuàng)造價值,這是毫無疑問的。舍恩伯格在討論大數(shù)據的角色定位時仍把它置于數(shù)據應用的商業(yè)系統(tǒng)中,而沒有把它置于整個社會系統(tǒng)里,但他在第二部分大數(shù)據時代的管理變革中討論了這個問題。在風險社會中信息安全問題日趨凸顯,數(shù)據獨裁與隱私保護成為一對矛盾。如何擺脫大數(shù)據的困境?舍恩伯格在最后一節(jié)”掌控“中試圖回答,但基本上屬于老生常談。我想,或許凱文·凱利的《失控》可以幫助我們解答這個問題?至少可以提供更多的思考維度。正如舍恩伯格在結語中所道:”大數(shù)據并不是一個充斥著算法和機器的冰冷世界,人類的作用依然無法被完全替代。大數(shù)據為我們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案還在不久的未來。“謝謝舍恩伯格!讓大數(shù)據討論從自然科學回到人文社科。由此推斷,《大數(shù)據時代》不是最終答案,也不是標準答案,只是參考答案。
此外,在閱讀此書之前還必須具備一些數(shù)據科學的基本知識和基本概念,比如說什么叫數(shù)據?什么叫大數(shù)據?數(shù)據分析與數(shù)據挖掘的區(qū)別,數(shù)字化與數(shù)據化有什么不同?讀前做些功課讀起來就比較好懂了。
大數(shù)據時代讀后感(三)
我們不再熱衷于尋找因果關系,而應該尋找事物之間的相關關系。這個命題是我讀這本書最大的感觸。個人認為也是這本書最核心的思想。從頭說起吧,首先,書提出一個顛覆我以前認知的命題--”并非原子而是信息才是一切的本源“,將世界看做信息,看做可以理解的數(shù)據的海洋,為我們提供了一個從未有過的審視下是的視角。它是一種可以滲透到所有生活領域的世界觀。這個命題是在書的最后一部分中的某一段中描寫的。我之所以把它放在最前面來講,因為我覺得,這是談數(shù)據化世界的前提,自然也是談論大數(shù)據的前提啦。書的中間部分有一節(jié)講到數(shù)據化和數(shù)字化的區(qū)別。經過我自己腦子的整理,把數(shù)據化世界這個命題列為大數(shù)據思維的第二步。寫到這里,我不由得反省下,我是不是有領悟到書的精髓所在(我認為的精髓),就是第一句話。因為回顧我整個思路,還是按照舊模式的因果關系思考模式思考問題。書中另一個吸引我的地方就是,有很多觀點的論述,會從哲學的高度論述。雖然,自己肚子沒多少墨水,但是讀這些描述的時候,就會發(fā)現(xiàn)自己會更好的理解作者提出的命題。比如書中有一段文字
當我們說人類是通過因果關系了解世界時,我們指的是我們再理解和解釋世界各種現(xiàn)象時使用的兩種基本方法:一種是通過快速、虛幻的因果關系,還有一種就是通過緩慢、有條不紊的因果關系。大數(shù)據會改變這兩種基本方法在我們認識世界時所扮演的角色。
在附上一些事例的時候,用作者提供的”本質“去看待時,很容易理解,確實是這么回事。好了,那么大數(shù)據到底改變了我們什么呢,作者給出3點,
大數(shù)據的精髓在于我們分析信息時的三個轉變,這些轉變講改變我們理解和組建社會的方法。
第一個轉變就是,在大數(shù)據時代,我們可以分析更多的數(shù)據,有時候甚至可以處理和某個特別現(xiàn)象相關的所有數(shù)據,而不再依賴于隨機采樣(樣本=總體)
第二個轉變就是,研究數(shù)據如此之多,以至于我們不再熱衷于追求精確度
第三個轉變因前兩個轉變而促成,即我們不再熱衷于尋找因果關系,而應該尋找事物之間的相關關系。大數(shù)據告訴我們”是什么“而不是”為什么“。在大數(shù)據時代,我們不必知道現(xiàn)象背后的原因,我們只要讓數(shù)據自己發(fā)聲。,出處:短美文(),轉載請保留本出處,否則追究其責任,謝謝你的支持,我們會給做得更好!
正如大家所知道的那樣,人類的大腦具備這樣的功能,它會把新輸入的刺激或信息與”過去的經驗或積累的部分知識“相對照,然后進行調整并接受下來。如果眼前新的現(xiàn)實與大腦中儲存的固有信息無法協(xié)調,便會在無意識中拒絕接受新的現(xiàn)實(當作沒有看見);或者通過自己一知半解的知識任意推測,使自己認識到的情況偏離實際(產生錯覺)。這是人的一種本能,目的在于使自己保持冷靜。
所以作者稱之為revolution。
講了這么多,那么大數(shù)據到底給我們帶來什么。在這里,我只想談我感觸最深的,其他的有興趣的可以自己去了解。當然,書中提了很多,最多的就是,XXX公司或者個人利用大數(shù)據創(chuàng)造了多大的財富了,拋開這些表面的不說,最讓我動心亦或者是害怕的是---預測。這是大數(shù)據帶來最核心的東西,動心的理由無須贅述,計算機會告訴你什么時候買什么雙色球可以中頭獎,想想心里是不是有一點小激動咧。當然這只是我打的一個比較夸張的比喻。至于害怕呢,書中有段話我很喜歡
公平正義的基礎是人只有做了某事才需要對它負責,畢竟,想做而未做不是犯罪,社會關系于個人責任的基本信條是,人為其選擇的行為承擔責任。如果大數(shù)據分析完全準確,那么我們的未來會被精準的預測,因此在未來,我們不僅會失去選擇的權利,而且會按照預測去行動。如果精準的預測成為現(xiàn)實的話,我們也就失去了自由意志,失去了自由選擇的權利。既然我們別無選擇,那么我們也就不需要承擔責任。這不是很諷刺嗎。
扯到這里,順便扯一下,書中另一段關于自由意志的描述
在哲學界,關于因果關系是否存在的爭論已經持續(xù)了幾個世紀。畢竟,如果凡事皆有因果的話,那么我們就沒有決定任何事的自由了。如果說我們做的每一個決定或者每一個想法都是其他事情的結果。而這個結果又是由其他原因導致的。以此循環(huán)往復,那么就不存在人的自由意志這一說了。——所有的生命軌跡都只是受因果關系的控制了。因此,對于因果關系在世間所扮演的角色,哲學家們爭論不休,有時他們認為,這是與自由意志相對立。
書中舉了個例子,舉了部電影《少數(shù)派報告》,當我看到這里的時候,”哎喲,我居然看過這部電影,想想心里還是有點小激動“,有興趣的可以去看下,大概就是講警察通過預測來提前抓捕犯人,不過不是通過大數(shù)據,是通過超人類的方式。當你什么舉動都可以被預測,相當于你完全暴露在太陽光下,換成你,你害怕不。
最后,附上兩段結語,一段是書中的一段話,另一段是我自己瞎編的。
大數(shù)據并不是一個充斥著算法和機器的冰冷世界,人類的作用依然無法被完全替代。大數(shù)據為我們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案還在不久的未來。
大數(shù)據終將會影響到我們,也像其他技術一樣會是一把雙刃劍,用得好,動心,濫用,害怕。如同核技術一樣,用的話,造福地球,濫用,給個金剛石地球你,照樣爆。我相信,未來的大數(shù)據的發(fā)展會如作者所說的,是一場生活、工作與思維的革命。
大數(shù)據時代讀后感(四)
通過讀Viktor Mayer-Schonberger的《大數(shù)據時代》重新認真思考了大數(shù)據,全書以數(shù)據為核心,引導人們用數(shù)據的思維去理解世界,用數(shù)據的思維去解決問題,是推薦讀物。但個人認為本書叫《數(shù)據時代》更為合適,因其講了不少統(tǒng)計學、數(shù)據收集的故事,“大數(shù)據”的故事只占一小部分。
維基百科說大數(shù)據由巨型數(shù)據集組成,這些數(shù)據集大小常超出常用軟件在可接受時間下的收集、庋用、管理和處理能力,或稱巨量數(shù)據、海量數(shù)據、大資料,大數(shù)據的常見特點是3V:Volume、Velocity、Variety。
規(guī)模巨大的數(shù)據未必是大數(shù)據,需滿足她的三個特點。以研究擲硬幣概率的實驗為例,當傳統(tǒng)實驗次數(shù)達到一定規(guī)模后就能幫助實驗者分析正反面出現(xiàn)的概率,隨著實驗次數(shù)的增加,數(shù)據大量積累可能越來越支持這一結論,數(shù)據達到一定量,它的邊際效應就出現(xiàn)了,數(shù)據繼續(xù)增加對分析概率還有多少意義呢?按照現(xiàn)代概率學伯努利試驗去帶入函數(shù)計算就好了,這僅算是概率學或者是統(tǒng)計學吧。故大數(shù)據不是因為單純體積大而大,是因為雜而大,研究硬幣正反面的概率如引入天文學、心理學、材料學、物理學等領域的數(shù)據而使之變大,進而研究關聯(lián)關系(或因果關系,注:本書不認同因果關系的重要性),從而得出概率的分布,然而大量相關數(shù)據的引入,按照傳統(tǒng)分析過程的時間是不可接受的,需利用高效計算資源,迅速把雜而大的處理結果呈現(xiàn)出來,并且實驗者對結果的預期不能要求100%的精確。大數(shù)據并不是數(shù)據本身,而是一種思維方式。
大數(shù)據令人著迷的地方在于用“科學”的辦法挑戰(zhàn)了“預測學”,幫助人們發(fā)現(xiàn)未知,幫忙人們進行決策。然而本書作者Viktor Mayer-Schonberger強調“大數(shù)據不是因果關系,而是相關關系,相關關系比因果關系更重要”,此觀點不能認同,因果關系是宇宙的基本定律,且不說種瓜得瓜、善有善報之類哲學命題,若商家在發(fā)現(xiàn)電容器、釘子、高壓鍋有關聯(lián)購買關系而去做大量營銷的話豈不是有可能發(fā)生更多的波士頓爆炸案①。關聯(lián)關系在大數(shù)據中被提取出來使用,而不去關心因果關系是一種粗暴的、倒退的處理方式,是作者理解的現(xiàn)代社會浮躁的心里體現(xiàn)。我認為的大數(shù)據應該是把看起來不相干的數(shù)據放到一起分析,找到某些跨領域的關聯(lián)關系,進而推論因果關系,發(fā)現(xiàn)其中價值。作者引用了安德森的觀點“現(xiàn)在已經是一個有海量數(shù)據的時代,應用數(shù)學已經取代了其他的所有學科工具,而且只要數(shù)據足夠,就能說明問題”,數(shù)據和所有科學的關系,我覺得有點像現(xiàn)在互聯(lián)網和其他所有行業(yè)的關系一樣,互聯(lián)網終究還是一個工具。作者舉了沃爾瑪“尿布與啤酒”③的故事,這也是大家熟知的一個數(shù)據分析的故事,但是沃爾瑪真的是這么做的嗎?大家可以去沃爾瑪?shù)臅r候留意一下。一家大型的超市,如果為了這種所謂相關關系,所有商品用這種關聯(lián)關系去擺放,天哪,這將是一家多么混亂的超市,顧客進去將難以區(qū)分食品在哪、生活用品在哪!有人可能說這種關聯(lián)關系更適合電子商務,是的,但是我還是比較看好已知原因的關聯(lián)關系,比如嬰幼兒智力玩具和孕婦減肥放到一起,比如在線播放器旁邊放衛(wèi)生紙的廣告(哈哈哈,你懂的)。本書用美國折扣零售店塔吉特與懷孕預測②來佐證他的觀點,但恰恰是知道因果關系后商業(yè)價值才能更多的體現(xiàn)出來,未知因果關系前顧客的父親生氣并要求賠償,知道因果關系后才使得這種廣告理所應當并讓客戶接受。
互聯(lián)網信息時代數(shù)據的積累以及BI、數(shù)據倉庫、人工智能、HADOOP、NOSQL等技術的流行,使得人們考慮問題的方式已經發(fā)生變化,接下來我們要做的只有接受擁抱數(shù)據時代、大數(shù)據時代。軟件行業(yè)程序上線的變更差錯率是一個考核IT水平的指標,為此很多公司引進了CMMI體系,以求他保障軟件的質量,為此也收集了大量的過程數(shù)據。若用數(shù)據的思維,是否可能根據之前的各種相關數(shù)據預測下次投產變更的成功率?若用大數(shù)據的思維,是否可以根據CMMI數(shù)據以及程序員開發(fā)期間上下班考勤數(shù)據、工資發(fā)放時間、上線當天天氣情況來綜合預測投產變更的成功率?用大數(shù)據的思維,訂餐網站不僅根據之前你定的是咸的還是辣的來給你推薦菜單,可能因為你微博上發(fā)了一句“每個月總有那么幾天”修改了訂餐的推薦菜單(哈哈)!故在數(shù)據時代,提議童鞋們檢查公司的信息系統(tǒng),是否有定期刪除“垃圾”日志、數(shù)據的機制(Viktor說,即使最平凡的信息業(yè)可以具有特殊的價值),為了日益廉價的存儲而刪除日益昂貴的數(shù)據,請三思后行吧。
大數(shù)據時代讀后感(五)
如今說起新媒體和互聯(lián)網,必提大數(shù)據,似乎不這樣說就OUT了。而且人云亦云的居多,不少談論者甚至還沒有認真讀過這方面的經典著作——舍恩佰格的《大數(shù)據時代》。維克托·邁爾——舍恩伯格何許人也?他現(xiàn)任牛津大學網絡學院互聯(lián)網研究所治理與監(jiān)管專業(yè)教授,曾任哈佛大學肯尼迪學院信息監(jiān)管科研項目負責人。他的咨詢客戶包括微軟、惠普和IBM等全球頂級企業(yè),他是歐盟互聯(lián)網官方政策背后真正的制定者和參與者,他還先后擔任多國政府高層的智囊。這位被譽為:大數(shù)據時代的預言家“的牛津教授真牛!那么,這位大師說的都是金科玉律嗎?并不一定,讀大師的作品一定要做些功課才好讀懂,如果能做足功課又具備相應的理論功底,就能與之進行一場思想上的對話。 舍恩伯格分三部分來討論大數(shù)據,即思維變革、商業(yè)變革和管理變革。在第一部分“大數(shù)據時代的思維變革”中,舍恩伯格旗幟鮮明的亮出他的三個觀點:一、更多:不是隨機樣本,而是全體數(shù)據;二、更雜:不是精確性,而是混雜性;三、更好:不是因果關系,而是相關關系。對于第一個觀點,我不敢茍同。一方面是對全體數(shù)據進行處理,在技術和設備上有相當高的難度。另一方面是不是都有此必要,對于簡單事實進行判斷的數(shù)據分析難道也要采集全體數(shù)據嗎?我曾與香港城市大學的祝建華教授討論過。祝教授是傳播學研究方法和數(shù)據分析的專家,他認為一定可以找到一種數(shù)理統(tǒng)計方法來進行分析,并不一定需要全部數(shù)據。聯(lián)系到舍恩伯格第二個觀點中所說的相關關系,我理解他說的全體數(shù)據不是指數(shù)量而是指范圍,即大數(shù)據的隨機樣本不限于目標數(shù)據,還包括目標以外的所有數(shù)據。我認為大數(shù)據分析不能排除隨機抽樣,只是抽樣的方法和范圍要加以拓展。
我同意舍恩伯格的第二觀點,我認為這是對他第一個觀點很好的補充,這也是對精準傳播和精準營銷的一種反思。“大數(shù)據的簡單算法比小數(shù)據的復雜算法更有效。”更具有宏觀視野和東方哲學思維。對于舍恩伯格的第三個觀點,我也不能完全贊同。“不是因果關系,而是相關關系。”不需要知道“為什么”,只需要知道“是什么”。傳播即數(shù)據,數(shù)據即關系。在小數(shù)據時代人們只關心因果關系,對相關關系認識不足,大數(shù)據時代相關關系舉足輕重,如何強調都不為過,但不應該完全排斥它。大數(shù)據從何而來?為何而用?如果我們完全忽略因果關系,不知道大數(shù)據產生的前因后果,也就消解了大數(shù)據的人文價值。如今不少學者為了闡述和傳播其觀點往往語出驚人,對舊有觀念進行徹底的否定。
世間萬物的復雜性多樣化并非非此即彼那么簡單,舍恩伯格也是這種二元對立的幼稚思維嗎?其實不然,讀者在閱讀時一定要看清楚他是在什么語境下說的,不要因囫圇吞棗的淺讀而陷入斷章取義的誤讀。比如說舍恩伯格在提出“不是因果關系,而是相關關系。”這一論斷時,他在書中還說道:“在大多數(shù)情況下,一旦我們完成了對大數(shù)據的相關關系分析,而又不再滿足于僅僅知道‘是什么’時,我們就會繼續(xù)向更深層次研究的因果關系,找出背后的‘為什么’。”[i]由此可見,他說的全體數(shù)據和相關關系都在特定語境下的,是在數(shù)據挖掘中的選項。
大數(shù)據研究的一大驅動力就是商用,舍恩伯格在第二部分里討論了大數(shù)據時代的商業(yè)變革。舍恩伯格認為數(shù)據化就是一切皆可“量化”,大數(shù)據的定量分析有力地回答“是什么”這一問題,但仍然無法完全回答“為什么”。因此,我認為并不能排除定性分析和質化研究。數(shù)據創(chuàng)新可以創(chuàng)造價值,這是毫無疑問的。舍恩伯格在討論大數(shù)據的角色定位時仍把它置于數(shù)據應用的商業(yè)系統(tǒng)中,而沒有把它置于整個社會系統(tǒng)里,但他在第二部分大數(shù)據時代的管理變革中討論了這個問題。在風險社會中信息安全問題日趨凸顯,數(shù)據獨裁與隱私保護成為一對矛盾。如何擺脫大數(shù)據的困境?舍恩伯格在最后一節(jié)“掌控”中試圖回答,但基本上屬于老生常談。我想,或許凱文·凱利的《失控》可以幫助我們解答這個問題?至少可以提供更多的思考維度。正如舍恩伯格在結語中所道:“大數(shù)據并不是一個充斥著算法和機器的冰冷世界,人類的作用依然無法被完全替代。大數(shù)據為我們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案還在不久的未來。”謝謝舍恩伯格!讓大數(shù)據討論從自然科學回到人文社科。由此推斷,《大數(shù)據時代》不是最終答案,也不是標準答案,只是參考答案。
此外,在閱讀此書之前還必須具備一些數(shù)據科學的基本知識和基本概念,比如說什么叫數(shù)據?什么叫大數(shù)據?數(shù)據分析與數(shù)據挖掘的區(qū)別,數(shù)字化與數(shù)據化有什么不同?讀前做些功課讀起來就比較好懂了。
大數(shù)據時代讀后感(六)
概念是研究的邏輯起點,“大數(shù)據”到底是什么?在百度上搜索到的解釋是,“大數(shù)據(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業(yè)經營決策更積極目的的資訊。”大數(shù)據的4V特點:數(shù)量(Volume)、速度(Velocity)、品種(Variety)和真實性(Veracity)。但舍恩伯格www.liuxue86.com認為大數(shù)據并非一個確切的概念。他在書中的一段詮釋更具人文色彩和社會意義:“大數(shù)據是人們獲得新的認知、創(chuàng)造新的價值的源泉;大數(shù)據還是改變市場、組織機構,以及政府與公民關系的方法。”[ii]其實,概念的界定要看研究者從哪個角度來研究它而定。
科學家的治學態(tài)度是嚴謹?shù)?,而人文學家更具有想象力。一些對大數(shù)據不甚了然的人往往夸大了它的作用,甚至把它神化。舍恩伯格認為大數(shù)據的核心是預測。“大數(shù)據不是要教機器像人一樣思考。相反,把數(shù)學算法運用到海量的數(shù)據上來預期事情發(fā)生的可能性。”[iii]舍恩伯格甚至不回避大數(shù)據所產生的負面影響,他在第七章里談到讓數(shù)據主宰一切的隱憂。我覺得這是實事求是的科學態(tài)度。在量子力學里有一個測不準原理:一個微觀粒子的某些物理量(如位置和動量,或方位角與動量矩,還有時間和能量等),不可能同時具有確定的數(shù)值,其中一個量越確定,另一個量的不確定程度就越大。它是解釋微觀世界的物理現(xiàn)象,信息社會中的大數(shù)據會不會也有類似情況呢?如果我們再把凱文·凱利的《失控》對比來讀的話就更有意思了,這樣我們對整個物質世界及至人類社會就有了更全面更深刻的洞察,從物理王國到生物世界,再到信息社會。從公共衛(wèi)生到商業(yè)應用,從個人隱私到政府管理,大數(shù)據無處不在。與此同時,從哪個角度探討用什么方法研究,舍恩伯格都不會忘記大數(shù)據服務人類造福人類的終極目的和價值所在。“大數(shù)據并不是一個充斥著運算法則和機器的冰冷世界,其中仍需要人類扮演重要角色。人類獨有的弱點、錯覺、錯誤都是十分必要的,因為這些特性的另一頭牽著的是人類的創(chuàng)造力、直覺和天賦。偶爾也會帶來屈辱或固執(zhí)的同樣混亂的大腦運作,也能帶來成功,或在偶然間促成我們的偉大。這提示我們應該樂于接受類似的不準確,因為不準確正是我們之所以為人的特征之一。”[iv]用中國話來說就是“人無完人”,人類在收獲大數(shù)據帶來的紅利的同時也要承受它帶來的危害。這不是對立統(tǒng)一的辯證唯物主義?我把它看作帶著歐洲批判學派色彩的科學發(fā)展觀。
問題是研究的價值基點,“大數(shù)據”不是舍恩伯格研究的問題,而是研究對象,他研究的是數(shù)據處理和信息管理問題,同時也討論信息安全和網絡倫理問題,還引發(fā)哲學上的思考,哲學史上爭論不休的世界可知論和不可知論轉變?yōu)閷嵶C科學中的具體問題。可知性是絕對的,不可知性是相對的。“大數(shù)據”之所以為大是因它引發(fā)人類生活、工作和思維的大變革,從這個意義上來看,《大數(shù)據時代》的意義不僅在于它討論了若干重大問題,而且對研究者開出了一個問題清單,從而引發(fā)更多人來探討這些有趣的問題。
《大數(shù)據時代》實際上主要是一本討論數(shù)據挖掘的書,數(shù)據挖掘與數(shù)據分析是不同的概念,數(shù)據挖掘一般是指從大量的數(shù)據中自動搜索隱藏于其中的有著特殊關系性的信息的過程。數(shù)據挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。而數(shù)據分析的目的是把隱沒在一大批看來雜亂無章的數(shù)據中的信息集中、萃取和提煉出來,以找出所研究對象的內在規(guī)律。數(shù)據挖掘主要運用計算機來進行處理,而數(shù)據分析既要用計算機也要人工分析,是計算機科學與人文價值判斷的統(tǒng)一結合。換言之,《大數(shù)據時代》并不是一本討論大數(shù)據所有問題的書。
《大數(shù)據時代》也是一本討論互聯(lián)網發(fā)展的書,從數(shù)字化到數(shù)據化,同時有濃厚的未來學色彩。當文字變成數(shù)據,我們進入了互聯(lián)網;當方位變成數(shù)據,我們進入了物聯(lián)網;當溝通變成數(shù)據,我們進入了下一代互聯(lián)網。一切可量化,萬物皆數(shù)據,正是當今互聯(lián)網世界的真實寫照。面對于這樣的世界及世界的未來,在《大數(shù)據時代》出現(xiàn)最多的詞是“思維”和“方法”,因此也可以把這本書視為思維科學應用研究的書。
此外,在閱讀此書之前還必須具備一些數(shù)據科學的基本知識和基本概念,比如說什么叫數(shù)據?什么叫大數(shù)據?數(shù)據分析與數(shù)據挖掘的區(qū)別,數(shù)字化與數(shù)據化有什么不同?讀前做些功課讀起來就比較好懂了。
大數(shù)據時代讀后感(七)
今年國慶節(jié)前一天,中共中央政治局常委們來到中關村搞集體學習,調研、講解、討論創(chuàng)新驅動發(fā)展戰(zhàn)略。包括習近平總書記、李克強總理在內的七位常委全部出動來到中關村,這是歷史上沒有過的,百度、聯(lián)想和小米的負責人,有了一次直面最高層匯報工作的機會。雷軍和柳傳志,講解的都是本公司的各種情況,李彥宏則沒有講百度的廣告業(yè)務發(fā)展得如何好,而是講起了大數(shù)據。在講解中,李彥宏認為大數(shù)據有兩個重要價值,一是促進信息消費,加快經濟轉型升級;二是關注社會民生,帶動社會管理創(chuàng)新。這些價值也是目前黨和國家領導人最為重視的,可見《大數(shù)據時代》既有理論價值也有現(xiàn)實意義。
當今大數(shù)據正在影響著新聞傳媒業(yè),大數(shù)據新聞、大數(shù)據營銷、輿情分析、受眾(用戶)研究……數(shù)據分析師變身新聞編輯,大數(shù)據正改變新聞生產流程、大數(shù)據在創(chuàng)造傳媒新業(yè)態(tài)。“不妨想象一下,隨著數(shù)據的進一步增加,坐擁用戶資源的新媒體們完全有能力通過數(shù)據挖掘,分析用戶癖好,向電視臺定制一部電視劇甚至向好萊塢定制一部電影。到那個時候,電視臺一如那些家電廠商們,曾經產業(yè)鏈的上游‘王者’,將徹底成為一個產業(yè)鏈最低端的內容代工廠。”[v]然而,情形也遠沒有人們想象的那么樂觀,李彥宏指出目前多數(shù)所謂的大數(shù)據公司其實還是空殼子,因為數(shù)據還沒有完全開放。他認為必須在政府層面上推動才能真正實現(xiàn)大數(shù)據的開發(fā)與利用。我在討論大數(shù)據時代的輿情監(jiān)測與預警時說道:“經典自由主義傳播學說對媒體的定位:秉持公正、客觀立場的媒體被稱為代表公眾監(jiān)督政府行為的‘看門狗’。其實,媒體既是公眾利益也是國家利益的‘看門狗’。要看好門就要瞭望、洞察社情民意,傳統(tǒng)媒體信息反饋渠道單一,視野、人力十分有限。而開放互動的新媒體平臺卻大有可為。作為公共信息發(fā)布平臺的微博可以成為政府及時了解社情民意,從而選擇正確治理路徑的‘導盲犬’。”[vi]遺憾的是目前我國的數(shù)據平臺還沒有完全開放,真正的大數(shù)據時代還沒有到來。
與國內不少教科書寫法的專著相比,國外的書寫得更有趣,尤其是大學者寫的,不僅視野開闊,而且能夠深入淺出。《大數(shù)據時代》不到22萬字,卻有上百個學術和商業(yè)的實例,豐富翔實的例子讓讀者感到通俗易懂,深奧的理論看起來也不費勁。這恐怕與舍恩伯格既是學者也是專家,既有理論又有實踐有關。反觀我們些學者故弄玄虛而示高明,實際上是把讀者拒之門外。我覺得優(yōu)秀的科學家也應該是一個科普作家,優(yōu)秀的學者也應該是一個不錯的傳播者。當然國外學術著作也有一個翻譯問題,這本書譯得還不錯。此外,《大數(shù)據時代》還附有不少IT界名流的推薦意見,雖是出版商的發(fā)行所為,對解讀此書也不無益處。
除了《大數(shù)據時代》,舍恩伯格還有一本《刪除》也值得一讀。要研究大數(shù)據不能只讀一本書,該書譯者周濤教授還推薦了三部國內出版的大數(shù)據方面的專著:《證析》、《大數(shù)據》、《個性化:商業(yè)的未來》。相比《大數(shù)據時代》的宏大視野,這些書就大數(shù)據某一局部問題給出深刻的介紹和洞見。我也推薦讀一讀中國工程院李國杰院士和中科院計算所副總工程學旗合寫的文章《大數(shù)據研究:未來科技及經濟社會發(fā)展的重大戰(zhàn)略領域——大數(shù)據的研究現(xiàn)狀與科學思考》。
雖說開卷有益,但是由于每個人的時間精力有限,對于一個研究者來說,不讀什么書甚至比讀什么書更重要。我認為書有三種:有用的書,主要是應用類的專業(yè)書;無用的書,主要是形而上的思想類;無字的書,人間百態(tài),社會現(xiàn)實??善氐粦珡U。對于學生來講這三類“書”都該讀一些,對于研究者則要讀哪些解決關鍵問題的書,《大數(shù)據時代》就是這樣一部書。當然,并非第一個讀者都是研究大數(shù)據的,但進入大數(shù)據時代,還有什么東西與數(shù)據完全沒有關系呢?麥肯錫全球研究機構認為,未來十年里有12項對經濟發(fā)展產生重大影響的技術,其中包括三項新媒體技術:移動互聯(lián)網、物聯(lián)網和云計算。這三項新媒體技術都與大數(shù)據密切相關,而這些新媒體新技術的發(fā)展都影響著當今的新聞傳播業(yè)。閱讀此書至少給我們研究新聞傳播學帶來一些啟迪。我覺得一本書的價值不在于讓你頂禮膜拜,而是引發(fā)廣泛而深入的討論。
“凡是過去,皆為序曲。”讀完此書,我們對大數(shù)據的認識才剛剛開始。