大數(shù)據(jù)時代 讓一群腦殘為你選書
2013-06-25 08:52 來源:鈦媒體 責編:王岑
- 摘要:
- 大數(shù)據(jù)時代的到來,與信息數(shù)字化息息相關(guān),。在2000年的時候,,以數(shù)字化形式存儲的數(shù)據(jù)僅占全球數(shù)據(jù)量的四分之一,而到了2007年時,,90%以上數(shù)據(jù)是數(shù)字化數(shù)據(jù),,剩下不到10%是存儲在報紙、CD等介質(zhì)上的模擬數(shù)據(jù),。
【CPP114】訊:對“大數(shù)據(jù)”概念還搞不清的人可以松一口氣了,,如果你讀過《大數(shù)據(jù)時代》(Big Data:A Revolution That Will Transform How We Live, Work, and Think),,你會發(fā)現(xiàn)舍恩伯格(Viktor Mayer-Sch nberger)對“大數(shù)據(jù)”的定義如此簡單:所謂大數(shù)據(jù)(Big Data),就是大量的數(shù)據(jù),;它的反義詞同樣簡單:小數(shù)據(jù)(Small Data),,很少很少的數(shù)據(jù)。
相比于作者所著同樣談?wù)摯髷?shù)據(jù)話題的《刪除:大數(shù)據(jù)取舍之道》一書,,《大數(shù)據(jù)時代》結(jié)構(gòu)緊密,,邏輯清晰,論證過程也更為嚴謹,。本書在何為大數(shù)據(jù),、大數(shù)據(jù)有何典型特征、大數(shù)據(jù)的實際應(yīng)用和未來以及大數(shù)據(jù)的隱憂等關(guān)鍵問題上,,通過案例和通暢曉白的解釋,,梳理清楚了“大數(shù)據(jù)”這個看起來高深復雜但其實無處不在的概念。在舍恩伯格看來,,以往我們因受限于工具而采用的抽樣調(diào)查以及精準采樣數(shù)據(jù)的分析方法需要革新,,大數(shù)據(jù)時代是改變方法論和思維方式的過程。
大數(shù)據(jù)時代的到來,,與信息數(shù)字化息息相關(guān),。在2000年的時候,以數(shù)字化形式存儲的數(shù)據(jù)僅占全球數(shù)據(jù)量的四分之一,,而到了2007年時,,90%以上數(shù)據(jù)是數(shù)字化數(shù)據(jù),剩下不到10%是存儲在報紙,、CD等介質(zhì)上的模擬數(shù)據(jù),。我們知道,,模擬數(shù)據(jù)在復制和傳播過程中信息會失真、噪音疊加,,比如一張紙連續(xù)復印三次之后,,噪點越來越多,字跡越來越模糊,,一盤音樂磁帶連續(xù)翻錄多次之后,,令人厭煩的“嗞嗞”聲越來越大。而二進制數(shù)字世界,,是一個非黑即白的世界,,要么1要么0,即使有噪點,,灰色也會被識別黑色(1),,淺白則被計算機處理為白(0),沒有中間地帶,,也就沒有了噪音的容身之處,。信息在數(shù)字世界得以無損復制和傳播,再加上不斷廉價化的存儲能力以及同時提高的計算能力,,大量以前無法處理的數(shù)據(jù),,有了分析、解讀它們的可能,。
在模擬信息的世界,,因為信息收集、信息復制,、信息存儲以及信息分析的工具既不夠好,,成本也極為高昂,我們只能收集極少量的數(shù)據(jù)(也即所謂的“結(jié)構(gòu)化數(shù)據(jù)”)進行分析,,由于條件所限,,我們發(fā)明了統(tǒng)計學來通過盡可能少的數(shù)據(jù),去推導,、去證實盡可能重大的發(fā)現(xiàn),。當我們意識到我們已經(jīng)擁有能夠收集和處理大規(guī)模數(shù)據(jù)(也即所謂更多的“非結(jié)構(gòu)化數(shù)據(jù)”)能力的時候,我們需要新的理念和工具去重新認識這個世界了,。
新的理念運用于工具上的體現(xiàn)之一是光場相機Lytro,。與其它數(shù)碼相機不同的是,Lytro相機可以在拍攝完照片之后再對焦,。因為在拍攝時,,Lytro可以記錄整個光場里所有的光,照片具體生成什么樣,拍完之后根據(jù)需要再決定,。——有沒有發(fā)現(xiàn)這顛覆了我們做事的一貫邏輯,?以往我們因為受制于工具或金錢,需要提前想好我們的目的,,再去獲取我們需要的信息。而大數(shù)據(jù)時代的思維方式則如Lytro的特性一樣,,先拍下來再說,,需要什么樣的照片,后期再處理,。Lytro相機也算從膠片機過渡到數(shù)碼相機交疊時代思維的延續(xù),,如果攝影技術(shù)不太好,先拍一堆片子再說,,你總能挑出幾張好的來,。
對小數(shù)據(jù)而言,最重要的要求是減少錯誤,,保證質(zhì)量,。而大數(shù)據(jù)對更糙的信息及冗余信息容忍度更高,也即當資源足夠豐富且廉價的時候,,可以先大量浪費,,再來精準化,而不是預設(shè)精準的目標,。
亞馬遜早期雇傭了一群書評家為讀者薦書,,后來發(fā)現(xiàn)通過算法——一群對圖書質(zhì)量判斷能力遠不如專業(yè)人士的普通讀者的口味的集合——推薦圖書的轉(zhuǎn)化率更高之后,亞馬遜把書評家們都解雇了,。由于自己多年積累被算法取代的憤怒,,在被解雇之后,書評家發(fā)出這樣的抱怨:(通過算法推薦)“那種感覺就像你和一群腦殘在一起逛書店,。”類似的故事也發(fā)生微軟,。微軟機器翻譯部門的統(tǒng)計學家們在茶余飯后閑聊中會說,每次一有語言學家離開他們團隊,,微軟機器翻譯質(zhì)量就會變得更好一點,。
從對信息質(zhì)量的角度出發(fā)去觀察,我們會發(fā)現(xiàn)大數(shù)據(jù)時代的特性的確越來越“腦殘化”:它放棄原始數(shù)據(jù)的精確性,,強調(diào)數(shù)據(jù)量的多和雜,;它放棄因果關(guān)系的判斷,強調(diào)相關(guān)關(guān)系,;它放棄知其所以然(為什么),,只需知其然(是什么)就可以了。
豆瓣閱讀為什么給你推薦《中國合伙人》?背后的邏輯可能是你的朋友最近點了“想看”或“看過”,。新浪微博為什么推薦李承鵬而不是李開復給你關(guān)注,?背后的邏輯可能是你關(guān)注的人中更多人關(guān)注李承鵬。但為什么因為朋友喜歡,,所以機器就會判定你也會喜歡呢,?不知道。機器通過計算得知,,如果你有很多朋友喜歡同一個事物,,那么你喜歡這個事物的概率會大一些�,?赡軐�,,也可能錯。二者之間強相關(guān),,但不因果,。
大數(shù)據(jù)最大的用途之一是預測。好的方面,,它可以預測機票價格走勢,,為自費旅游者省錢;它能預測交通擁堵情況,,幫助人們選擇更好的時段和路線節(jié)省出行時間,;它也可以像亞馬遜做的那樣,為你提供更準確的書單,,幫你遇見更多好書,。《麻省理工科技創(chuàng)業(yè)》曾報道說,,英國伯明翰大學的一個研究團隊甚至開發(fā)出一種算法,,可以精確地預測你未來將要去哪里。
大多數(shù)人一般有規(guī)律的行為模式,,但傳統(tǒng)的預測算法——只通過用戶本身的行為模式來進行預測,,解決不了人們臨時變更路線的情況,導致預測人們出行的平均誤差高達1000米,。伯明翰大學開發(fā)的算法可以通過追蹤用戶手機上的個人過往行為模式數(shù)據(jù)以及用戶手機里的社交關(guān)系——當然,,新型算法需要收集和分析大量個人信息。最后能預測用戶在24小時之內(nèi)會去什么地點,,而平均誤差減少到僅20米,。
相比于作者所著同樣談?wù)摯髷?shù)據(jù)話題的《刪除:大數(shù)據(jù)取舍之道》一書,,《大數(shù)據(jù)時代》結(jié)構(gòu)緊密,,邏輯清晰,論證過程也更為嚴謹,。本書在何為大數(shù)據(jù),、大數(shù)據(jù)有何典型特征、大數(shù)據(jù)的實際應(yīng)用和未來以及大數(shù)據(jù)的隱憂等關(guān)鍵問題上,,通過案例和通暢曉白的解釋,,梳理清楚了“大數(shù)據(jù)”這個看起來高深復雜但其實無處不在的概念。在舍恩伯格看來,,以往我們因受限于工具而采用的抽樣調(diào)查以及精準采樣數(shù)據(jù)的分析方法需要革新,,大數(shù)據(jù)時代是改變方法論和思維方式的過程。
大數(shù)據(jù)時代的到來,,與信息數(shù)字化息息相關(guān),。在2000年的時候,以數(shù)字化形式存儲的數(shù)據(jù)僅占全球數(shù)據(jù)量的四分之一,,而到了2007年時,,90%以上數(shù)據(jù)是數(shù)字化數(shù)據(jù),剩下不到10%是存儲在報紙,、CD等介質(zhì)上的模擬數(shù)據(jù),。我們知道,,模擬數(shù)據(jù)在復制和傳播過程中信息會失真、噪音疊加,,比如一張紙連續(xù)復印三次之后,,噪點越來越多,字跡越來越模糊,,一盤音樂磁帶連續(xù)翻錄多次之后,,令人厭煩的“嗞嗞”聲越來越大。而二進制數(shù)字世界,,是一個非黑即白的世界,,要么1要么0,即使有噪點,,灰色也會被識別黑色(1),,淺白則被計算機處理為白(0),沒有中間地帶,,也就沒有了噪音的容身之處,。信息在數(shù)字世界得以無損復制和傳播,再加上不斷廉價化的存儲能力以及同時提高的計算能力,,大量以前無法處理的數(shù)據(jù),,有了分析、解讀它們的可能,。
在模擬信息的世界,,因為信息收集、信息復制,、信息存儲以及信息分析的工具既不夠好,,成本也極為高昂,我們只能收集極少量的數(shù)據(jù)(也即所謂的“結(jié)構(gòu)化數(shù)據(jù)”)進行分析,,由于條件所限,,我們發(fā)明了統(tǒng)計學來通過盡可能少的數(shù)據(jù),去推導,、去證實盡可能重大的發(fā)現(xiàn),。當我們意識到我們已經(jīng)擁有能夠收集和處理大規(guī)模數(shù)據(jù)(也即所謂更多的“非結(jié)構(gòu)化數(shù)據(jù)”)能力的時候,我們需要新的理念和工具去重新認識這個世界了,。
新的理念運用于工具上的體現(xiàn)之一是光場相機Lytro,。與其它數(shù)碼相機不同的是,Lytro相機可以在拍攝完照片之后再對焦,。因為在拍攝時,,Lytro可以記錄整個光場里所有的光,照片具體生成什么樣,拍完之后根據(jù)需要再決定,。——有沒有發(fā)現(xiàn)這顛覆了我們做事的一貫邏輯,?以往我們因為受制于工具或金錢,需要提前想好我們的目的,,再去獲取我們需要的信息。而大數(shù)據(jù)時代的思維方式則如Lytro的特性一樣,,先拍下來再說,,需要什么樣的照片,后期再處理,。Lytro相機也算從膠片機過渡到數(shù)碼相機交疊時代思維的延續(xù),,如果攝影技術(shù)不太好,先拍一堆片子再說,,你總能挑出幾張好的來,。
對小數(shù)據(jù)而言,最重要的要求是減少錯誤,,保證質(zhì)量,。而大數(shù)據(jù)對更糙的信息及冗余信息容忍度更高,也即當資源足夠豐富且廉價的時候,,可以先大量浪費,,再來精準化,而不是預設(shè)精準的目標,。
亞馬遜早期雇傭了一群書評家為讀者薦書,,后來發(fā)現(xiàn)通過算法——一群對圖書質(zhì)量判斷能力遠不如專業(yè)人士的普通讀者的口味的集合——推薦圖書的轉(zhuǎn)化率更高之后,亞馬遜把書評家們都解雇了,。由于自己多年積累被算法取代的憤怒,,在被解雇之后,書評家發(fā)出這樣的抱怨:(通過算法推薦)“那種感覺就像你和一群腦殘在一起逛書店,。”類似的故事也發(fā)生微軟,。微軟機器翻譯部門的統(tǒng)計學家們在茶余飯后閑聊中會說,每次一有語言學家離開他們團隊,,微軟機器翻譯質(zhì)量就會變得更好一點,。
從對信息質(zhì)量的角度出發(fā)去觀察,我們會發(fā)現(xiàn)大數(shù)據(jù)時代的特性的確越來越“腦殘化”:它放棄原始數(shù)據(jù)的精確性,,強調(diào)數(shù)據(jù)量的多和雜,;它放棄因果關(guān)系的判斷,強調(diào)相關(guān)關(guān)系,;它放棄知其所以然(為什么),,只需知其然(是什么)就可以了。
豆瓣閱讀為什么給你推薦《中國合伙人》?背后的邏輯可能是你的朋友最近點了“想看”或“看過”,。新浪微博為什么推薦李承鵬而不是李開復給你關(guān)注,?背后的邏輯可能是你關(guān)注的人中更多人關(guān)注李承鵬。但為什么因為朋友喜歡,,所以機器就會判定你也會喜歡呢,?不知道。機器通過計算得知,,如果你有很多朋友喜歡同一個事物,,那么你喜歡這個事物的概率會大一些�,?赡軐�,,也可能錯。二者之間強相關(guān),,但不因果,。
大數(shù)據(jù)最大的用途之一是預測。好的方面,,它可以預測機票價格走勢,,為自費旅游者省錢;它能預測交通擁堵情況,,幫助人們選擇更好的時段和路線節(jié)省出行時間,;它也可以像亞馬遜做的那樣,為你提供更準確的書單,,幫你遇見更多好書,。《麻省理工科技創(chuàng)業(yè)》曾報道說,,英國伯明翰大學的一個研究團隊甚至開發(fā)出一種算法,,可以精確地預測你未來將要去哪里。
大多數(shù)人一般有規(guī)律的行為模式,,但傳統(tǒng)的預測算法——只通過用戶本身的行為模式來進行預測,,解決不了人們臨時變更路線的情況,導致預測人們出行的平均誤差高達1000米,。伯明翰大學開發(fā)的算法可以通過追蹤用戶手機上的個人過往行為模式數(shù)據(jù)以及用戶手機里的社交關(guān)系——當然,,新型算法需要收集和分析大量個人信息。最后能預測用戶在24小時之內(nèi)會去什么地點,,而平均誤差減少到僅20米,。
- 相關(guān)新聞:
- ·4月份我國造紙行業(yè)進出口情況分析 2013.06.25
- ·盤點與展望:2013上半年辦公打印新產(chǎn)品 2013.06.24
- ·電商平臺監(jiān)管缺位 三無食品網(wǎng)上泛濫 2013.06.24
- ·印刷設(shè)備減稅利好消息 刺激電子監(jiān)管碼產(chǎn)業(yè)再度繁榮 2013.06.21
- 關(guān)于我們|聯(lián)系方式|誠聘英才|幫助中心|意見反饋|版權(quán)聲明|媒體秀|渠道代理
- 滬ICP備18018458號-3法律支持:上海市富蘭德林律師事務(wù)所
- Copyright © 2019上海印搜文化傳媒股份有限公司 電話:18816622098