近來,云計算把多數人搞得暈頭轉向,還沒完全消化吸收。大數據又來占領新概念的制高點,有點你爭我搶的意思。我們不談云計算,今天就說大數據。大數據的道理其實并不復雜,就當前我們談到的大數據,主要是指隨著PC數量以及手機、PDA或者各種信息采集設備的增加(比如路上的交通視頻監控,商場的POS機或者各種射頻識別設備),這樣就出現兩種情況,一種是數據量增大,而且是呈幾何級數增加。另一種是非結構化數據很多,比如彩信,博客評論,日志,聊天記錄等,因為這些信息中可能有用數據較少,或者短期有用信息少(相關內容以后會有專門文章論述)。所以大數據的問題是兩個,第一是如何存儲這么多的數據,第二是如何開發利用這些數據為企業或者組織服務。
最近,有幸采訪到國家統計局數據管理處處長梁達敏先生,他向我們介紹了統計局目前的狀態。就統計局而言,一方面,社會對我們的數據要求越來越大,也越來越細,必然有挑戰。另一面,數據采集手段(如各種傳感器的物聯、移動設備等)和數據存儲手段(高速網絡、云存儲等)的快速發展,給統計工作提供了機遇。
統計局的數據分成幾級,從最初的基層企業到主管部門,再到地方政府,然后上報國家統計局。而這一過程很可能會因為多種原因而出現數據誤差,所以現在統計局的下一個目標是減少整個上報流程,讓環節減少,這樣上報的時間也會變短,提高效率的同時也增加的數據的可靠性。當然,這樣做后更多的數據就會集中到統計局這里,從信息化的角度來說這樣會成為一個數據大集中的問題,過去一層一層的,它的原始數據都是存在各級的統計局,那么省里可能有一些原始數據,那么就是一個匯總的數據上來,所以國家局對很多數據很難控制。現在我們就把企業端直接報送到國家局這一塊,這樣的話就從業務上提高數據的準確性,那么從IT上面就涉及到數據大存儲的問題。那么在解決這個問題上我們有兩個想法,第一肯定是立項要建一個這樣大的這種存儲中心,異地備份中心這樣一個機構,那么現在我們還是很務實的,我們現在只是大家對統計局有了解的人知道,統計局是分好幾個地區辦公的,那我們只先做一個簡單的這樣一個同城異地的簡單備份,這是目前在做的一個事情。

國家統計局數據管理處處長梁達敏
這其中我們會首先理清社會對數據的需求,按數據的使用需求,梳理清楚數據的“分級”,規劃好數據的在線、近線和離線;第二、有良好的數據開發能力。這是我們的工作重點重點。
然后第二個事情我們現在有一個考慮,就是利用這樣一個外包的方式,就是利用公共的資源,首先要保證安全這是肯定的,這個信息的數據的安全,其實很多我不知道在座多少是企業多少是政府的,在政府很多人用這個理由就是說不行我的數據必須是獨立建設這樣的中心也好,備份中心也好,為什么?因為我的數據涉及到保密問題,就是如果有這樣國家有關部門認證的有關部門我們是不是可以去利用?這樣是對整個資源的一個節省,就是減少我們投資。
當然這樣就存在安全的問題,因為安全和發展永遠是一對矛盾。無論安全與否,無論數據或大或小,數據業務總是要做的,安全跟上就行。核心的機密的數據,不會有那么大的量,而且可以分離存儲。把所有數據混為一談,是敷衍搪塞。另外,建立有安全認證資質的、企業運營的云中心,是必要的也是可行的,技術安全和基礎設施安全會作的更好,服務起碼與自管相當,覺得這種方式有危險是我們的思想在作怪,需要慢慢改變。
總結來說,大數據時代肯定會到來,我們好好規劃,好好利用先進的手段,希望統計局的數據能更加及時準確的反應各方面的情況,更好得服務人民大眾。