盡管現在渲染大數據帶來的風險的討論幾乎無處不在,但仍有一些不以為然的觀點。SAP Sybase公司全球CTO Irfan Khan在近期其發布的一篇博文中稱,“‘大數據’這個詞現在非常火,但是某種程度上不過是過去30-40年來對數據管理和數據處理挑戰的理解、認識的新一輪說法。” Khan倒不是從根本上否認“大數據”,他承認數據量的增長,然而他認為,采用列式分析基礎架構就完全可以應對包含非結構化數據在內的“大數據”分析,并從中獲益。
對此觀點,李君鵬不是很贊同。他表示,“大數據”是個發展中的概念。EMC所說的“大數據”,是指數據集的大小遠遠超過現在使用的通用軟件工具在能夠容忍的時間內捕獲、管理和處理這些數據的能力。大數據的大小并非固定的,而是一個不斷移動的目標,單一數據集可以從幾個TB到許多個PB。在數據處理規模進入到幾百個TB、幾個PB的時代,應用的復雜度越來越高,對響應速度的要求也越來越高,傳統的行式數據庫或者列式數據庫很難在性能上、成本上滿足數據和用戶對處理速度增長的需求。
李君鵬進一步表示,傳統的解決方案只能提供部分數據或非實時的分析。大數據本身就是一個問題集,云技術就是目前解決大數據問題最重要最有效的手段,目前公認處理大數據集最有效的手段——分布式處理就是云計算思想的一種具體體現。
對大數據的認識和處理,李君鵬總結說,應當包括大數據的存儲、大數據的分析,大數據的寫作和具備可預測性的應用。
大數據對企業帶來的挑戰,李君鵬認為, 首先是在把大數據潛在的價值轉換成真正價值之前,如何大幅降低大數據的擁有成本和使用成本,避免大數據本身給企業造成負擔。其次就是怎樣盡快把大數據的潛在價值轉換成真正地商業價值。
要實現真正的商業價值,李君鵬認為,必然離不開企業的行業專家、管理專家、IT專家與數據科學家的緊密合作,這也是企業利用大數據過程中普遍面臨的一個重要的挑戰。
當前公認的大數據三個特點,數據量、處理速度和復雜度,但一些小型企業的信息化程度不是很高,數據量也不是很多,可能處理也不會很麻煩,那么,他們是否可以置身于大數據挑戰之外呢?
李君鵬的答案是否定的。他認為,當前商業競爭日益激烈,市場狀況瞬息萬變,所有企業無論大小都需要迅速根據變化調整自己,適應變化,這都離不開快速準確的大數據分析。也就是說,只要需求發展的企業都需要采用大數據技術去應對變化。所不同的,只是規模,和不同行業企業的技術路線。
EMC公司
中國區資深產品經理
李君鵬先生擁有超過二十多年的IT業界經驗,有多年豐富的數據存儲經驗。自1999年加入EMC公司,李先生先后任職系統工程師,高級系統工程師,SAN高級解決方案架構師,技術商務顧問和中國區資深產品經理。