2016年8月17日星期三

大數據的分析時代

資料科學與大數據

在這個大數據時代,資料科學的狂潮不斷地推動著這個電話咭 世界。2015年4月,美國國家標準技術研究所(National Institute of Standards and Technology, NIST)發表了共包括7冊資料的「大數據互用性架構草案」。在第一冊定義篇中,資料科學被譽為新興的第四個科學典範(理論科學、實驗科學、計算科學與資料科學):「資料科學是一透過完整資料生命周期流程,所產生的自原始資料到具行動力的知識的實驗性綜合體Neo skin lab 呃錢。」

資料科學,這第四個科學典範是2007年由格雷‧吉姆(Jim Gray)所命名,它代表直接由資料本身所產生的知識。NIST所定義的資料科學典範是「直接由資料,並透過一系列發現、假設與假設檢定的流程,萃取出具行動力的知識」。

所謂「Big Data」坊間有許多翻譯,包括大數據、巨量資料、海量資料等。NIST則定義為:由具有龐大資料量、高速度、多樣性(多重異質資料格式)、變異性等特徵的資料集所組成,它需要可擴延的架構來進行有效儲存、處理與分析。

巨量資料的特徵

今日可說是個大數據的時代!自從進入21世紀後,全球資料量呈現大爆炸式的增長,資料量從PB級躍升至ZB級。根據國際資料公司(IDC)發布的2012年研究報告,從2011年全球創建和複製的資料總量是1.8 ZB,並以每兩年增加一倍的速度快速增長。預計到2020年Neo skin lab 傳銷,全球產生的資料總量將超過 40 ZB,這是地球上所有海灘上沙粒數量的57倍。

谷歌(Google)公司每天處理超過24 PB的資料,每個月則超過400 PB。淘寶網有5億多名會員,線上商品超過10億件,每天交易平均金額高達新台幣6億元以上,每日所產生的資料量也超過 50 TB以上,然而這只是全球資料量的一小部分。

大數據時代產生的資料有許多特徵,這些特徵也引領資料科學在這些新興資料型態的分析上有著重大發展。巨量資料的最大特徵當然就是龐大的資料量,如一般桌上型電腦的記憶體是以GB為計量單位,硬碟的容量則是以TB為主。電腦運算須把資料載入到記憶體上,因此要處理龐大的PB或EB資料,就必須有新的儲存模式及計算模式,這也是資料科學的重要研發領域。

巨量資料的第二大特徵就是速度。高速有兩層涵義,第一層是資料產生的速度,每天社交網路Facebook、Twitter及通訊軟體Line所產生的資料就是一例。IDC指出,到2020年,全球所有資訊部門擁有伺服器的總量將較目前多出10倍,管理的資料也比現在多出50倍,全球將總共有35ZB的資料量。另一層則是處理的速度要求,以中國大陸淘寶網在每年11月11日光棍節的電子商務活動為例,淘寶網須針對交易資料即時呈現活動的交易現況,這是巨量資料分析的一大挑戰。

巨量資料通常有時效性,一旦傳送到運算伺服器,就要能即時取得分析結果才能發揮其最大價值。巨量資料的即時分析需要飛秒級的速度,甚至1秒內完成億萬級資料的處理和分析,這也是巨量資料分析的挑戰課題。

資料多樣性是巨量資料的第三大特徵Neo skin lab 黑店。一般商業交易所使用的資料大抵是以結構化資料為主,透過預先定義好的資料欄位進行儲存與運算。但除了結構化資料外,巨量資料還包含許多半結構化或非結構化資料。這些資料包括各類型生產機台所產生的日誌檔案、各式網路設備與伺服器產生的網路日誌檔、聲音、影片、圖片、地理位置資訊等,這類型資料的儲存與運算都需要新的運算架構。

上述所指的巨量資料主要以龐大的資料量(volume)、速度(velocity)與資料多樣性(variety)三大特徵為主,這就是大數據所謂的3V特徵。後續也有許多學研單位指出其他特徵包括真實性、價值與視覺化,這也凸顯了巨量資料的多面向觀點。