三立新媒體服務研發中心 » Blog Archive

2015.05.19認識大數據

大數據的應用與發展，這幾年隨著雲端與科技進步被廣泛討論與再製，許多行業也紛紛開始與大數據運用接軌。如何從海量的數字中撈取，值得被參考與再製的材料，即須回歸到基礎資料量的蒐集與統計，一般來說可從企業內部系統，簡單蒐集到初步的歷史紀錄，包含點擊數、瀏覽量、訂單交易明細等，這些散落在各地的資料，平常缺乏系統性分析及整理成趨勢圖，是十分可惜的。

常見的分析方式，須從企業內部到外部、結構到非結構，這個脈絡整理是非常廣泛及冗長的，舉凡歷史資料蒐集、外部資料購買、客戶回饋的資料、網頁點擊、社群媒體等，都是需重新被檢視的，這些不同管道資料持續的誕生，如何透過系統自動將資料有組織的蒐集及重組，即是每一位管理者渴望的第一手資料，也就是大數據所帶來的衍生附加價值。

業界將這些資料產出方式，常見主要為以下幾種類型:熱門推薦、同類別推薦、看此商品者也看過等。一般來說前兩者企業內部運算系統即可演算出來，但最廣泛討論的是最後一項，也就是『預測商品』推薦，透過大數據系統的運算，統計出每位使用者在進入頁面時的行為模式，來推算出相同軌跡使用者下一步偏愛商品推薦，這樣的演算方式，其實是需要龐大的公式在矩陣中間找尋交集點，也是大數據產出後的核心價值。

當大家都對大數據保留及存疑時，操作最成功的新一代政治明星柯文哲，透過大數據進行Facebook粉絲進行按讚、分享、留言分析，同時觀察議題的風向，及對手的議題發動頻率，提供了競選時所需的議題設定與操作，顛覆傳統競選模式，這一批網軍成功影響了這場選戰勝敗的因素之一，大家才開始體認到大數據的操作是可行的。

雖然成功案例可被複製，但普遍在進行字庫蒐集與分析時，台灣環境目前常存在的困境是，中文的語意學分析的突破是被侷限的，其主因不外乎中文詞彙不像英文可進行拆解，其中複雜程度是可以想像的，未來若能將中文字詞做有系統的篩選或辨識，將能讓標籤與使用者本身關聯可以更緊密，如何減少誤差達到自動化便是突破的關鍵點。

撰文三立新媒體服務研發中心研究員陳柏寧

相關新聞，由G發表瀏覽:1,351 views