大數據的應用與發展,這幾年隨著雲端與科技進步被廣泛討論與再製,許多行業也紛紛開始與大數據運用接軌。如何從海量的數字中撈取,值得被參考與再製的材料,即須回歸到基礎資料量的蒐集與統計,一般來說可從企業內部系統,簡單蒐集到初步的歷史紀錄,包含點擊數、瀏覽量、訂單交易明細等,這些散落在各地的資料,平常缺乏系統性分析及整理成趨勢圖,是十分可惜的。
常見的分析方式,須從企業內部到外部、結構到非結構,這個脈絡整理是非常廣泛及冗長的,舉凡歷史資料蒐集、外部資料購買、客戶回饋的資料、網頁點擊、社群媒體等,都是需重新被檢視的,這些不同管道資料持續的誕生,如何透過系統自動將資料有組織的蒐集及重組,即是每一位管理者渴望的第一手資料,也就是大數據所帶來的衍生附加價值。
業界將這些資料產出方式,常見主要為以下幾種類型:熱門推薦、同類別推薦、看此商品者也看過等。一般來說前兩者企業內部運算系統即可演算出來,但最廣泛討論的是最後一項,也就是『預測商品』推薦,透過大數據系統的運算,統計出每位使用者在進入頁面時的行為模式,來推算出相同軌跡使用者下一步偏愛商品推薦,這樣的演算方式,其實是需要龐大的公式在矩陣中間找尋交集點,也是大數據產出後的核心價值。
當大家都對大數據保留及存疑時,操作最成功的新一代政治明星柯文哲,透過大數據進行Facebook粉絲進行按讚、分享、留言分析,同時觀察議題的風向,及對手的議題發動頻率,提供了競選時所需的議題設定與操作,顛覆傳統競選模式,這一批網軍成功影響了這場選戰勝敗的因素之一,大家才開始體認到大數據的操作是可行的。
雖然成功案例可被複製,但普遍在進行字庫蒐集與分析時,台灣環境目前常存在的困境是,中文的語意學分析的突破是被侷限的,其主因不外乎中文詞彙不像英文可進行拆解,其中複雜程度是可以想像的,未來若能將中文字詞做有系統的篩選或辨識,將能讓標籤與使用者本身關聯可以更緊密,如何減少誤差達到自動化便是突破的關鍵點。
撰文 三立新媒體服務研發中心研究員 陳柏寧
相關新聞,由G發表 瀏覽:1,137 views |
我要回應