大數據，大責任

米哈烏•科辛斯基 — 2013年03月20日

大數據如今已成為媒體大肆炒作的對象。以超快速度處理大量信息的能力，正在顛覆全球各地的商業模式。但大數據與一切技術一樣，也會帶來風險。所有的技術使用者都應註意：大數據意味著大責任。

英國劍橋大學心理測量學中心研究員米哈烏•科辛斯基為英國《金融時報》撰稿

近期我與他人聯合主持的一項研究得出結論：僅僅使用公開的Facebook“贊”(Like)信息，也能瞬時生成極為詳盡的用戶心理-人口特徵資料，包括種族、性格、智商分數、幸福感、藥物使用、性取向、政治觀點和宗教信仰等有效的個人統計信息。

一旦掌握了數據，便不難建立起能夠自動更新的模型。我們抽取了5.8萬個Facebook資料的“贊”和個人屬性信息，並通過自己的調查表加以衡量——我們沒有理由認為研究結果不具有代表性。

推測的依據不是那些規模不大、一眼便可看出聯系的“贊”數據集。對科學感興趣與智力水平高存在聯系，但喜歡炸薯圈或鐘愛摩根•弗里曼(Morgan Freeman)的嗓音也同樣具有信息量。將成千上萬類似數據聚合在一起，就能有效地推斷出個人特徵。

Facebook只是開始。“贊”是一類可用於推測的數字記錄，而其他種類的數字記錄還包括Twitter消息、電子郵件、網絡搜索、瀏覽記錄、信用卡交易和線上/線下的購物信息。

與任何偉大的技術一樣，這種推測功能既可以為善，也可以作惡。

快速、自動化的心理評估可能對招聘產生革命性的影響。何不先對數百萬名應聘者進行評估（在徵得他們同意的情況下），再邀請最適合的一小部分人參加面試？這對招聘方和應聘者都是省時省錢的方法。何不根據個人特徵自動調整產品和服務？試想一下，英國《金融時報》能夠根據個人性格和情緒針對性地推薦在線文章。再試想一下，開放、外向的人和保守、內向的人搜索“倫敦過夜”時，可以得到不同的結果。

當然，這也有不利的一面。個性化的廣告或許會被認為對用戶和廣告商都有好處，但如果力量的天平向廣告商傾斜，可能會把顧客玩弄於股掌之中。一位情緒不穩定的用戶可能會因為其心理特徵而被誘導購買不必要的保險。推測某些特徵的能力甚至會對人帶來危險。目前已經可能推斷出用戶的性取向或宗教信仰，這會令他們的安全受到危害——這種情況不僅僅發生在不太自由的國家。

由於意識到播放列表、購物記錄和“贊”能夠泄露如此多的信息，許多人可能對在線技術望而卻步。在我看來，這種“數字排斥”對個人和經濟而言都不是好事。推測個人特徵和喜好的潛力是巨大的。我不是政策制定者，但我相信，我們應當設計出盡量降低相關風險的政策和工具。我們應當遵循兩項原則：透明度和控制權。

首先，我們需要幫助用戶瞭解，他們的哪些個人數據是公開的，這些數據目前和潛在的用途是什麽。其次，我們需要讓用戶完全控制住自己的數據，自行決定數據將如何得到使用。這兩方面可能已出現了技術解決方案，但還需要培養用戶意識，並建立合適的法律框架。

對可用於推斷的數據，用戶應享有完全的控制權。由公司和政府等第三方存儲並管理個人數據，已經成為通行做法。但一定要這樣做嗎？試想“贊”或購買記錄並不存儲在社交網絡或網店中，而是安全地保存在你的電腦或個人雲帳戶中。推測仍然可以進行，但會受到用戶的控制，讓用戶能夠審核對個人特徵的推斷結果。

我愛Facebook。它是將人們聯系在一起的偉大技術。我希望助一臂之力，確保我們在知道個人信息安全情況下繼續利用這一技術。

本文作者為英國劍橋大學心理測量學中心(Cambridge University's Psychometrics Centre)研究員。他與心理測量學中心的同事大衛•史迪威(David Stillwell)和微軟研究院(Microsoft Research)的托雷•格雷佩爾(Thore Graepel)合著了這項有關個人特徵的研究報告。

譯者/徐天辰

引用來源：英國《金融時報》

引用網址： http://big5.ftchinese.com/story/001049525

個人工具

這個頁面上的內容需要較新版本的 Adobe Flash Player。

區段

大數據，大責任