物联传媒 旗下网站
登录 注册
RFID世界网 >  新闻中心  >  今日话题  >  正文

为什么说特朗普当选是对大数据技术的严峻考验

作者:徐永红
来源:RFID世界网
日期:2016-11-11 09:39:28
摘要:在美国大选上,微软必应的预测却错得有点离谱。最终的结果是希拉里败选,特朗普成了最大的赢家,那为什么在本次的美国总统大选上,微软基于大数据模型的必应预测为何会出现如此严重的偏差?

  闹闹哄哄的美国大选总算是尘埃落定,在老牌政客希拉里与政治素人特朗普之间,美国人民作出了自己的选择,选择了一切似乎都不按常规出牌的特朗普,给原本就似闹剧一场的大选添上了一丝荒诞的色彩。


  笔者对大选的结果倒并不关心,只是对大选之前美国的一些预测机构的表现颇为好奇。事实上,在大选之前,微软的PredictWise、《纽约时报》的The Upshot以及普林斯顿的 Sam Wang三者在选举的当天早上预测特朗普获胜的概率都在10%上下,而最终的结果狠狠地打了这些预测机构的脸,难道是大数据技术出了问题?

  成功的案例

  早在2009年,在甲型H1N1流感爆发的几周前,谷歌工程师们在《自然》杂志上发表了一篇论文,工程师们探讨了谷歌为什么能够准确地预测冬季流感的传播情况。

  事实上,谷歌的这套预测系统重点不在于提供解决方案,它关注的是特定检索词条的使用频率与疾病在时间和空间上的传播之间的联系,比如某地在某段时间上对某种疾病解决方案的搜索频率越高,那么某地某种疾病在某段时间内流行的概率就越大,正是这种适当的强相关性的建立为后来的大数据预测的准确性埋下伏笔。

  同时谷歌还利用庞大的历史检索数据来完成对已发生事件的验证式“预测”,通过不断地调整预测的数学模型使之更加符合事实真相,从而提升该预测系统的准确率,以更好地完成对未来事件的预测。

  事实证明了谷歌利用庞大的搜索数据进行趋势预测的准确性,在2009年甲型H1N1流感爆发的时候,相比官方数据习惯性滞后的毛病,谷歌成为一个更为及时且更有效的指示标。

  大数据技术面临考验

  早在美国大选的几周前,微软必应团队曾公布2016年美国总统大选的预测结果,认为希拉里·克林顿赢得大选的几率接近90%。要知道微软必应此前曾在体育比赛结果、电视赛事、各种颁奖礼及政治选举结果预测中屡屡成功。


  然而在美国大选上,微软必应的预测却错得有点离谱。最终的结果是希拉里败选,特朗普成了最大的赢家,那么为什么在本次的美国总统大选上,微软基于大数据模型的预测(事实上不仅仅是微软的,几乎大部分的预测都出现严重偏差)为何会出现如此严重的偏差?

  对此,微软的解释是:必应预测使用了多个来源的数据,包括搜索结果、网络、社交媒体数据及第三方的预测结果等。由于这些都属于预测性质,因而我们不能保证100%的准确性。

  微软的解释无可厚非,事实也确实如此,大数据目前面临的主要问题不在数据的多寡,而在于数据的质量,大数据讲究的是数据的相关性而非因果,因此相关性越大,那么这些数据的质量就会越高,在此基础上建立的应用就会越准确,比如对比赛结果以及政治选举的预测等应用。而如何在数据海洋中建立起数据的强相关性,并不断地进行算法的优化及构建合适的数学应用模型可说是目前大数据应用领域的关键,可见,未来的大数据应用依然任重道远!

  (文/徐永红 rfid世界网独家稿件,转载请注明来源作者!)

人物访谈