21世纪最性感的职业——数据科学家
21世纪最性感的职业,你觉得是什么?美国媒体认为,是数据科学家。
大数据炙手可热,每家公司都在试图利用大数据做点什么。与此同时,一个新的工作职位应运而生——数据科学家。别小看了这个听起来貌似还略显青涩的名称,先来看看它掀起了怎样的波浪吧:它被美国媒体称为21世纪最性感的职业,因为这个职位听起来充满诱惑却又不被大众所了解;在知名招聘网站INDEED上,它的需求百分比在短短一年之内由0增长到现在的近0.02%;中国的各大网站如阿里巴巴等公司也相继贴出了高薪聘请数据科学家的OFFER……
那么,数据科学家,到底是做什么的呢?
数据科学家这个职位来源于乔纳森·高德曼(Jonathan Goldman)。他在2006年的6月份进入商务社交网站LinkedIn工作。在那时,LinkedIn只有不到800万用户。高德曼在之后的研究中创造出新的模型,利用数据预测注册用户的人际网络。具体来讲,他以用户在LinkedIn的个人资料,来找到和这些信息最匹配的三个人,并以推荐的形式显示在用户的使用页面上——这也就是我们熟悉的“你可能认识的人(People you may know)"。这个小小的功能让LinkedIn增加了数百万的新的页面点击量。从此,数据在Linkedin的重要性被不断提升,而高德曼的角色就是一位数据科学家。
曾经投资过Facebook,LinkedIn的格雷洛克风险投资公司把数据科学家描述成“能够管理和洞察数据的人”。在IBM的网站上,数据科学家的角色被形容成“一半分析师,一半艺术家”。他们代表了商业或数据分析这个角色的一个进化。
真正区别数据科学家与传统职位的是对于商业的强烈敏感,以及以何种组织来处理商业问题的影响力,将研究结果传达给商业和IT界的觉得者们。优秀的数据科学家将不仅仅处理商业问题,他们还要有具备发现对于公司影响最大的问题的能力。Anjul Bhambhri是IBM的大数据产品副总裁,她认为 “数据科学家是一个好奇的,不断质疑现有假设,能盯着数据就能指出趋势的人。这就好像在文艺复兴时期,一个非常想为组织带来挑战并从挑战中学习的人一样。”
我们可以从大家的描述中看到数据科学家的轮廓:既是分析师,也是数学家,有可能是个黑客,也有可能是个解码员。不一定必须是个博士才能成为一个数据科学家,但“能在数据的海洋里畅游”一定得是他的长项。并且,被人们反复提到的词是:洞察力(insight)。数据科学家必须要通过大量的数据产生对商业发展的洞察力。他们应该能推理出数据上尚未显示出来的被掩盖的事实和趋势。
提出“数据科学家”这个词的Thomas H. Davenport 和 D.J. Patil在他们的文章中谈到数据科学家的能力:数据科学家倾向于用探索数据的方式来看待周围的世界。把大量散乱的数据变成结构化的可供分析的数据,还要找出丰富的数据源,整合其他可能不完整的数据源,并清理成结果数据集。
新的竞争环境中,挑战不断地变化,新数据不断地流入,数据科学家需要帮助决策者穿梭于各种分析,从临时数据分析到持续的数据交互分析。数据科学家会遇到技术的局限性,但不会让技术阻扰他们寻找新颖的解决方案。当他们有所发现,便交流他们的发现,建议新的业务方向。通常他们很有创造力的展示视觉化的信息,也让找到的模式清晰而有说服力。他们会把蕴含在数据中的规律建议给产品经理和主管们,从而影响产品,流程,和决策。
Nate Silver利用收集到的数据,在美国2012年总统大选预测对了50州的投票结果以及最终的大选的结果。数据科学家们正在向世界昭示他们愈来愈重要的作用。
在可见的未来,数据科学家这个新兴职业将愈发活跃商业世界。当他们在硅谷的各大科技公司站稳脚跟后,更多的传统行业将很有可能拥抱这个目前还不被大多人了解的群体,因为他们在大数据分析领域的聪明才智可以为公司节省上千万的资金并且发现更具价值的投资方向。
他们这么看数据科学家 John Rauser, 亚马逊大数据科学家:
数据科学家是工程师和统计学家的结合体。从事这个职位要求极强的驾驭和管理海量数据的能力;同时也需要有像统计学家一样萃娶分析数据价值的本事,二者缺一不可。
Steven Hillion, EMC Greenplum数据分析副总裁:
数据科学家是具有极强分析能力和对统计和数学有很深研究的数据工程师。他们能从商业信息等其他复杂且海量的数据库中洞察新趋势。
Monica Rogati, LinkedIn资深数据科学家:
所有的科学家都是数据学家,因为他们整天都在和海量数据打交道。在我眼中,数据学家是一半黑客加一半分析师。他们通过数据建立看待事物的新维度。数据学家必须能够用一只眼睛发现新世界,用另一只眼睛质疑自己的发现。
Daniel Tunkelang,LinkedIn首席数据科学家:
我是bit.ly 首席科学家Hilary Mason的忠实崇拜者。关于这个新概念的定义我也想引用她的说法:数据科学家是能够利用各种信息获取方式、统计学原理和机器的学习能力对其掌握的数据进行收集、去噪、分析并解读的角色。
Michael Rappa,北卡罗莱纳州立大学教授:
尽管数据科学家这个名称最近才开始在硅谷出现,但这个新职业的产生却是基于人类上百年对数据分析的不断积累和衍生。和数据科学家最接近的职业应该是统计学家,只不过统计学家是一个成熟的定义且服务领域基本局限于政府和学界。数据科学家把统计学的精髓带到了更多的行业和领域。