知乎/文章
8 分钟

CMU-CS 硕士北美码农求职小记:Data Scientist

作者

创建于

修改于

发布于知乎/文章

拒了另一个 Offer,工作彻底也定了,考虑到还有同学正在找工作,先简单地写一点东西,希望对正在北美找工作的同学有帮助。也请关注我的知乎专栏,我会写一些关于我在 CMU 的经历,我的在实验室干活的感受,以及找工作酸甜苦辣。

一点背景介绍,陈然,THU 软件学院2009级,CMU-MCDS 13Fall,暑假在 MCDS Director Prof. Eric Nyberg 的 OAQA 组里干活,一直觉得很有可能留下来继续读 PhD 的,做做Machine Learning 的交叉学科的应用。后来被老板告知没有 RA(毕业至15Fall PhD 入学这段时间),要去工作,于9月的 Career Fair 开始刷题找工作,因为准备得晚,一直被拒,连跪七个面试后来了一个大 offer,Data Scientist @ Trulia in SF ,考虑到这个组很小,只有5个人,也是偏 Research 的,其他人都是 PhD 或者有多年工作经验的,再加上估计也不会有人给我更多的钱了,遂从了,并毫不犹豫地放弃了 PhD 的学术理想。

因为这个组催的急,还有 FB,LinkedIn 也就不等了,Aetna 的 Senior Informatics Analyst也不继续面了,另外一个拿到的 Offer 是Apple 的 Map Evaluation Team,也是类似 Data Scientist 的角色。我也一共就这两个offer。

感觉 Trulia 给了我 Data Scientist 的 Offer主要是这么几个原因:

  1. 一是我们的项目名字叫 Master of Computational Data Science,一看就是相关专业,感谢项目改名!
  2. 二是我选了大量 Machine Learning 的课程,从基础的 Machine Learning 到中级统计到Probabilistic Graphical Model,基本对于现在工业界能用的 Model 都了解
  3. 三是我会使用 Hadoop 等工具,这主要得益于第一我选过 Cloud Computing,这课手把手,还给钱,教使用 AWS 做了很多东西。第二我选过 Machine Learning in Big Data, 这课主要教的就是怎么在 Hadoop 和 Hadoop Stream 上实现 Naive Bayes,虽然内容不多,但是讲了方方面面的很多琐碎的东西,而且工业界很适用。
  4. 四是我有实际的 Machine Learning 项目经验。我来读 Master 的时候就希望可以把一个项目的时间做的尽可能的长,我很厌倦实习和毕设那2个月做一个项目但是什么都做不出来的感觉,所以我通过 Spring 2014选课+暑期留在实验室+Fall 2014毕设做同一个项目把这个项目做了8个月。这是个在法律界的使用 NLP,IR,ML的项目,太难做了,太繁琐了,太多 Dirty Work了,太多心得了。但是面试的人跟我总是有特别多的共鸣。
  5. 最后当然我本科也是学 CS 的,计算机组成原理,计算机网络,数据库,编译原理,操作系统,信息检索等课程也都上过,基础知识也没有什么短板,这个也很重要。

我申请的时候主要投的职位包括:Software Engineer, Software Engineer in Machine Learning, Data Scientist, Data Engineer, Data Science Engineer。至于这些所谓的 Data Scientist 或者类似的职位到底是做什么的,每家公司情况都不一样,我的所见所谓主要是有这么几类:

  1. 做 Infrastructure 的。这一类就是做系统的,而且要求不低。
  2. 做传统数据分析的。Excel,SQL,写 report。
  3. 做比较新的数据分析的。往往要使用爬虫到处爬数据,写脚本处理 Log,Hadoop 处理数据等等。
  4. 做 Machine Learning 应用的。常见的 Machine Learning 的相关的应用包括搜索,NLP,图像,广告,反欺诈等等。
  5. 其他的大杂烩的。

大家可以对着这样的职位的要求查缺补漏,把一些课和技能补全。

最后,给大家一点信心,展示一下我的求职坎坷之路:

没有回复我的:

Precyse(Senior NLP)

Pinterest(Data Engineer)

A9(Data Science Engineer)

TripAdvisor(Software Engineer - Machine Learning)

Grassbridge-llc(Data Scientist - Machine Learning)

Reflektion(Software Engineer - Machine Learning/Predictive Algorithm/eCommerce)

Adobe(Data Scientist)

Medallia(Research Scientist NLP & Machine Learning)

Skyhigh(Networks Java Algorithm Engineer - Big Data - Cloud Security)

Yelp (Software Engineer - Data-Mining, Data Scientist)

Groupon(Data Scientist/Algorithm Engineer, New Graduate)

Zensight(Machine Learning Engineer)

Indeed(Software Engineer - New Grad (Seattle))

Fitbit(Research Engineer - New Grad)

Uber(SOFTWARE ENGINEER - MACHINE LEARNING)

Quantcast(Software Engineer, Machine Learning)

ePlus(Data Scientist)

Eharmony(Machine Learning Engineer)

Lynx(NLP/Machine Learning Engineer)

http://Adap.tv(Data Scientist)

OnDeck(Data Scientist)

Facebook(Software Engineer)

跪在简历的:

IBM(Waston Team)

Quora(Software Engineer, New Grad; Data Scientist, New Grad)

Airbnb(Machine Learning; Software Engineer New Grad)

Twitter(Data Scientist, Modeling; Software Engineer - Machine Learning/Relevance (Seattle); Software Engineer, New Grad)

Coursera(Data Product Engineer)

Glassdoor(Machine Learning / Data Scientist, Search Relevance)

BloomReach(Software Engineer - New Grad)

Zillow(Software Engineer, New Graduate)

Meetup(Machine Learning Engineer)

DataRobot(Software Engineer Machine Learning)

跪在电面的:

AOL(Data Scientist / Data Analyst Machine Learning)

WealthFront(Data Engineer)

Palantir(Software Engineer)

Heap(Software Engineer)

Apple(Siri New Features Team, Siri Data Team)

Kosei(Data Engineer)

跪在Onsite/On Compus的:

RocketFuel(Software Engineer)

Google(Software Engineer)

其他:

Aetna(Senior Informatics Analyst):不愿意继续面试了

拿到的Offer:

Trulia(Data Scientist)

Apple(Map Evaluation Team)

--

by @陈然