文章、回答、视频、播客和访谈的统一归档 · 知乎 · 机器学习与数据科学 · 98 条 · 第 3 / 4 页
2015
Docker for Data Science at Trulia 和一点感悟
刚刚在 Trulia 的博客上发表了我的第一篇文章:Docker for Data Science at Trulia. -How Trulia’s Data Scientists Minimized Releasing, Testing, and DevOps Efforts with Docker 文章大意,就是我...
抛弃幻想,谈谈现实中的数据科学家
Data Scientist,数据科学家,太火了,已经成为新一代改变世界的职业,引得每一个人都想往这个方向转。 学CS的觉得做码农太底层,给人打工,要转数据科学家,完美。 学统计的觉得这个不需要过多的 Coding,适合自己,要转数据科学家,完美。 学商科的觉得终于自己也可以成为科学家了,要转数据科学家,完美。 似乎每...
data scientist 有什么常见 machine learning 相关的面试问题?
谢邀 适合面试ML的题目可借鉴性并不大,因为很多时候你懂了就是懂了,不懂就是不懂,刷题并没有很大的帮助。努力啃课本,看论文,看公开课,才是王道。 要说题目哪里多的话,其实可以参考各大经典教材的习题,比如PRML的课后习题。 另一方面,我在我之前面试的过程中也被问了不少ML的题目,原文可参考: Data Scientis...
申请卡耐基梅隆Machine Learning硕士难度有多大?
谢邀 听说申请难度非常大,不知道是不是CMU 申请难度最大的硕士项目,毕竟招的人太少。 建议自己看现在的学生列表: Masters Students-Machine Learning Department 注:其中不少人是CMU的PhD辅修MLD的Master,注意分辨。 感觉没有在顶会发过若干一作还是很难的。
该不该坚持学习Machine Learning?
谢邀 一个技能学与不学,肯定有千万种理由,然而并没有一种理由叫做‘因为赶不上最牛的人,所以不学了’。如果你真有这样的观点,为何要继续‘老老实实做开发’呢?别人做开发了几十年了,你赶的的上最牛的人吗?为何要‘多看看系统设计类的东西’呢?别人系统设计也做了几十年了,你赶得上最牛的人吗?既然什么东西都赶不上最牛的人,还继续学...
机器学习会变成大学本科专业吗?
谢邀 短期来看并不会成为大学专业 但是已经成为了不少硕士项目的方向 长期来看 大学可能不会再有专业一说 毕竟高等教育并没有义务保证你能成为什么样的人 成为什么样的人是自己的选择 换句话说 上什么课 找什么工作 都是自己对自己的负责 学校理论上只需要为学生提供最好的服务 最多高质量的课程 让学生能得到他想得到的东西就好 ...
Kaggle 的比赛在 Machine Learning 领域中属于什么地位?
在主流科研界可能影响已经不大了,但是在工业界中依然很受用。如果你有一些特别亮点的成绩,还是很有说服力的。也正如 @lau phunter 中提到的答案一样。 如果要在Kaggle比赛里面获得一个好的成绩,免不了要做大量的实验:关于参数选择,模型选择,以及特征工程等等。而为了高效地完成这些实验,即要有良好的实验思想,又要...
CVPR 2015 有什么值得关注的亮点?
本人并非CV专业科研人员,只是最近在Trulia ( Trulia: Real Estate Listings, Homes For Sale, Housing Data )做和图像相关的科研项目,所以老大一挥手就把我和同事按排到Boston来围观CVPR了……总体上除了食物非常差,订不到旅馆以外,其他的收获都非常大。...
AI and Law, 人工智能与法律(一):欢迎围观
有人曾经提过这么一个问题:法律是否可能被代码化? - 计算机 引发了不少的讨论。从开始时的戾气颇重的清一色的“当然不行”类回答,到慢慢的终于出现了“有的行,有的不行”的更为客观的回答。虽然有不少真知灼见,然而并没有看到有资深的专家出来,做出更详尽的回答。 这其实是一个非常好的问题,这背后是一股无法阻挡的新算法、新模型、...
Data Scientist 面试都面了哪些题?
在之前的文章 CMU-CS硕士北美码农求职小记:Data Scientist 中,我简略叙述了我求职的经历,这里我也记录一下我面试过哪些类型的题目。面试的职位包括:Data Scientist,Data Engineer,Software Engineer in Machine Learning,Data Analys...
参加MLSS (Machine Learning Summer School) 是怎样的体验?
谢邀 我并没有完整地参加过MLSS,但是去围观了2014暑假在CMU的MLSS。 都是偷偷混进去的,听了几个讲座,拿了一件衣服…… 讲的人都是比较牛的,Topic也是比较热门的,当然,感觉并不是给初学者听的,再加上各路大神的英语口音也非常丰富,估计很多人都是听得一头雾水…… Anyway,这个答案并没有什么实际内容……...
2014
有哪些算法惊艳到了你?
Reservoir Sampling( Reservoir sampling ) 这是我在今年求职过程中面试的时候被问到的,因为之前很少接触Streaming的算法,在听到这个题目的时候被惊呆了,根本不能理解: 给一个Streaming的Data,未知长度,要求在Streaming结束后返回N个Data,且是等概率的。...
CMU-CS 硕士北美码农求职小记:Data Scientist
拒了另一个 Offer,工作彻底也定了,考虑到还有同学正在找工作,先简单地写一点东西,希望对正在北美找工作的同学有帮助。也请关注我的知乎专栏,我会写一些关于我在 CMU 的经历,我的在实验室干活的感受,以及找工作酸甜苦辣。 一点背景介绍,陈然,THU 软件学院2009级,CMU-MCDS 13Fall,暑假在 MCDS...
如何在知乎中准确高效地邀请知友回答问题?
其实这是一个经典的Community Question Answering Expertise Identification 的问题,已经有很多现成的Machine Learning的算法,而不是仅仅基于关键词匹配的算法,来帮助改善问题。 希望知乎在开发有余力的时候可以开始考虑优化这些算法。而不是寄托于希望用户知道该邀...
机器学习有很多关于核函数的说法,核函数的定义和作用是什么?
谢邀 详细的公式什么的,网络上搜索kernel function, kernel methods 有很多,我就不仔细说了,简单地说说背后的intuition。 intuition也很简单,比如我们有一个一维的数据分布是如下图的样子,你想把它用一个直线来分开,你发现是不可能的,因为他们是间隔的。所以不论你画在哪,比如绿色...
计算机科学领域中,论文灌水现象严重吗?
中文论文中不少基本没有原创性 可能连灌水都算不上 国际的很多二流三流会议也充斥着灌水论文 顶尖的会议虽然好一点 但是这几年随着data mining相关领域的崛起 尤其是social network方向 基本没有统一的研究问题 没有统一的数据集 少有相互比较的模型 又加上PGM和MCMC等技术的成熟为建模和计算带来了极...
高考分数线可不可以通过一些神经网络算法预测得出一个可信的范围?
Machine Learning大多数时候不解决是否可信的问题 只关注在测试集上的误差 所以能否预测一个可信的范围?不知道 但是可以通过模型训练出一个在现有数据集上误差不大的模型 这又怎么样呢?本质上跟自己估算也没有区别
如何成为数据科学家?
抛弃幻想,谈谈现实中的数据科学家 - Hello陈然! - 知乎专栏 大部分心中的Data Scientist 可能是上文中的Type A Data Scientist。 但是从我的接触来看,现在更大的需求来自于Type B Data Scientist,也即大家都是知道现在基于机器学习的算法能够帮助企业增长是大趋势,...
从现实角度出发,股票价格被假设为服从马尔科夫过程(Markov Process)是否合理?
题主的困惑其实很简单唉,为何大家都这么能说。 隐式马尔科夫模型是假定当前t时刻的状态只和t-1时刻的状态有关,与t-2和再往前的状态无关。而题主最困惑的地方,是这里所谓的“状态”,并不一定是1秒或者1天的股票价格,还可以是1年的,10年的,全看你自己怎么定义。所以当然参考过去1年或者10年的股价都是符合这个模型的。 至...
数学专业转机器学习,需要哪些计算机和编程方面的积累?
The Open Source Data Science Masters by datasciencemasters 对照相关课程查缺补漏?
机器学习,数据挖掘在研究生阶段大概要学些什么?
The Open Source Data Science Masters by datasciencemasters 看到一个不错的网站,是一个Stanford的CS学生维护的,上面列出了这个方向相关的课程和相应的资源,我觉得很不错。
物理专业自学计算机应该学些什么?
每个人站的角度不同,现在的答案基本都是从图形学的角度建议,我换个角度。 从研究生计算机科学做研究的角度来讲,我认为本科最适合的专业首先是物理,其次是数学,再次才是计算机。数学学的太抽象,抽象层次太高,研究现实问题的人往往处在鄙视链的底端。计算机学的太底层,对于概率论、随机过程、线性代数等学科学的太少,不了解建模分析的那...
微软有哪些语音识别技术积累,Cortana 能否跟 Siri 和 Google Now 抗衡?
语音识别做的再好也快到瓶颈了。 难得还是在语义识别,以及和具体业务的结合,这一点上Siri和Google Now也都没有什么惊喜。
概率图模型(PGM)有必要系统地学习一下吗?
PGM 有必要系统地学习 PGM 的原理经过若干大牛的归纳后已经并不那么复杂,看看怎么建模,怎么 Learn,怎么 Inference,就能掌握原理的精髓。但是,PGM 可以把这几年机器学习的主流发展方向串起来,会讲很多正在流行的模型,这为这门不是那么系统的学科搭了一个框架,又讲可以讲理论,又可以讲在图像、语音的应用,...
大二本科生,怎样入门机器学习和算法?
去Cousera上把Stanford的Machine Learing课上了 把概率统计和高等代数再学几遍 就差不多入门了
北京哪几所高校有数据分析或数据挖掘方向的研究生专业?
Jie Tang (Tang, Jie) 's Homepage 清华唐杰老师
以后想从事大数据方面的工作,大学专业应该怎么报?
计算机科学与技术
2013
现在有音乐电台类网站使用基于音乐创作人及制作人的音乐推荐算法吗?它与主流算法相比有哪些优势和劣势?
常见的推荐算法有item-based 也有user-based(协同过滤)。 考虑到对于音乐本身feature的描述并不理想,所以通过计算音乐和音乐之间的相似性来进行推荐恐怕并不那么靠谱,无论是用音乐的歌手、“风格”、还是制作人。 使用协同过滤进行音乐推荐应该更佳。
为什么 Deep Learning 最先在语音识别和图像处理领域取得突破?
我觉得主要是因为搞Machine Learning的人大部分集中在这个领域
郑宇博士与他的Urban Computing
2013年8月,MIT Technology Review颁布了他们评比的35 Innovators under 35,也即35个35岁以下的创新者。毫无疑问,这些人的所在从事的研究或者项目,都是当前所热门的研究方向,是对于未来可能有重大影响的项目。在其中有一位,是微软亚洲研究院的郑宇博士,他所进行的研究方向,叫 Ur...