返回

陈然的公开内容

文章、回答、视频、播客和访谈的统一归档 · 全部内容 · 机器学习与数据科学 · 2021 · 11 条 · 第 1 / 1

2021

有哪些方法可以帮助AB测试显著更快一些?

知乎/回答
3 分钟

方法是有不少的,比较常见的一个方向是做方差缩减(Variance Reduction[1])。这里分享一篇来自 Netflix KDD 2016 年的文章 Improving the Sensitivity of Online Controlled Experiments: Case Studies at Netfli...

机器学习与数据科学

[ML 1分钟]细节太多,犯错太容易

知乎/文章
3 分钟

机器学习工程师小月最近一直在研究新的深度学习算法。相对于现有的算法框架,新算法要求兄弟团队一块搭建了不少新的框架,也选用了一些以前不太熟悉的库。经过了三个月的准备,终于可以上线AB测试了。 但是AB测试效果老是不好 经过了几个月的迭代,效果依然不佳,仅仅只比手动排序更好,与现有的模型相比效果差距甚远。离线数据 AUC,...

机器学习与数据科学构建与工程

支持向量机(SVM)是什么意思?

知乎/回答
2 分钟

大部分答案都在写公式,我来聊聊直觉上的东西。 设想一下你要做一个分类器,区分狗和炸鸡。首先假定我们只有两个数据,那么这条线会很容易画,自然而然就会画在正中间。 这个时候,我们加入一个新的数据,这个狗跟现有的数据差别很大。这个时候,分类线应该画在哪里? 这就是 SVM 跟其他线性模型很不一样的地方了,SVM 这条分类线不...

机器学习与数据科学

如何看待深度学习中不分验证集?

知乎/回答
1 分钟

这就是典型的 overfitting 嘛,自欺欺人地刷数据。有限数据,天赋异禀,看着训练集,靠着随机函数丢硬币丢出完美符合的测试集的 if-else,拿到完美指标。刷就是了。 不过这是所有公开数据集都难以避免的,毕竟所有的数据都开放了,只要数据有限,不管怎么分,总有可能过拟合。所以刷数据的论文主要是看个 insight...

机器学习与数据科学

如何评价 KNN 算法?

知乎/回答
1 分钟

K-NN 算法好啊,特别是深度学习出来后万物皆可 Embedding,几乎啥问题都可以转换成为两者 Embedding 的相似度问题,不管是分类、回归、排序等等,Embedding + K-NN 打分简单易行。 而且 K-NN 线上服务也特别好做,简单,速度快。如果 Embedding 数量特别多,也有很多近似 K-N...

机器学习与数据科学

[ML 1分钟]第一个模型能跑通就不错了

知乎/文章
2 分钟

有业务能上机器学习模型了,算法工程师小月开心地不行。毕竟作为一名机器学习工程师,口袋子藏着无数陈年老模型:线性模型、树模型、深度模型、增强学习,要啥有啥。业务一来,恨不得立刻就掏出最炫酷的模型,一步到位。 但是,第一个模型,一定要简单 正当小月兴奋着呢,经理大圆泼了一瓢冷水,“第一个模型,一定要简单”。 第一个次迭代往...

机器学习与数据科学构建与工程

[ML 1分钟]第一版排序不上机器学习算法

知乎/文章
2 分钟

一个新的产品需求来了,产品经理总会提前很久就来找机器学习的团队,讨论能不能在第一版上线中就加入“神奇的”机器学习排序算法。 “我也是想呢,但是不行“。 我们当然想着用机器学习去帮助每一个产品,但是在实践中,最早的版本不应该考虑机器学习算法。 原因 背后的原因有很多。 第一当然是数据。不管是有监督还是无监督算法,或多或少...

机器学习与数据科学构建与工程

推荐系统有哪些坑?

知乎/回答
4 分钟

最近在团队分享了旅游网站 Booking 在 KDD 2019 年的文章150 Successful Machine Learning Models: 6 Lessons Learned at Booking.com,里面提到了一些有意思的“坑”,分享一下。 Booking.com 网站界面 线上线下结果不一致 做机器...

机器学习与数据科学创业与商业

计算商品embedding然后平均得到用户embedding,会不会存在这种问题?

知乎/回答
1 分钟

因为在高维空间中的平均,会依然离原来的点特别近,离其他的点特别远? 我们假设这样一个情形,在空间中取4个点{A1..A4},取平均得A‘可以看作 User Embedding,再在空间中随机生成100个点{B1..B100}。我们计算A' 最近的点是在 {A1..A4} 中还是在 {B1..B100} 中。 在二维空间...

机器学习与数据科学

马上计算机研一,想问一下机器学习、深度学习…大家都是怎么入门的?

知乎/回答
4 分钟

机器学习入门真的好难,我也经常被问到这个问题,但是我并没有特别好的回答。 对于新手而言,有四座大山:数学基础、算法模型、机器学习应用、常见工具。市面上常见教材都主要关注算法模型,而很难兼顾另外几个方面,所以学习的过程中最常见的问题就是这公式是咋推的?我学这个有啥用?模型懂了咋实现? 一本教材解决不了所有问题,机器学习的...

机器学习与数据科学求学、留学与学习

面试官如何判断面试者的机器学习水平?

知乎/回答
5 分钟

这个问题太好了!记得这大概是个三年前的问题,每年都会有新的答案让我持续学习。三年多前我作为最早的机器学习工程师之一加入 Tubi,从零开始设计招聘题目和流程,搭建团队,陆陆续续也面试了大好几百次了。这里的答案大多聊的是常见的机器学习面试题目,我提供一个不一样的角度,从业务负责人的角度聊聊如何根据业务需要设计题目,大家也...

组织、招聘与管理机器学习与数据科学