如何看待深度学习中不分验证集？

机器学习与数据科学1 分钟

陈然

2021年10月4日修改于 2021年10月4日

知乎/回答

和 AI 讨论这个回答

ChatGPT

Claude

这就是典型的 overfitting 嘛，自欺欺人地刷数据。有限数据，天赋异禀，看着训练集，靠着随机函数丢硬币丢出完美符合的测试集的 if-else，拿到完美指标。刷就是了。

不过这是所有公开数据集都难以避免的，毕竟所有的数据都开放了，只要数据有限，不管怎么分，总有可能过拟合。所以刷数据的论文主要是看个 insight，有没有用还是要去真实数据集线上验证。

现在不少比赛都做的不错，只开放部分数据让大家提交自己觉得最好的模型，最后在非公开的数据上验证结果。这样比赛出来的结果往往模型都是经得起考验的。不过基本都是多个模型 ensemble，看的也头疼。

怎么看，别看了，大家都知道这不对，但也没有别的更好的办法。

继续阅读

全部内容

知乎/回答2021年10月21日3 分钟

有哪些方法可以帮助AB测试显著更快一些？

方法是有不少的，比较常见的一个方向是做方差缩减（Variance Reduction[1]）。这里分享一篇来自 Netflix KDD 2016 年的文章 Improving the Sensitivity of Online Controlled Experiments: Case Studies at Netfli...

知乎/回答2021年10月7日2 分钟

支持向量机（SVM）是什么意思？

大部分答案都在写公式，我来聊聊直觉上的东西。设想一下你要做一个分类器，区分狗和炸鸡。首先假定我们只有两个数据，那么这条线会很容易画，自然而然就会画在正中间。这个时候，我们加入一个新的数据，这个狗跟现有的数据差别很大。这个时候，分类线应该画在哪里？这就是 SVM 跟其他线性模型很不一样的地方了，SVM 这条分类线不...

知乎/回答2021年10月2日1 分钟

如何评价 KNN 算法？

K-NN 算法好啊，特别是深度学习出来后万物皆可 Embedding，几乎啥问题都可以转换成为两者 Embedding 的相似度问题，不管是分类、回归、排序等等，Embedding + K-NN 打分简单易行。而且 K-NN 线上服务也特别好做，简单，速度快。如果 Embedding 数量特别多，也有很多近似 K-N...