文章、回答、视频、播客和访谈的统一归档 · 全部内容 · 机器学习与数据科学 · 104 条 · 第 1 / 4 页
2025
当前AI大模型哪家最好用?各家主要擅长哪些领域?普通人使用,推荐哪个?
作为一个日常工作中有超过 50% 时间都在与各种大模型对话的人,想跟大家分享一下我在使用各个主流模型时的一些体验和感受。 Google Gemini 系列 优点: 1. 极其便宜:无论是免费额度还是付费使用,价格都非常有优势。 2. Context Window 超级大:1-2M 的上下文长度,基本能覆盖绝大部分任务场...
Why LanceDB is THE Database for Multimodal AI: A Technical Comparison
Vector databases have become critical for powering AI applications that rely on similarity search, from semantic text search and recommendation engines to image...
机器学习团队领导艺术:技术、管理与业务的平衡之道
引言 在人工智能时代,机器学习团队的管理具有独特的复杂性。与传统软件团队不同,机器学习团队往往汇聚了算法研究、数据工程和业务应用等多学科人才 (Author Q&A: Effective Machine Learning Teams | Thoughtworks United States)。团队需要跟进行业最新研究进...
大模型落地的未来:开源+微调?
最近,AI 社区里流传着这样一句话——“通用大模型很强,但我并不需要我的应用去给我背诵法文诗歌。” 这句话听上去有点调侃,却反映了一个重要现象:许多企业和开发者在早期会选择大型通用模型(例如 GPT-4)去快速验证想法,但真正想要落地到生产环境,往往发现必须在速度、成本和“专用领域准确度”之间做权衡。 于是,“微调(F...
从“机器学习”到“人生进化”——用算法思维升级你的自我成长
你有没有想过,把自己的人生当作一场“模型训练”?就像训练一个神经网络那样,不断试错、微调,直到获得更优解。也许,这个思路能帮你跳脱对“失败”“起点”以及“目标”的传统认知,轻装上阵去学习、成长并迭代自我。 一、为什么要把“机器学习思维”用在“人类学习”上? 我们常常把“学习”当作去获取知识、技巧,却容易忘了最重要的那一...
2024
如果想从事人工智能方向,本科应该选择计算机还是数学?
分享一下我的观察。建议选择计算机专业,原因有这么几个: 首先是基础课程的完整性。计算机专业会学习编程、数据结构、操作系统、计算机网络等等基础课程。这些看似和机器学习关系不大,但当你真正在业界做 AI 应用的时候,这些基础知识反而成了最重要的部分。我见过太多数学专业转行的同学,在处理工程问题时非常吃力,因为缺乏这些基础知...
十个关于AI 和机器学习未来的预测
做机器学习已经十年了,见证了从深度学习爆发到大语言模型崛起的整个过程。记得在2013年我在CMU读书的时候,就在文章里写到"机器学习会爆发式发展"。现在回头看,确实走过了一段令人惊叹的旅程。 但机器学习的发展会更快: 第一个预测,机器学习工程师会成为一个标准化的、可替代的职业。就像过去的机械工程师、电气工程师一样,随着...
编程的难点在于哪里?是逻辑、数学、算法,还是模块、框架、接口的掌握?
编程最大的难点其实都不在这些技术层面上,而是在于如何把一个复杂的现实问题转化为计算机可以理解和执行的形式。 我之前中提到过一个观点:"部署、运维等工具的逐渐标准化使得重复造轮子的需求越来越弱,越来越多的工程师核心任务并不是研发,而是整合(Integration)。"这背后的深意是:现在的编程工作,难点已经从"如何实现"...
A/B Testing 杂谈 (2)
A/B Testing 果然是大家喜欢的话题啊哈哈,今天我们继续聊一聊这个 topic。 上次 A/B Testing 杂谈 (1)里聊到了很多我的经历,主要是自己作为 first ML engineer 为了 build 一个理想中的 ML team,把 A/B testing 的大部分 service 都自己做了,...
A/B Testing 杂谈 (1)
感谢立正建立的社区,社区的建立非常不容易啊。你看课代表在每个帖子下都邀请大家多写东西,多开直播。受到感召🫡,我打算在知乎和XHS外,在这里也开一系列的坑…… 第一个坑开在哪里好呢?我想了许久,考虑到课代表的在 Statsig 工作非常辛苦,宣传 A/B testing 非常卖力,我决定直捅课代表腹地,聊聊课代表最专业...
谁来颠覆低频刚需?
这篇文章是我2017年写的草稿但一直没有发布,那时候 Google 刚刚提到 AI First 的战略,互联网的迭代重点还是以推荐系统和深度学习为核心。时至今日 LLM 的出现让这个问题有了些许答案,想了想还是把文章发布出来。 推荐系统的胜利 过去五年,机器学习在推荐系统领域的研究,给高科技企业带来了巨大的收益。我们在...
2022
2021
有哪些方法可以帮助AB测试显著更快一些?
方法是有不少的,比较常见的一个方向是做方差缩减(Variance Reduction[1])。这里分享一篇来自 Netflix KDD 2016 年的文章 Improving the Sensitivity of Online Controlled Experiments: Case Studies at Netfli...
[ML 1分钟]细节太多,犯错太容易
机器学习工程师小月最近一直在研究新的深度学习算法。相对于现有的算法框架,新算法要求兄弟团队一块搭建了不少新的框架,也选用了一些以前不太熟悉的库。经过了三个月的准备,终于可以上线AB测试了。 但是AB测试效果老是不好 经过了几个月的迭代,效果依然不佳,仅仅只比手动排序更好,与现有的模型相比效果差距甚远。离线数据 AUC,...
支持向量机(SVM)是什么意思?
大部分答案都在写公式,我来聊聊直觉上的东西。 设想一下你要做一个分类器,区分狗和炸鸡。首先假定我们只有两个数据,那么这条线会很容易画,自然而然就会画在正中间。 这个时候,我们加入一个新的数据,这个狗跟现有的数据差别很大。这个时候,分类线应该画在哪里? 这就是 SVM 跟其他线性模型很不一样的地方了,SVM 这条分类线不...
如何看待深度学习中不分验证集?
这就是典型的 overfitting 嘛,自欺欺人地刷数据。有限数据,天赋异禀,看着训练集,靠着随机函数丢硬币丢出完美符合的测试集的 if-else,拿到完美指标。刷就是了。 不过这是所有公开数据集都难以避免的,毕竟所有的数据都开放了,只要数据有限,不管怎么分,总有可能过拟合。所以刷数据的论文主要是看个 insight...
如何评价 KNN 算法?
K-NN 算法好啊,特别是深度学习出来后万物皆可 Embedding,几乎啥问题都可以转换成为两者 Embedding 的相似度问题,不管是分类、回归、排序等等,Embedding + K-NN 打分简单易行。 而且 K-NN 线上服务也特别好做,简单,速度快。如果 Embedding 数量特别多,也有很多近似 K-N...
[ML 1分钟]第一个模型能跑通就不错了
有业务能上机器学习模型了,算法工程师小月开心地不行。毕竟作为一名机器学习工程师,口袋子藏着无数陈年老模型:线性模型、树模型、深度模型、增强学习,要啥有啥。业务一来,恨不得立刻就掏出最炫酷的模型,一步到位。 但是,第一个模型,一定要简单 正当小月兴奋着呢,经理大圆泼了一瓢冷水,“第一个模型,一定要简单”。 第一个次迭代往...
[ML 1分钟]第一版排序不上机器学习算法
一个新的产品需求来了,产品经理总会提前很久就来找机器学习的团队,讨论能不能在第一版上线中就加入“神奇的”机器学习排序算法。 “我也是想呢,但是不行“。 我们当然想着用机器学习去帮助每一个产品,但是在实践中,最早的版本不应该考虑机器学习算法。 原因 背后的原因有很多。 第一当然是数据。不管是有监督还是无监督算法,或多或少...
推荐系统有哪些坑?
最近在团队分享了旅游网站 Booking 在 KDD 2019 年的文章150 Successful Machine Learning Models: 6 Lessons Learned at Booking.com,里面提到了一些有意思的“坑”,分享一下。 Booking.com 网站界面 线上线下结果不一致 做机器...
计算商品embedding然后平均得到用户embedding,会不会存在这种问题?
因为在高维空间中的平均,会依然离原来的点特别近,离其他的点特别远? 我们假设这样一个情形,在空间中取4个点{A1..A4},取平均得A‘可以看作 User Embedding,再在空间中随机生成100个点{B1..B100}。我们计算A' 最近的点是在 {A1..A4} 中还是在 {B1..B100} 中。 在二维空间...
马上计算机研一,想问一下机器学习、深度学习…大家都是怎么入门的?
机器学习入门真的好难,我也经常被问到这个问题,但是我并没有特别好的回答。 对于新手而言,有四座大山:数学基础、算法模型、机器学习应用、常见工具。市面上常见教材都主要关注算法模型,而很难兼顾另外几个方面,所以学习的过程中最常见的问题就是这公式是咋推的?我学这个有啥用?模型懂了咋实现? 一本教材解决不了所有问题,机器学习的...
面试官如何判断面试者的机器学习水平?
这个问题太好了!记得这大概是个三年前的问题,每年都会有新的答案让我持续学习。三年多前我作为最早的机器学习工程师之一加入 Tubi,从零开始设计招聘题目和流程,搭建团队,陆陆续续也面试了大好几百次了。这里的答案大多聊的是常见的机器学习面试题目,我提供一个不一样的角度,从业务负责人的角度聊聊如何根据业务需要设计题目,大家也...
2020
I am the first Machine Learning Engineer, now what?
Tubi TV is one of the largest AVOD services, with 33 million MAU announced in 2020 and growing. Our machine learning powers tons of different applications, like...
公司组建一支算法团队的隐性成本都有哪些?
这个题目“隐性”一词特别精髓。作为工程师团队本身肯定有很多成本:招聘、团队维护、系统搭建、硬件支持等等,但是这都是“显性”的,所有的工程师团队都会有。而算法团队由于其独特的性质,自然会有一些其他的额外的成本。 这里的几个想法主要是针对中小型公司,以业务为主线,没有前中后台之类的架构一说。毕竟大公司资源丰富,靠堆人和砸钱...
5-10年后,你觉得哪些科技会让我们“遗忘”现在的生活?
记得20年前曾经有个特别火热的“72小时网络生存测试”,要求受试者只借助互联网在72小时内生存下去。当时的互联网不发达,大部分日常吃喝都很难只通过互联网得到保障,有些选手无法保证基本的温饱而退出了比赛。仅仅20年的时间,互联网等技术的出现,使得我们的生活发生了天翻地覆的变化,已经不少人仅仅依靠互联网就可以解决衣食住行几...
Tubi TV是一家什么样的公司?
哈哈,看到了不少同学都提到了我们常年“招人”,这确实是 Tubi 的现状,太缺人了。 不管是国内还是美国的程序员,都不是 Tubi TV 典型的用户,所以对 Tubi 的规模其实不太了解: 我们在2019年6月宣布了两千万的月活用户[1](MAU),根据 The Verge 2019年1月的文章[2],Hulu 有两千...
2019
聊聊 Tubi 的数据工程 (Data Engineering)
今天,我们的 VP 佘昶 (Chang 是大家喜爱的 Python 库 Pandas 的第二位核心作者,在 Tubi 负责数据、机器学习等业务) 发表了一篇博客: 比图科技:打造一家模型驱动型公司 - Tubi 数据与机器学习平台简介 谈到了 Tubi 的数据工程,机器学习,算法驱动。内容非常丰富,值得深入阅读。借这个...
如何看待 2020 届校招算法工程师岗位求职人数远大于招聘岗位的现象?
作为一直劝入机器学习的从业者,也分享一下我的想法。 首先,机器学习工程师也跟其他的工程师一样,有个有起有落的过程。在浪潮来的时候,各个公司疯狂投入,便会疯狂招人,而随着风口平静下来,公司回归理性,便会开始衡量 ROI。放弃不值得做的业务,把资源放在 ROI 更合适的地方。 思考浪潮,就要思考 ROI,哪些领域更难被替代...
有哪些关于机器学习的真相还鲜为人知?
在不少互联网产品中,机器学习的应用,比如信息流中的排序算法、推荐系统等,已经成了最重要的产品体验。好的推荐系统对应好的产品体验,差的推荐系统对应糟糕的产品体验。 然而,哪怕作为最重要用户体验的基石,绝大多数公司对于它的开发和迭代都是一团浆糊。 由于不能直接观测一个人的对于推荐系统的喜好,而要同时观测一百万、一千万用户的...