知乎/回答
3 分钟

如何看待 Kaggle 发布的 Zillow 房价预测比赛?

作者

创建于

修改于

发布于知乎/回答

谢邀

我认为这是一个非常有意思的比赛,特别是每一轮的测试集都会用实际的数据作为评判依据,依照真实买卖房价作为结果,这与以往普遍的机器学习比赛都不同,而更像金融投资比赛。这也会让更多的机器学习的爱好者多去思考千变万化毫无道理的真实世界,而不仅仅生活在理论与代码之中。

正所谓知己知彼,百战不殆,虽然作为公司内部人士,不能参与比赛,但我整理了一些我认为有关的资料,希望能够帮助大家。

1. 了解美国买卖房屋的一般流程

很多细节会影响房价,比如经纪人的佣金。美国的常规是卖房价格的6%会分给买卖经纪人,买方与卖方经纪人各3%,但是这只是一种约定俗成的传统,并不是法律,所以佣金是会变的,而且价格变化会改变最后交易价格。比如一个经纪人同时作为买方和卖方的经纪人,那么收取的佣金就会比有两个经纪人要少。

举个例子,假如你认为这个房子估值100万,为了支付给双方经纪人佣金,那么你可能需要卖106万,但假若双方的经纪人是同一人,可能卖103万就可以。

因此,房屋最后的交易价格并不仅仅依赖房屋本身,也同时依赖于很多其他的变量,了解更多的知识有助于理解最后的交易价格。

放一个链接来帮助大家详细的理解:Real Estate Glossary for the First-Time Homebuyer - Advice

2. 了解 Zestimate

Zestimate 是随着 Zillow 诞生的房屋估价算法,而第二轮的优胜者只有打败了 Zestimate 才可能获得最终一百万大奖。因此,了解 Zestimate 这个已经开发了十多年的算法非常重要,任何经验的借鉴都可能对于比赛的结果有所帮助。Zestimate 主页:What is a Zestimate? How Accurate is the Zestimate? | Zillow

Zestimate 也有不少公开的演讲,这里是我搜集的一些:

https://www.youtube.com/watch?v=jxTvXW5GP4I

https://www.slideshare.net/NicholasMcClure1/python-datascienceatzillow

https://www.slideshare.net/StevenHoelscher/zestimate-lambda-architecture

https://wp.zillowstatic.com/3/RentZestimate_2016-06-28-2d46ec.pdf

还有 Zillow Data Science 的 Blog:

Zillow Data Science - Machine Learning, Big Data, Data Quality and DevOps at Zillow

3. 了解其他算法

房屋估价算法当然也不只有 Zillow 一家在做,比如 Redfin 也有自己的估值算法 About the Redfin Estimate 。比如 OpenDoor.com,甚至会使用直接使用自己的估值算法将房屋买下来,他们的 Blog 里也有不少有帮助的文章 Opendoor | Blog

当然,还有万能的 arxiv,我这里就放一简单的 Query 来帮助大家上手了。

https://www.google.com/search?q=arxiv&oq=arx&q=site:arxiv.org+real+estate+valuation

最后,还是要祝大家好运咯。


by @陈然