本篇文章1525字,读完约4分钟
疯狂的春天
年初,上海房价一夜之间飙升,房价每月上涨数百万,交易量每天激增10万,房地产交易中心也人满为患。上个月的一天,我开了滴滴快车,刚进虹口,却发现“虹口区房地产交易中心”被自动加进去,排名第一。。。。。。
我很自然地去了数据狗的分析报告。然而,似乎大多数关于房地产的数据分析都是宏观的,比如深圳的库存与交易的关系,银行政策和股市的涨跌对房价的影响,以及各城市房价与收入的比例。
作为一个公民,我的狗的问题很简单:它在哪里快速上升?!
有更性感的答案吗?!
下面有大量的文字警告。。。
不要跑,等待你的赞美,先放一张照片滋润你的眼睛。
(上海去年房价增长图)
技术准备
房价网站很多,有些像论坛一样混乱,信息混杂,有些虚假繁荣,重复率高。例如,一栋房子可以出现几次,而且许多封闭的交易仍然挂在网上,价格仍然是N年前。
连锁店和搜房网的数据相对准确,但连锁店只在一线城市运行良好,早期的数据很少,也不乏租房数据(旧主页有丁琪媛租房的链接)。与历史悠久的老网站SouFun.com相比,它积累了很多,但据说价格低,数据不准确,与连锁店相比,网站组织混乱。
我用node.js编写了一个爬虫框架,并开始了搜房网和链家的数据之旅。
对于住房,从宏观上讲,至少有两大对象,一个是社区,另一个是住房。一个社区有许多公寓类型,它们在高度、面积、公寓类型、类型甚至年龄上都有所不同,而且住房涉及特定的交易(当然,在复杂的情况下,一套住房可以在不同的时间进行多次交易)。每笔交易都有很多详细的信息,甚至包括上次看房的时间、一个月内看房的次数等等。但是我的个人经验告诉我,这些非常详细的指标有时很少被记录和遗漏,而且准确性也不是很高。
我不太谈论细节。简而言之,在多次爬行或清理之后,我的数据库中有几个表。例如,连锁家庭网络中有两个表:
社区表:社区名称、经纬度、边界信息、竣工日期、物业公司、开发商、绿化率、容积率、建筑数量、房间数量、12个月内价格变化等。
交易表:社区、总价、均价、面积、户型、楼层、房龄、装修,七天内有多少人看过,历史上很少有人看过,已经完工;历史上的交易时间等。
提前说,连锁店和搜房网的数据落后了。许多正在交易的房屋已经是旧价了。对于已经售出的房屋,在交易价格出现之前,交易时间必须推迟几个月。而且,为了避税,很多人会在签署交易价格时压低价格。
两千万上海人有多少房子?
从连锁店主页抓取的社区信息非常详细,包括每个社区的建筑和房间数量。事实上,搜房网也有这些指标,这是政府估计的,因为即使一个社区没有交易,这个社区仍然有数据。根据这些数据,我算出上海的房间总数,大约是600万间。上海的人口是2000万。平均来说,几个人可以在3点钟拥有一栋房子。
这应该更直观。一个三口之家应该有一栋房子,但是有些人有几栋房子,而另一些人挤隔壁房间。
政策的阴影
在所有被交易的房屋中,89套公寓房屋更为怪异。为什么?
答案很简单。有一项政策:90平方米以下的契税征收1%,90平方米至144平方米之间的契税征收1.5%。144平方米或以上是3%,所以房地产公司必须预期,愿意住90多一点平方米和144平方米的人肯定愿意忍受较小的房子,以避税。因此,这就是为什么在这条曲线的中间和右边有两个峰值,而在40-50层有另一个峰值,这是老房子的标准尺寸。
此外,这项政策出现在2006年,绰号为“7090政策”,当时政府出台了遏制房价上涨的政策(2006年恰好是近年来建造商品房最多的一年)。为了验证这一点,让我们列出2006年之前的住房面积分布(仍有一些小峰值。毕竟,数据取自正在交易的房屋,而不是全部房屋,因此契税政策仍将对交易政策产生一定影响):
标题:一条数据狗的上海买房攻略:7万左右的房涨的快
地址:http://www.chengxinlibo.com/csxw/8767.html