数据说明:
携程网全国各城市酒店数据(含开业年份、装修年份、房间数、经纬度、各房型价格以及评论数和评分等等,详细见下面的字段说明部分),总计634,643条。和2019年12月份数据相比,新增(收录)了58,440家(根据酒店ID判断)。其中”房间数”不为空的的共有600,727条。
本次采集的数据源是APP,不是PC版网站。
为什么2020年增加了5.8w多家,总数却比2019年12月份版本少呢?
因为2020年有20w家酒店关闭了,对应的链接在携程打开已经无任何信息,例如https://hotels.ctrip.com/hotels/6880222.html。
本数据包中含如下内容:
(1)2020年最新采集的,63w在营业中的酒店。
(2)2020年检测发现20w家已关闭酒店在2019年的对应数据(根据酒店id对应)。
各城市的数量统计:
点击查看各城市数量统计。
更新时间:
开始于2020年10月,结束于2020年11月。每条数据的更新时间,详见updated字段。
字段说明:
“hotel_id” – 酒店ID,与平台一致;
“name” – 酒店中文名称;
“name_en” – 酒店英文名称;
“short_name” – 酒店简称(new);
“province_id” – 省份ID(new);
“province” – 所在省份;
“city_id” – 城市ID(new);
“city” – 所在城市;
“star” – 酒店星级(new);
“grade” – 酒店类型;
“open_year” – 开业年份(new);
“fitment_year” – 装修年份(new);
“room_quantity” – 房间数(以前叫room_num);
“zone” – 所属商圈(new);
“area” – 行政区;
“address” – 地址;
“phones” – 联系电话;
“hotel_logo” – 酒店Logo图链接(new);
“lat” – 纬度;
“lng” – 经度;
“comment_total” – 评论总数;
“total_score” – 总评分;
“health_score” – 卫生健康评分(new);
“enviromental_score” – 环境评分(new);
“service_score” – 服务评分(new);
“facilities_score” – 设施评分(new);
“features” – 特色标签;
“tags” – 其它标签;
“has_certificate” – 是否有“品质保证”(new);
“hotel_facilities_simple” – 酒店设施简版(new);
“hotel_facilities_full” – 酒店设施详细版;
“hotel_policy” – 酒店政策;
“hotel_awards” – 酒店获奖情况(new);
“images” – 酒店相册图;
“description” – 酒店介绍;
“traffic” – 周边交通;
“video_url” – 视频介绍文件URL;
“min_price” – 最低房型价格;
“rooms” – 每种房型价格;
“updated” – 本条数据采集更新的时间;
“url” – 酒店URL;
在线示例数据:
点击查看携程酒店2020年在线示例数据
数据格式:
CSV(UTF-8编码)。
文件大小:
1.96GB。