Author Archives: admin

[携程网]全国所有城市酒店数据(含房间数)68万家2021年8月份更新完成

数据说明:
携程网全国各城市酒店数据(含开业年份、装修年份、房间数、经纬度、评论数和评分、酒店全部图片、各房型的图片价格等等,详细见下面的字段说明部分),总计酒店基本信息689,472条,酒店图片79,832,406条,酒店房型1,986,214条。
本次采集的数据源是APP,不是PC版网站。

各城市的数量统计:
点击查看各城市数量统计

更新时间:
本次采集结束于2021年8月。

字段说明:
(1) 酒店基本信息(详情)表(ctrip_hotels_details_202108)
“hotel_id” – 酒店ID,与平台一致;
“name” – 酒店中文名称;
“name_en” – 酒店英文名称;
“short_name” – 酒店简称;
“province_id” – 省份ID;
“province” – 所在省份;
“city_id” – 城市ID;
“city” – 所在城市;
“star” – 酒店星级;
“grade” – 酒店类型;
“open_year” – 开业年份(共计有61w条有该信息);
“fitment_year” – 装修年份;
“room_quantity” – 房间数(共计有66w条有该信息);
“zone” – 所属商圈;
“area” – 行政区;
“address” – 地址;
“phones” – 联系电话;
“main_photo” – 酒店主图(URL);
“lng_gd” – 高德经度;
“lat_gd” – 高德纬度;
“lng_bd” – 百度经度;
“lat_bd” – 百度纬度;
“comment_total” – 评论总数;
“total_score” – 总评分;
“health_score” – 卫生健康评分;
“enviromental_score” – 环境评分;
“service_score” – 服务评分;
“facilities_score” – 设施评分;
“features” – 特色标签;
“honor_tags” – 荣誉标签;
“bullet_screen_info” – 视频弹幕信息:
“has_certificate” – 是否有“品质保证”;
“hotel_facilities_popular” – 酒店热门设施;
“hotel_facilities_full” – 酒店设施详细版;
“hotel_policy” – 酒店政策;
“hotel_awards” – 酒店获奖情况;
“images” – 酒店相册图(URL,更多更完整的图片见酒店相册表);
“description” – 酒店介绍;
“traffic” – 周边交通;
“video_url” – 视频介绍文件URL;
“min_price” – 最低房型价格;
“base_rooms” – 基础房型列表;
“updated” – 本条数据采集更新的时间;
“url” – 酒店URL;

(2) 酒店相册表(ctrip_hotels_pictures_202108)
“picture_id” – 图片ID;
“hotel_id” – 酒店ID(用于和酒店基本信息表关联);
“source” – 相册列表;
“category_name” – 图片内容列表;
“picture_title” – 图片标题;
“large_url” – 图片大图或视频URL;
“small_url” – 图片小图或视频封面图URL;
“is_video” – 是否是视频;
“picture_description” – 图片描述;

(3) 酒店基本房型表(ctrip_hotels_base_rooms_202108)
“hotel_id” – 酒店ID(用于和酒店基本信息表关联);
“base_room_id” – 基本房型ID;
“base_room_name” – 基本房型名称;
“min_price” – 房型最低售价;
“base_room_cover_url” – 房型封面图URL;
“images” – 房型相册URL;
“room_facilities” – 房型内设施;

在线示例数据:
(1) 酒店基本信息(详情)示例数据
点击查看携程酒店2021年酒店基本信息在线示例数据

(2) 酒店相册示例数据
点击查看携程酒店2021年酒店相册在线示例数据

(3) 酒店基本房型示例数据
点击查看携程酒店2021年酒店基本房型在线示例数据

数据格式:
CSV(UTF-8编码)。

文件大小:
酒店基本信息表 : 2.1GB;
酒店相册表:19GB;
酒店基本房型表:1.7GB;

按“酒店星级”(star字段)的数量统计:
0星: 261,425家
1星: 7,499家
2星: 345,917家
3星: 49,893家
4星: 19,777家
5星: 4,789家

温馨提示:
如果您发现示例数据无法打开了,请联系在线客服QQ(1649677458或312602670)处理。

这不是我想要的数据,点击申请定制

外卖平台全国各品类商家基本信息数据357万(2021年8月版)

数据说明:
外卖全国各品类商户数据,包含全国342个城市(点击查看各城市数量),共计357万条(准确数字:3,572,379条)商户。数据源是某外卖APP。

各分类数据统计如下:
美食 – 2564110条;
超市便利 – 277614条;
浪漫鲜花 – 100290条;
甜蜜蛋糕 – 51940条;
甜点饮品 – 285328条;
送药上门 – 107300条;
生鲜果蔬 – 146522条;
未知 – 39275条;

更新时间:
2021年8月初采集完成。

详细字段说明:
“id” – 店铺ID(APP内的店铺ID,固定不变);
“province” – 省份(根据经纬度反查得到);
“city” – 城市(根据经纬度反查得到);
“name” – 店铺名称;
“score” – 店铺评分;
“comment_number” – 评论数量;
“month_sales” – 月销量(从商户列表页获取,有305家有该信息);
“avg_price” – 人均价格(从商户列表页获取,有144w家有该信息);
“category” – 店铺所属分类;
“image” – 店铺图像 ;
“delivery_time” – 配送耗时;
“delivery_tip” – 配送方式;
“min_price” – 起送价;
“shipping_fee” – 配送费;
“phone” – 商家联系电话(从APP商家TAB获取,有356w家有该信息,注意:有些店铺本身就没公布电话);
“address” – 商家地址(从APP商家TAB获取,有357w家有该信息);
“lat” – 店铺所在位置纬度;
“lng” – 店铺所在位置经度;
“hours” – 营业时间;
“discounts” – 优惠活动;
“tip” – 店铺贴士;
“recommend” – 推荐理由;
“trade_area” – 所属商圈(有146w家有该信息);
“is_online” – 店铺是否仍在线(1 – 仍在营业, 0 – 已下线。总共有236w 家店铺仍在营业,121w家店铺被标记下线。注意:当前下线的店铺后面可能会恢复营业,当前在营业的店铺后面也可能下线);
“menu_categories” – 店铺菜品分类;

示例数据:
点击查看外卖商家基本信息(2021年08月版)在线示例数据

数据格式:
CSV(UTF-8编码)。

数据大小:
约2.36GB。

温馨提示:
如果您发现示例数据无法打开了,请联系在线客服QQ(1649677458或312602670)处理。

这不是我想要的数据,点击申请定制

淘宝天猫商品分类/品牌映射表2021年最新更新(根据categoryId查询分类/根据brandId查询品牌)

数据说明:
淘宝天猫商品分类/品牌映射表2021年最新采集,其中包括分类16,296条,分类下的品牌14,725,879条(根据”品牌id+分类id”联合去重,单独按”品牌id”去重是2002,439条)。
如何使用这个数据呢?
例如,如下图所示,是某淘宝商品详情页的HTML源码,可以看到”categoryId”:”1512″和”brandId”:”11813″,经过查表可知分类ID”1512″对应的分类是”手机”,品牌ID”11813″对应的品牌名称是”Huawei/华为”。
淘宝商品categoryid_brandid示例

更新时间:
2021年7月。

详细字段说明:
1. 分类表
“id”(分类ID);
“name”(分类名称);
“path”(分类名称路径,多级分类名称);
“idpath”(ID路径,多级ID);
“group_name”(分组名称);
“spell”(拼音缩写);
“leaf”(是否最末级分类);
“tips”(提示信息);

2. 品牌表
“id”(品牌ID);
“name”(品牌名称);
“cat_id”(所属分类ID);
“cat_name”(所属分类名称);
“cat_path”(分类名称路径);
“cat_group”(分类所属分组);

在线示例数据:
点击查看淘宝商品分类表在线示例数据
点击查看淘宝商品品牌表在线示例数据

数据格式:
CSV(最通用的数据交换格式)。

字符编码:
UTF-8。

文件大小:
分类表:2.65MB;
品牌表:1.62GB;

温馨提示:
如果您发现示例数据无法打开了,请联系在线客服QQ(1649677458或312602670)处理。

这不是我想要的数据,点击申请定制

阿里司法拍卖住宅用房数据42.6万

数据说明:
阿里司法拍卖(淘宝司法拍卖)https://sf.taobao.com/,”住宅用房”类型标的物,2019年10月1日-2021年2月28日数据,共计42.6万条。2021年4月份采集。

更新时间:
2021年4月。

详细字段说明:
item_id -url中页面的ID
title – 拍卖物品的标题,包含详细地址等信息
apply_num – 报名人数
notfiy – 设置提醒人数
seer – 围观人数
tags – 包含变卖,贷款,限购,等信息
url – 对应拍品的网页URL
status – 拍卖状态(流拍,结束,进行,撤回,拍卖中止等)
reason, – 拍卖中止/暂缓的原因,
bidding_record, -拍卖完成的竞买记录(包含成交价,用户代码,竞争价格)
start_time – 拍卖开始时间
end_time – 拍卖结束时间
delay_count – 延时次数
image_list – 拍品图片介绍(网页上方小图片)
current_price – 当前价格
ensure_money – 保证金
pre_pay – 变卖预缴款
start_price – 起拍价
value_price – 评估价
bidding_cycle – 竞价周期
add_extent – 加价幅度
priority_bool – 优先购买人(有/无)
priority_user – 优先购买人姓名
delay_cycle – 延时周期
market_price – 市场价
sale_cycle – 变卖周期
bidding_rule – 竞价周期
sale_price – 变卖价
program – 程序
pay_type – 支付方式
pay_deadline – 支付截止时间
location -省市区
auction_address – 详细地址
introduction_pic – 拍品图片介绍
movie_url- 拍品视频介绍链接
seller_nick – 处置单位
connect_people – 联系人
phone – 联系电话
latlong – 经纬度
project_id – 项目id
attaches_introduction -附件(标的物介绍中)
attaches_announcement – 附件(竞买公告中)
manager_name – 拍卖单位
one_one – 一案一户
supervise – 监督单位
introduction_html – 标的物介绍
announcement_html – 竞买公告
notice_html – 竞买须知

在线示例数据:
点击查看阿里司法拍卖住宅用房类型在线示例数据
PS:由于introduction_html、announcement_html和notice_html内容较大,示例数据中将这三个字段移除了。完整数据中是包含的。

数据格式:
CSV(最通用的数据交换格式)。

字符编码:
UTF-8。

文件大小:
CSV数据文件:713MB,解压后21GB。
详情页源码:1.3GB,解压后超过30GB。

温馨提示:
如果您发现示例数据无法打开了,请联系在线客服QQ(1649677458或312602670)处理。

这不是我想要的数据,点击申请定制

浙江省行政处罚结果信息公示数据截止2020年12月底共396万条

数据说明:
浙江省行政处罚结果信息公开平台(https://www.zjzwfw.gov.cn/zjzw/punish/frontpunish/showadmins.do?webId=1)公示数据,截止2020年12月底,共计396万条。

更新时间:
2021年1月。

详细字段说明:
‘案件名称’, ‘行政处罚决定书文号’, ‘被处罚对象’, ‘法定代表人’, ‘执法部门’, ‘处罚日期’, ‘全文或摘要’, ‘url’(详情页链接)

在线示例数据:
点击查看浙江省行政处罚公示信息在线示例数据

数据格式:
CSV(最通用的数据交换格式)。

字符编码:
UTF-8。

温馨提示:
如果您发现示例数据无法打开了,请联系在线客服QQ(1649677458或312602670)处理。

这不是我想要的数据,点击申请定制

阿里巴巴国际站中国供应商数据14.7万条(2021年4月更新)

数据说明:
采集自阿里巴巴国际站(https://www.alibaba.com/)的中国供应商的数据,数据总数147,151条,2021年4月完成采集。因为是国际站的数据,所以所有数据内容都是英文的。

更新时间:
2021年4月份。

详细字段说明:
“company_id”(公司ID), “company_name”(公司名称), “contact”(联系人), “job_title”(职位), “telphone”(电话), “mobile_phone”(手机), “fax”(传真), “address”(地址), “zip”(邮编), “country_region”(国家或地区), “province_state”(省份), “city”(城市), “years_num”(加入阿里巴巴的年份), “contact_picture”(联系人照片链接), “about_us”(关于我们), “business_type”(业务类型), “year_established”(成立年份), “total_employees”(员工人数), “total_annual_revenue”(年总收入), “main_products”(主要产品), “main_markets”(主要市场), “ratings”(评分), “num_of_reviews”(评论数), “response_rate”(应答率), “response_time”(应答时间), “url”(页面链接), “website”(官网网址), “website_on_alibaba”(在alibaba.com上的网址)

示例数据:
点击查看在线示例数据

数据格式:
CSV(最通用的数据交换格式)

字符编码:
utf-8。

温馨提示:
如果您发现示例数据无法打开了,请联系在线客服QQ(1649677458或312602670)处理。

这不是我想要的数据,点击申请定制

外卖平台全国各品类商家基本信息数据318万(2021年1月版)

数据说明:
外卖全国各品类商户数据,包含全国360个城市(点击查看各城市数量),共计318万条(准确数字:3,181,290条)商户。数据源是某外卖APP。

各分类数据统计如下:
美食 – 2334479条;
超市便利 – 239417条;
浪漫鲜花 – 73557条;
甜蜜蛋糕 – 40327条;
甜点饮品 – 263699条;
送药上门 – 74000条;
生鲜果蔬 – 135266条;
未知 – 20545条;

更新时间:
2020年11月中旬开始采集,到2021年1月采集完成。

详细字段说明:
“id” – 店铺ID(APP内的店铺ID,固定不变);
“province” – 省份(根据经纬度反查得到);
“city” – 城市(根据经纬度反查得到);
“name” – 店铺名称;
“score” – 店铺评分;
“comment_number” – 评论数量;
“month_sales” – 月销量(从商户列表页获取,有261w家有该信息);
“avg_price” – 人均价格(从商户列表页获取,有115w家有该信息);
“category” – 店铺所属分类;
“image” – 店铺图像 ;
“delivery_time” – 配送耗时;
“min_price” – 起送价;
“shipping_fee” – 配送费;
“phone” – 商家联系电话(从APP商家TAB获取,有317w家有该信息,注意:有些店铺本身就没公布电话);
“address” – 商家地址(从APP商家TAB获取,有318w家有该信息);
“lat” – 店铺所在位置纬度;
“lng” – 店铺所在位置经度;
“hours” – 营业时间;
“discounts” – 优惠活动;
“tip” – 店铺贴士;
“recommend” – 推荐理由;
“trade_area” – 所属商圈(有140w家有该信息);
“is_online” – 店铺是否仍在线(1 – 仍在营业, 0 – 已下线。总共有197w 家店铺仍在营业,121w家店铺被标记下线。注意:当前下线的店铺后面可能会恢复营业,当前在营业的店铺后面也可能下线);
“menu_categories” – 店铺菜品分类;

示例数据:
点击查看外卖商家基本信息(2021年01月版)在线示例数据

数据格式:
CSV(UTF-8编码)。

数据大小:
约2GB。

温馨提示:
如果您发现示例数据无法打开了,请联系在线客服QQ(1649677458或312602670)处理。

这不是我想要的数据,点击申请定制

当当网自营、有货图书数据(86万图书数据及84万图片数据2021年3月)

数据说明:
当当网(http://book.dangdang.com/)的”当当自营”和”只看有货”的图书数据,图书数据总数868,160条,图片文件总数844,547万个。2021年3月份采集。

更新时间:
2021年3月份。

详细字段说明:
‘当当ID’, ‘ISBN’, ‘书名’, ‘副书名’, ‘丛书名’, ‘作者’, ‘出版社’, ‘出版时间’, ‘分册名’, ‘分册号’, ‘版次’, ‘印次’, ‘开本’, ‘页数’, ‘字数’, ‘印刷时间’, ‘包装’, ‘定价’, ‘分类号’, ‘分类名称’, ‘内容推荐’, ‘作者简介’, ‘目录’, ‘图片’, ‘所属分类’

示例数据:
点击查看在线示例数据

数据格式:
CSV(最通用的数据交换格式)

字符编码:
GBK。

温馨提示:
如果您发现示例数据无法打开了,请联系在线客服QQ(1649677458或312602670)处理。

这不是我想要的数据,点击申请定制