实战作业: 民宿投资决策影响因素分析如今,出门旅行住民宿已经不是一个新鲜话题,而且民宿品牌也是层出不穷.作为一名旅行服务业的数据分析师,我们以Airbnb北京的民宿为例,对其进行数据分析,探索什么类型的民宿价格更高?什么类型的民宿更加热门? 什么类型的民宿评价最好?以此来指导民宿投资者作出更佳的决策。
请根据提供的数据完成分析任务
Airbnb listings,民宿信息表
Airbnb hosts,房东信息表
1、通过查询房租价格的最大值、最小值、均值以及标准差 ( STD ),了解价格分布。
SELECT MAX(price),MIN(price),AVG(price),STD(price) FROM airbnb_listings;
2、根据要求清洗并整理数据:
a.检查数据完整性,剔除价格为0与价格字段为空的数据
b.将价格分区: 260以下为超低价格区间: 260至387为低价格区间;387至570为中价格区间; 570至1035为高价格区间: 1035以上为超高价格区间
DELETE FROM airbnb_listings
WHERE price = 0 OR price IS NULL;
DELETE FROM airbnb_listings
WHERE price IN(0,NULL);
SELECT COUNT(ID),price,
CASE
WHEN price<260 THEN '超低价格区间'
WHEN price BETWEEN 260 AND 387 THEN '低价格区间'
WHEN price BETWEEN 387 AND 570 THEN '中价格区间'
WHEN price BETWEEN 570 AND 1035 THEN '高价格区间'
ELSE '超高价格区间'
END AS price_range
FROM airbnb_listings
3、对不同行政区、不同价格区间的民宿进行统计计数,并导出运行结果
CREATE TABLE airbnb_listings_new AS
SELECT id,district,
CASE
WHEN price<260 THEN '超低价格区间'
WHEN price BETWEEN 260 AND 387 THEN '低价格区间'
WHEN price BETWEEN 387 AND 570 THEN '中价格区间'
WHEN price BETWEEN 570 AND 1035 THEN '高价格区间'
ELSE '超高价格区间'
END AS price_range
FROM airbnb_listings
SELECT price_range,district,COUNT(price_range)
FROM airbnb_listings_new
GROUP BY price_range,district;
4、筛选出房东回复率 (host response rate ) 为100%,回复时间 (host response time ) 在一小时以内 ( within anhour ) ,民宿评分在95分以上的数据,并按照房屋类别 ( room type ) 对它们进行统计计数
SELECT l.room_type,COUNT(DISTINCT l.id) AS listings_count
FROM airbnb_listings l
LEFT JOIN airbnb_hosts h
ON l.`host_id`=h.`id`
WHERE h.`host_response_rate`=100
AND h.`host_response_time`='within an hour'
AND l.`review_scores_rating`>95
GROUP BY l.`room_type`;