集搜客对大众点评上广州市的茶餐厅抓取分析
这次我们使用极搜客在大众点评上爬取并分析了一些广州茶餐厅的数据。 爬取了10个关键词:包括餐厅名称、评论数、人均消费、口味、环境、服务、位置。 区域,好评,差评,中评。
1. 提出问题
1、“人均消费”的描述性统计分析
2. 人均消费如何随商圈变化?
3、哪些商圈茶餐厅较多?
4. 好评率高的餐厅有哪些?
2. 数据清洗
我是按照Gooseeker上采集网页上的步骤来爬取数据的,但是在翻页、爬取下层线索、合并分层线索的爬取结果等方面遇到了很多问题,通过查询问题教程成功解决了。
1.隐藏不需要的列的值
2. 删除重复值
单击“数据”选项卡下的“删除重复项”
点击取消全选,点击“餐厅名称”的确认值
删除重复值
3.通过分列删除括号
因为数据是和括号一起捕获的,所以这里通过列排序功能去掉了括号。
使用“(””)”作为分隔符来分隔列。
删除括号后获得干净的数据
4. 手动补充异常值
5.在AB列中,使用“添加”功能将Y列中的“正面评论数”与Z列中的“负面评论数”相加,得到“中差评数”; 在AC列中,使用“除法”函数将Y列中的“正面评论数”与O列中的评论总数相除,以获得“正面评论率”。 这两列用于后续分析。
3. 构建模型
1、“人均消费”的描述性统计分析
选择“人均消费”一栏,使用“数据”选项卡上的“数据分析”工具进行分析,得到以下结果。
数据的描述性统计分析
2. 人均消费如何随商圈变化?
选择“商圈”作为行标签,人均消费作为值标签,设置值字段为平均值,按降序排序,得到如下结果:
可以看出,黄埔区、从化区、天河区人均消费较高,均在50以上,而增城区、萝岗区人均消费在40以下,相对较低。 因此,预算较多的可以选择黄埔区、从化区、天河区吃饭,预算较少的可以去番禺区、增城区、萝岗区。
3、哪些商圈茶餐厅较多?
选择“商圈”作为行标签,“餐厅名称”作为值标签,将值字段设置为计数项,按降序排序,得到如下结果:
可以看到,越秀区和天河区的茶餐厅较多,均超过90家。初步推测可能与越秀区是广州老城区有关,传统粤式茶餐厅较多; 而天河区作为广州的中心,人口众多。 这里面积最大,所以茶餐厅也比较多。 增城区、黄埔区、萝岗区、南沙区和从化区的茶餐厅相对较少,不到10家。这可能是因为萝岗、黄埔等一些区是新开发区,而增城、从化地理位置相对偏远。 。 由于地处偏远,茶餐厅数量很少。
4、哪些茶餐厅好评率高?
首先对好评数进行降序排序,然后使用条件格式选择好评率大于80%的餐厅并标记为红色。然后我们将好评数超过1000的餐厅和好评率排序出来率大于80%,如下:
(1) 德悦楼
(2)表哥香港餐厅(维嘉斯广场店)
(3)九龙冰室(江南新地店)
(4)电粮江南香港主题餐厅(江南西店)
(5)绿云茶馆(体育西店)
(6)大老凤巴士(中华广场店)
(7)四季厅(亭沙街店)
(8) 九龙冰室(江湾店)
(9)绿云茶社(立德店)
以上是我第一次用Excel做的分析。 由于缺乏经验,还存在很多不完善的地方。 欢迎您的批评和指正。 感谢您的建议。