2023-08-20 07:31:14 来源 : 哔哩哔哩
爬虫采集懂车帝汽车评分数据、汽车评论数据、车评人数据等存入mysql和.csv文件;
(相关资料图)
2.使用pandas+numpy或者MapReduce对上面的数据集进行数据清洗生成最终上传到hdfs;
3.使用hive数据仓库完成建库建表导入.csv数据集;
4.使用hive之hive_sql进行离线计算,使用spark之scala进行实时计算;
5.将计算指标使用sqoop工具导入mysql;
6.使用Flask+echarts进行可视化大屏实现;
创新点
nlp文本分类情感分析
装杯大屏幕
Python爬虫采集海量(10万+数据)
hive离线计算+spark实时计算双实现防止导师喷你
注意:如果你还觉得系统工作量不够或者太low可以选装推荐算法、预测算法、知识图谱、后台管理等,实现效果如下(本人保证可以0秒无缝选装无缝对接!):
/video/BV1cb4y1n7Yy/?spm_id_from=
标签: