1.selenium爬取微博热搜、文章、评论数据存入mysql数据库,对评论lstm情感分析模型建模分析;
2.使用mapreduce对mysql中微博数据清洗,转为.csv文件上传hdfs文件系统;
3.使用hive建库建表,导入.csv数据集;
4.一半指标hive_sql进行离线分析,一半指标Spark实时分析;
5.分析结果用sqoop导入mysql数据库;
6.Flask+echarts制作可视化统计大屏;
创新点:情感分析、爬虫、可视化大屏
可以选装推荐系统、预测、知识图谱