kaggle学习笔记-情感和地理空间分析

news2025/4/27 20:02:22

背景

秘鲁食品评论中的情绪和地理空间分析
自然语言处理 (NLP) 是人工智能的一个分支,致力于让计算机能够像人类一样理解文本和口语单词。 另一方面,地理空间分析是对图像、GPS、卫星摄影和历史数据的收集、显示和操作,这些数据以地理坐标明确描述,或以街道地址、邮政编码或林分标识符隐式描述。 因为它们应用于地理模型。

关于这个话题,秘鲁是世界上最好、最独特的美食目的地之一。 这个国家有不同的气候和生态底线,种植了各种农作物。 这样一来,它就有了很多天然的、独特的投入。 因此,秘鲁菜是一种相反的菜系:同一盘中的热菜和冷菜。 酸味与淀粉混合。 坚固又精致。 一切都取得了优异的成绩。

关于 Kaggle 数据集,秘鲁美食评论有多种信息。 这具有文本、空间和时间特征! 这是展示有关情感分析、地理空间分析和时间序列分析的一些混合想法的好机会。 这里可能的用途是:市场研究、为客户创建指南应用程序。

思路示意

总的来说,我所做的项目是以下步骤:

网络数据提取:在 TripAdvisor 和 GoogleMaps 平台中使用网络抓取。
预处理:计算机应读取所有特征。 那里存在一组步骤。
探索性分析:一些初步绘图并初步了解数据。
聚类:评论可以按情感或情绪进行分类。 使用西班牙语 NrcLexicon 可以实现这一点。
分类:确定哪些评论是好的、差的或一般,以及发生这种情况的概率是多少。
报道:这些餐厅(或地区)都有独特的特色,并且很有趣地看到每个餐厅(或地区)的模式多样性。
仪表板:存在与用户交互的所有项目的摘要。

数据预处理

# GET DATA
# General data
reviews_df=pd.read_csv('../input/peruvian-food-reviews/data/data/reviews.csv')
reviews_df.dropna(subset=['review'],inplace=True)
reviews_df.drop_duplicates(subset=['review'],inplace=True,keep=False)
restaurants_df=pd.read_csv('../input/peruvian-food-reviews/data/data/restaurants.csv')
# Auxiliar data
borders=gpd.read_file('../input/peruvian-food-reviews/data/data/geospatial/districts.shp')
nrc=pd.read_csv('../input/peruvian-food-reviews/data/data/spanish-nrc/lexico_nrc.csv')
# PREPROCESSING
trans=str.maketrans('áéíóúüñÁÉÍÓÚÜ','aeiouunAEIOUU')
lemma_n={'limar':'lima','increiblemente':'increible','normalito':'normal','encantado':'encantar','lamentablemente':'lamentable','buenazo':'bueno','buenisimo':'bueno','buenisima':'bueno','zoolog':'zoo','abuelit':'abuel','malisimo':'malo','decepcion':'decepcio','decepcionado':'decepcio','decepcioado':'decepcio','decepcioante':'decepcio','riquisimo':'rico','recomendado':'recome','recomendacion':'recome','recomeir':'recome','recomer':'recome','recomendar':'recome','recomendarr':'recome','recomer':'recome','recomendarrr':'recome','recomendable':'recome','deliciosa':'delicia','delicioso':'delicia','delicios':'delicia','pesima':'pesimo','fria':'frio','atencion':'atender','comida':'comer','ambientar':'ambiente','venezuela':'venezolano','preciar':'precio','malisima':'malo'}
list_stopwords=list(set(stopwords_nltk+list(STOP_WORDS)+['\n','\t','nan','','aa',' ','q','pq','and','xd','xq']))
def remove_translate(x):
    x=str(x)
    if x.__contains__('(Traducción de Google)'): return x[len('(Traducción de Google)')+1:x.find('(Original)')]
    else: return x
def create_lemma(x,dc):
    if any(ext in x for ext in dc.keys()): 
        for k in dc.keys():
            x=str(x).replace(k, str(dc[k]))
        return x.replace('recome','recomendar').replace('ceviche','cebiche')
    else: return x.replace('recome','recomendar').replace('ceviche','cebiche')
def preprocess_text(x):
    try:
        x=remove_translate(x)
        x=x.lower()
        x = re.sub('\[.*?¿\]\%', '', x)
        x = re.sub('[%s]' % re.escape(string.punctuation), '', x)
        x = re.sub('\w*\d\w*', '', x)
        x = re.sub('[‘’“”…«»]', '', x)
        x = re.sub('\n', ' ', x)
        x=x.replace('<br>','').replace('</br>','')
        x= [t.lemma_.lower().translate(trans) for t in nlp(x) if (not t.is_stop) &(t.text not in list_stopwords)]
        x=' '.join(x)
        return create_lemma(x,lemma_n)
    except Exception as e:  return ''
def get_entities(x):
	try: return ' '.join([token.text for token in nlp(x) if (token.ent_type!=0) & (token.is_stop==False)])
	except: return ''
def get_labels(x):
    if x>3: return 'Excellent'
    elif x<3: return 'Bad'
    else: return 'Ok'
def translate_lg(x):
	try: return detect(x)
	except: return ' '
reviews_df['language']=reviews_df['review'].apply(translate_lg) #Is not precise
reviews_df=reviews_df[reviews_df['language']=='es']
reviews_df['label']=reviews_df['score'].apply(lambda x: 'Excellent' if x>3 else 'Bad' if x<3 else 'Ok')
reviews_df['pre_review']=reviews_df['review'].apply(preprocess_text)
#reviews_df['entity']=reviews_df['review'].apply(get_entities) In 1rst and 2nd version
reviews_df['date']=pd.Categorical(reviews_df['date'],categories=['1 months ago','2 months ago','3 months ago','4 months ago','5 months ago','6 months ago','7 months ago','8 months ago','9 months ago','10 months ago','11 months ago','12 months ago','1 years ago','2 years ago','3 years ago','4 years ago','5 years ago','6 years ago','7 years ago','8 years ago','9 years ago','10 years ago','11 years ago','12 years ago','13 years ago'],ordered=True)
def get_tags(df):
	vectorizer=CountVectorizer(tokenizer = lambda x:[x.split('||', 1)[0].strip()])
	mat=vectorizer.fit_transform(df.tag).toarray()
	mat=pd.DataFrame(mat,columns=vectorizer.get_feature_names())
	mat.drop(['','$', '$$ - $$$', '$$$$'],axis=1,inplace = True)
	mat=pd.concat([df.id,mat],axis = 1)
	mat.to_csv('./tag.csv',index=False)
#get_tags(restaurants_df) In 1rst and 2nd version
all_df=reviews_df.merge(restaurants_df,how='left',left_on='service',right_on='id')[['id_review', 'review', 'title', 'score', 'likes', 'id_nick', 'service','date', 'label', 'pre_review', 'id', 'name', 'tag','x', 'y', 'district', 'IDDIST']]
all_df.to_csv('./all.csv')

保存信息以便稍后使用:

全部:具有新功能的评论:预处理文本、实体检测、分数中的新标签以及与获取区域、x、y 和餐厅名称的餐厅的连接。
标签:餐厅类型。 他们销售什么产品?

地理因素分析

def geo_map(df,dg,districts):
	districts = districts[["IDDIST", "geometry"]].set_index("IDDIST")
	map = Map(location=[-12.3101093,-76.8850579], tiles='Stamen Toner', zoom_start=9.2) 
	Choropleth(geo_data=districts.__geo_interface__,
          data=df['stars'],
          key_on="feature.id",
           fill_color='Blues',
         #  legend_name="Satisfaction of restaurant's services in Lima by district"
          ).add_to(map)
	HeatMap(data=zip(dg['x'], dg['y'],dg['n_reviews']), radius=30).add_to(map)
	mc = MarkerCluster()
	for idx, row in dg.iterrows():
		html=f"""
		    <h1 style="color:DodgerBlue;"> <b> {row['name']} </b></h1>
		    <p> {row['stars']/10} estrellas </p>
		    <p> {row['n_reviews']} reseñas </p>
		     <p> {row['direction']} </p>
		    """
		popup = Popup(folium.IFrame(html=html, width=500, height=300), max_width=2650)
		mc.add_child(Marker([row['x'], row['y']],color='red',popup = popup,icon=Icon(color='blue')))#
	map.add_child(mc)
	return embed_map(map,'./map.html')
def embed_map(m, file_name):
    m.save(file_name)
    return IFrame(file_name, width='100%', height='500px')
dgs=restaurants_df[restaurants_df['IDDIST']!='Out']
dg=dgs.groupby(by="IDDIST").mean()
ds=borders[borders['PROVINCIA']=='LIMA']
geo_map(dg,dgs,ds)

在这里插入图片描述
在这里插入图片描述
热图和红色刻度代表评论数量。
分区统计图和蓝色刻度代表各区的平均得分。
标记中餐厅的普遍化。
Pd:该地图可以适用于其他情况。 例如:分析 COVID-19 疫苗接种的进展,或者分析任何州的事故。

生成报告

class report:
	def __init__(self,x,c,ids):
		self.df=x
		self.element=c
		self.ids=ids
	def generate_all(self):
		for idx in self.ids: 
			print(f'Analyzing the {self.element} {idx}')
			df=self.df[self.df[self.element]==idx]
			self.get_score(df)
			self.generate_wordcloud(df,idx)
			self.get_reviews(df)
			self.get_timeseries(df)
	def get_reviews(self,df):
		fill_color = []; n = len(df)
		for i in range(n):
			if df.iloc[i]['label']=='Excellent':fill_color.append('rgb(102, 178, 255)')
			elif df.iloc[i]['label']=='Bad':fill_color.append("rgb(255, 102, 102)")
			else:fill_color.append('rgb(153, 255, 204)')
		fig = go.Figure(data=[
	        go.Table(columnorder = [1,2], columnwidth = [440,40],
	      header=dict(values=['<b>Reviews</b>', '<b>Score</b>'],
	        line_color='black', fill_color='black',
	        align='center',font=dict(color='white', size=12)),
	      cells=dict(values=[df.review, df.score],
	        line_color=['black']*2,fill_color=[fill_color,fill_color],
	        align='center', font=dict(color='black', size=11)))
	    ])        
		fig.show()
	def generate_wordcloud(self,df,save):
		wordcloud = WordCloud(width=1640, height=1200,stopwords=set(stopwords.words('spanish')).union(set(['pre_review','Length','dtype','object','comida','comer','rico','atender','restaurante','servicio','plato','excelente','recomendar','delicia','ambiente','sabor','pedir','precio','agradable','local','calidad'])),
	        max_font_size=500,scale=3,random_state=60).generate(" ".join(df['pre_review'])) #Removing very common words in restaurants
		wordcloud.recolor(random_state=1)
		plt.figure(figsize=(25, 21))
		plt.imshow(wordcloud)
		plt.axis('off')
		plt.savefig(f'./wordcloud_{save}.png')
		plt.show()
	def get_score(self,df):
		dg=pd.DataFrame(df['score'].value_counts())
		dg.sort_index(inplace=True)
		dg.columns=['Number of reviews']
		clrs=['red' if (x > dg['Number of reviews'].sum()/3) else 'lightcoral' for x in dg['Number of reviews'] ]
		fig = go.Figure(data=[go.Bar(
            x=['Stars_1','Stars_2','Stars_3','Stars_4','Stars_5'],
            y=dg['Number of reviews'],
            marker_color=clrs
        )])
		fig.show()
	def get_timeseries(self,df):
		dg=df.groupby(by="date").agg(['count', 'mean'])
		dg.sort_index(inplace=True,ascending=False)
		dg.dropna(inplace=True)
		fig=go.Figure([go.Scatter(x=dg['score']['mean'].index, y=dg['score']['mean'].values)])
		fig.update_layout(paper_bgcolor='rgba(0,0,0,1)',  plot_bgcolor='rgba(0,0,0,1)',font=dict(size=10, color='#ffffff'),)
		fig.show()   

分析区域

report(all_df,'district',['MIRAFLORES','SANTIAGO DE SURCO']).generate_all()

分类

def model(c=1):
    return Pipeline([('vect', CountVectorizer(analyzer = "word",min_df=20,stop_words = stopwords_nltk)),
                     ('tfidf', TfidfTransformer(norm = 'l2',use_idf = True)),
                     ('model', LogisticRegression(solver = 'newton-cg',max_iter = 1000,tol=1e-4,C = c))])
def training_cv(X_train,y_train,mod):
    skf=StratifiedKFold(n_splits = 10,shuffle = True,random_state = 60)
    yv=np.zeros(len(X_train))
    yvs=np.zeros((len(X_train),5))
    fi=pd.DataFrame(columns=[f"W_Class_{k}" for k in range(5)])
    for fold,(idx_tr,idx_vl) in enumerate(skf.split(X_train,y_train)):
        X_tr,y_tr=X_train.iloc[idx_tr],y_train.iloc[idx_tr]
        X_vl,y_vl=X_train.iloc[idx_vl],y_train.iloc[idx_vl]
        model = mod.fit(X_tr,y_tr)
        fi = pd.DataFrame(model['vect'].get_feature_names(), columns = ["Features"])
        for k in range(5): fi[f"W_Class_{k}"] = +pow(math.e, model['model'].coef_[k])
        yv[idx_vl]=model.predict(X_vl)
        yvs[idx_vl]=model.predict_proba(X_vl)
    return yv,yvs,fi
def evaluation(yreal,y,ys):
    print(classification_report(yreal, y))
    print('AUC: ',roc_auc_score(yreal, ys, multi_class='ovo', average='weighted'))
    print('Accuracy: ',accuracy_score(yreal, y))
    print('Log_Loss: ',log_loss(yreal, ys))
    plt.figure(figsize=(6,5))
    sns.heatmap(pd.DataFrame(confusion_matrix(yreal, y)), annot=True, linewidths=.5, fmt="d")
    plt.savefig('./confusion_matrix.png')
    plt.show()
    col=['red','orange','yellow','blue','green']
    plt.figure(figsize=(7,6))
    for k in range(5): sns.kdeplot(x=ys[:,k],fill=True,color = col[k])
    plt.savefig('./distributions.png')
    plt.show()
def model_weights(df):
#    df["OddsRatio_4-3"] = df['W_Class_4']/df['W_Class_3']
    print(df)
    i,j=0,0
    fig, axes = plt.subplots(nrows=2, ncols=3,figsize=(8,7))
    for k in range(5):
        df=df.sort_values(by = [f"W_Class_{k}"], ascending=False)
        plt.subplot(2,3,k+1)
        if j>2: i=1;j=0
        df[:10].plot.barh(x='Features', y=f"W_Class_{k}",color='blue',ax=axes[i,j])
        j=j+1
    plt.savefig(f'feat_importance.png')	
    plt.show()
reviews_df.drop_duplicates(inplace=True,subset=['pre_review'])
reviews_df.reset_index(inplace=True)
yv,yvs,fi=training_cv(reviews_df['pre_review'],reviews_df['score'],model())
model_weights(fi)
evaluation(reviews_df['score'],yv,yvs)
dfx=pd.DataFrame({'stars_1':yvs[:,0],'stars_2':yvs[:,1],'stars_3':yvs[:,2],'stars_4':yvs[:,3],'stars_5':yvs[:,4]})
pd.concat([reviews_df['id_review'],dfx],axis=1).to_csv('./model.csv',index=False)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/753010.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

TensorFlow模块简介

TensorFLow框架内构建了很多高层次的API&#xff0c;可以显著减少编写程序的代码量&#xff0c;其中包含众多网络结构相关函数和数据载入、数据处理的方法。 tf.data.Dataset tf.data.Dataset是TensorFlow内置的数据输入模块&#xff0c;提供了专门用于数据输入的多种方法&am…

Android Vector(矢量图)介绍

Android Vector(矢量图)介绍 1、vector的宽高属性 <vector xmlns:android"http://schemas.android.com/apk/res/android"android:width"24dp"android:height"24dp"android:viewportWidth"24"android:viewportHeight"24"…

控制台警告:alue of key ‘route.角色管理‘ is not a string!

控制台警告&#xff1a;Value of key route.角色管理 is not a string! 具体情况如下图所示&#xff1a; 解决办法&#xff1a; 先找到要修改的配置文件&#xff0c;先在src文件下&#xff0c;locale文件中找index.js。 如果src下没有locale文件可以找lang文件下的index.js文…

DAY46:动态规划(八)01背包应用2:一和零(二维容量01背包)

文章目录 474.一和零思路为什么不是多重背包而是01背包与之前01背包问题的区别 DP数组的含义递推公式&#xff08;也是求最大值&#xff09;初始化遍历顺序完整版总结 474.一和零 本题属于 装满背包最多能有多少个物品 类型本题是容量有两个维度的背包&#xff0c;背包容量是m…

【数据结构】树与二叉树(上)

目录 前言&#xff1a; 一、树&#xff1a; 1.树的概念&#xff1a; 2.树的相关概念&#xff1a; 3.树的表示&#xff1a; 4.书的实际使用场景&#xff1a; 二、二叉树&#xff1a; 1.二叉树的概念&#xff1a; 2.两种特殊二叉树&#xff1a; ①.满二叉树&#xff1a;…

力扣每日一题2023.7.13

题目: 示例: 分析: 给我们一个矩阵,我们需要找出一条路径从矩阵第一层(索引为0)到达矩阵最后一层,并且使得路径上的数值之和最小. 如果是老手,那么应该一眼就能看出来可以使用动态规划,如果看不出来,那我们接下来一起分析分析. 首先我们先不要搞这么复杂,以示例1为例,我们就…

Redis数据结构 — QuickList

目录 quicklist 结构设计 总结 quicklist 结构设计 quicklistNode 结构体里包含了前一个节点和下一个节点指针&#xff0c;这样每个 quicklistNode 形成了一个双向链表。但是链表节点的元素不再是单纯保存元素值&#xff0c;而是保存了一个压缩列表&#xff0c;所以 quickli…

JSP基础

javaWeb项目目录 src&#xff1a;存放Java源文件 src/main/java/com&#xff1a;存放相应的Java代码&#xff0c;并根据对应的Java项目继续分层架构&#xff0c;主要有以下几个软件包。 bean包&#xff1a;封装类&#xff0c;一般是按照数据库的来写内容的&#xff0c;一个表…

Sentry 监控部署与使用(详细流程)

一、简介 Sentry 是一个开源的实时错误监控的项目&#xff0c;它支持很多端的配置&#xff0c;包括 web 前端、服务器端、移动端、游戏端。 基于 Django 构建的现代化的实时事件日志监控、记录和聚合平台&#xff0c;主要用于如何快速的发现故障。更快地解决错误和性能问题&…

vue——自定义指令,实现拖拽改变元素的宽度——技能提升

最近在看企业微信时&#xff0c;发现tapd的需求部分&#xff0c;分为左右两部分&#xff0c;左侧可以实现拖拽改变宽度。 感觉这样的实现效果比较好&#xff0c;再联想到之前写绩效结构时&#xff0c;也是同样的左右布局。 如果能实现同样的效果&#xff0c;则算是很好一种体…

【方法】公众号上传的视频不能横屏播放,如何解决?

目录 说明 解决步骤 步骤一&#xff1a;开启微信横屏模式 步骤二&#xff1a;打开手机自动旋转功能 说明 直接用手机打开公众号文章上内嵌的视频&#xff0c;发现只能横屏播放&#xff0c;无法全屏查看。 这个时候学习&#xff0c;尤其是看视频课程的时候无法看清楚全图。…

华为发布大模型时代AI存储新品

7月14日&#xff0c;华为发布大模型时代AI存储新品&#xff0c;为基础模型训练、行业模型训练&#xff0c;细分场景模型训练推理提供存储最优解&#xff0c;释放AI新动能。 企业在开发及实施大模型应用过程中&#xff0c;面临四大挑战&#xff1a; 首先&#xff0c;数据准备时…

数据结构:第五章 树

文章目录 一、树的基本概念1.1树的定义1.2树的基本用语1.2.1结点之间的关系描述1.2.2结点、树的属性描述1.2.3有序树、无序树1.2.4森林1.2.5小结 1.3树的性质 二、二叉树的概念2.1二叉树的定义和基本术语2.2二叉树的性质2.2.1二叉树常考性质2.2.2完全二叉树常考性质 2.3二叉树的…

使用chatgpt过funcaptcha验证码3个人学习记录

funcaptcha 验证码3 通过记录 往期验证码&#xff1a;http://t.csdn.cn/ulgXY funcaptcha1 往期验证码&#xff1a;http://t.csdn.cn/3xMnZ funcaptcha2 funcaptcha 那个公司开发的简要介绍&#xff1a; Funcaptcha是由hCaptcha公司开发的一种人机验证系统。hCaptcha是一家位…

快速排序的非递归实现、归并排序的递归和非递归实现、基数排序、排序算法的时间复杂度

文章目录 快速排序的非递归三数取中法选取key快速排序三路划分 归并排序的递归归并排序的非递归计数排序稳定性排序算法的时间复杂度 快速排序的非递归 我们使用一个栈来模拟函数的递归过程&#xff0c;这里就是在利用栈分区间。把一个区间分为 [left,keyi-1][key][keyi1,right…

机器学习(13)--支持向量机

目录 一、支持向量机概述 二、Sklearn中的SVM概述 三、线性SVM损失函数 四、sklearn中进行可视化 1、导入模块 2、实例化数据集&#xff0c;可视化 3、网格点制作 4、建立模型并绘制决策边界和超平面 5、常用接口 6、如果数据是环形呢&#xff1f; 五、核函数 1、…

emacs下相对行号的设置

全局设置 全局开启行号显示&#xff1a;global-display-line-numbers-mode t 并设置 display-line-numbers-type的样式: relative 相对 配置代码如下: (use-package emacs:ensure t:config (setq display-line-numbers-type relative) (global-display-line-numbers-mode t)…

校园跑腿小程序如何运营赚钱,方法其实很简单

校园跑腿小程序是一种以满足大学生的校园内外需求为主要目标的创业方式。下面将详细介绍校园跑腿小程序的运营方式&#xff0c;包括市场调研、产品设计、用户获取与留存、服务流程管理等方面。 市场调研&#xff1a; 在开始校园跑腿小程序的运营之前&#xff0c;进行充分的市…

2023年经典【自动化面试题】附答案

一、请描述一下自动化测试流程&#xff1f; 自动化测试流程一般可以分为以下七步&#xff1a; 编写自动化测试计划&#xff1b; 设计自动化测试用例&#xff1b; 编写自动化测试框架和脚本&#xff1b; 调试并维护脚本&#xff1b; 无人值守测试&#xff1b; 后期脚本维…

【C++从0到王者】第九站:String基本介绍及使用

文章目录 一、String的基本使用二、String构造相关的成员函数1.String构造函数2.String析构函数3.operator运算符重载4.String增删查改之增5. operator[]运算符重载 三、String迭代器1.迭代器介绍2.string中迭代器的作用3.迭代器跟容器结合4.反向迭代器5.const修饰的迭代器 四、…