内容导航:
- 零基础入门推荐系统 - 新闻推荐 - 实操1
- 赛题数据介绍:
- 数据集介绍:
- 读取数据集:
零基础入门推荐系统 - 新闻推荐 - 实操1
赛题数据介绍:
赛题以预测用户未来点击新闻文章
为任务,数据集报名后可见并可下载,该数据来自某新闻APP平台的用户交互数据
,包括30万用户
,近300万次点击
,共36万多篇不同的新闻文章
,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,将会从中抽取20万用户
的点击日志数据作为训练集
,5万用户
的点击日志数据作为测试集A
,5万用户
的点击日志数据作为测试集B
。
数据集介绍:
详细数据链接如下:
名称 | 大小 | 备注 |
---|---|---|
articles.csv | 9.89MB | 新闻文章信息数据表 |
articles_emb.csv | 973.15MB | 新闻文章embedding向量表示 |
testA_click_log.csv | 20.47MB | 测试集用户点击日志 |
train_click_log.csv | 43.5MB | 训练集用户点击日志 |
sample_submit.csv | 831KB | 提交样例文件 |
articles_emb.csv: (MD5:1f8a7fc79e0ad13311e27e3408d0287b)
字段表:
因为不同文件链接字数太长, 这里是将其下载了放到了一个位置, 需要的可以自取:
link:https://pan.baidu.com/s/1pLm_DQvDm5FSTHaW5Britw?pwd=ww50
passwd:ww50
我的项目结构如下图所示:
读取数据集:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
articles = pd.read_csv('data/articles.csv')
articles_emb = pd.read_csv('data/articles_emb.csv')
train_clicks = pd.read_csv('data/train_click_log.csv')
test_clicks = pd.read_csv('data/testA_click_log.csv')
变量表如下所示: