政安晨：【Keras机器学习示例演绎】（五十七）—

介绍

数据集

设置

准备数据

将电影评分数据转换为序列

定义元数据

创建用于训练和评估的 tf.data.Dataset

创建模型输入

输入特征编码

创建 BST 模型

开展培训和评估实验

政安晨的个人主页：政安晨

欢迎 👍点赞✍评论⭐收藏

希望政安晨的博客能够对您有所裨益，如有不足之处，欢迎在评论区提出指正！

本文目标：在 Movielens 上使用行为序列转换器（BST）模型预测评级率。

介绍

本示例使用 Movielens 数据集演示了陈启伟等人的行为序列转换器（BST）模型。 BST 模型利用用户观看电影和给电影评分的顺序行为，以及用户资料和电影特征，来预测用户对目标电影的评分。

更确切地说，BST 模型旨在通过接受以下输入来预测目标电影的评分：

用户观看过的电影的固定长度序列。
用户观看过的电影评分的固定长度序列。
输入序列中每部电影和目标电影的类型集。
输入序列中每部电影和目标电影的类型集。
要预测评分的 target_movie_id。

该示例以下列方式修改了原始 BST 模型：

1. 我们在处理输入序列中的每部电影和目标电影的嵌入过程中都加入了电影特征（流派），而不是将其视为转换层之外的 "其他特征"。

2. 我们利用输入序列中电影的评分以及它们在序列中的位置来更新它们，然后再将它们输入自我关注层。

（请注意，本示例应在 TensorFlow 2.4 或更高版本中运行。）

数据集

我们使用的是 Movielens 数据集的 1M 版本。该数据集包含 6000 名用户对 4000 部电影的约 100 万个评分，以及一些用户特征和电影类型。此外，数据集还提供了每个用户对电影评分的时间戳，这样就可以按照 BST 模型的预期，为每个用户创建电影评分序列。

设置

import os

os.environ["KERAS_BACKEND"] = "tensorflow"

import math
from zipfile import ZipFile
from urllib.request import urlretrieve

import keras
import numpy as np
import pandas as pd
import tensorflow as tf
from keras import layers
from keras.layers import StringLookup

准备数据

下载并准备数据框

首先，让我们下载 movielens 数据。

下载的文件夹将包含三个数据文件：users.dat、movies.dat 和 ratings.dat。

urlretrieve("http://files.grouplens.org/datasets/movielens/ml-1m.zip", "movielens.zip")
ZipFile("movielens.zip", "r").extractall()

然后，我们用正确的列名将数据加载到 pandas DataFrames 中。

users = pd.read_csv(
    "ml-1m/users.dat",
    sep="::",
    names=["user_id", "sex", "age_group", "occupation", "zip_code"],
    encoding="ISO-8859-1",
    engine="python",
)

ratings = pd.read_csv(
    "ml-1m/ratings.dat",
    sep="::",
    names=["user_id", "movie_id", "rating", "unix_timestamp"],
    encoding="ISO-8859-1",
    engine="python",
)

movies = pd.read_csv(
    "ml-1m/movies.dat",
    sep="::",
    names=["movie_id", "title", "genres"],
    encoding="ISO-8859-1",
    engine="python",
)

在此，我们进行一些简单的数据处理，以固定列的数据类型。

users["user_id"] = users["user_id"].apply(lambda x: f"user_{x}")
users["age_group"] = users["age_group"].apply(lambda x: f"group_{x}")
users["occupation"] = users["occupation"].apply(lambda x: f"occupation_{x}")

movies["movie_id"] = movies["movie_id"].apply(lambda x: f"movie_{x}")

ratings["movie_id"] = ratings["movie_id"].apply(lambda x: f"movie_{x}")
ratings["user_id"] = ratings["user_id"].apply(lambda x: f"user_{x}")
ratings["rating"] = ratings["rating"].apply(lambda x: float(x))

每部电影都有多种类型。我们将它们分成电影 DataFrame 中的不同列。

genres = ["Action", "Adventure", "Animation", "Children's", "Comedy", "Crime"]
genres += ["Documentary", "Drama", "Fantasy", "Film-Noir", "Horror", "Musical"]
genres += ["Mystery", "Romance", "Sci-Fi", "Thriller", "War", "Western"]

for genre in genres:
    movies[genre] = movies["genres"].apply(
        lambda values: int(genre in values.split("|"))
    )

将电影评分数据转换为序列

首先，我们使用 unix_timestamp 对评分数据进行排序，然后按用户 ID 对电影 ID 值和评分值进行分组。

ratings_group = ratings.sort_values(by=["unix_timestamp"]).groupby("user_id")

ratings_data = pd.DataFrame(
    data={
        "user_id": list(ratings_group.groups.keys()),
        "movie_ids": list(ratings_group.movie_id.apply(list)),
        "ratings": list(ratings_group.rating.apply(list)),
        "timestamps": list(ratings_group.unix_timestamp.apply(list)),
    }
)

现在，让我们把 movie_ids 列表拆分成一组固定长度的序列。我们对评分也做同样的处理。设置 sequence_length 变量可改变模型输入序列的长度。您还可以改变 step_size 来控制为每个用户生成的序列数量。

sequence_length = 4
step_size = 2


def create_sequences(values, window_size, step_size):
    sequences = []
    start_index = 0
    while True:
        end_index = start_index + window_size
        seq = values[start_index:end_index]
        if len(seq) < window_size:
            seq = values[-window_size:]
            if len(seq) == window_size:
                sequences.append(seq)
            break
        sequences.append(seq)
        start_index += step_size
    return sequences


ratings_data.movie_ids = ratings_data.movie_ids.apply(
    lambda ids: create_sequences(ids, sequence_length, step_size)
)

ratings_data.ratings = ratings_data.ratings.apply(
    lambda ids: create_sequences(ids, sequence_length, step_size)
)

del ratings_data["timestamps"]

然后，我们对输出进行处理，使每个序列在 DataFrame 中都有单独的记录。此外，我们还将用户特征与评分数据结合起来。

ratings_data_movies = ratings_data[["user_id", "movie_ids"]].explode(
    "movie_ids", ignore_index=True
)
ratings_data_rating = ratings_data[["ratings"]].explode("ratings", ignore_index=True)
ratings_data_transformed = pd.concat([ratings_data_movies, ratings_data_rating], axis=1)
ratings_data_transformed = ratings_data_transformed.join(
    users.set_index("user_id"), on="user_id"
)
ratings_data_transformed.movie_ids = ratings_data_transformed.movie_ids.apply(
    lambda x: ",".join(x)
)
ratings_data_transformed.ratings = ratings_data_transformed.ratings.apply(
    lambda x: ",".join([str(v) for v in x])
)

del ratings_data_transformed["zip_code"]

ratings_data_transformed.rename(
    columns={"movie_ids": "sequence_movie_ids", "ratings": "sequence_ratings"},
    inplace=True,
)

在 sequence_length 为 4、step_size 为 2 的情况下，我们最终得到了 498 623 个序列。最后，我们将数据分成训练和测试两个部分，分别包含 85% 和 15% 的实例，并将它们存储到 CSV 文件中。

random_selection = np.random.rand(len(ratings_data_transformed.index)) <= 0.85
train_data = ratings_data_transformed[random_selection]
test_data = ratings_data_transformed[~random_selection]

train_data.to_csv("train_data.csv", index=False, sep="|", header=False)
test_data.to_csv("test_data.csv", index=False, sep="|", header=False)