ArticleRec

一个文章推荐系统，包括召回和排序。

召回包括：ItemCF、UserCF、Item2vec、YoutubeDNN

排序：LGBMRanker、LGBMClassifier、DIN

数据集主要包含：

用户点击文章的记录（userid、itemid、时间戳、国家、城市、设备环境...）

文章的数据（文章id、文章创建时间、文章类别、文章字数、文章embedding表示...）

github无法上传大于25M的文件，所以数据集需要下载：

新建temp目录：所有的pkl文件会保存在此目录下。

在笔记本的RTX4060上，整个推荐系统在完整数据集上一共需要跑20小时以上，最短的itemcf需要跑1个小时20分钟左右，在跑前需要先跑item_word2vec，获得embedding表征，或者使用数据集中的embedding。

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
ItemCF.py		ItemCF.py
README.md		README.md
UserCF.py		UserCF.py
YoutubeDNN.py		YoutubeDNN.py
dataset.py		dataset.py
embedding_sim.py		embedding_sim.py
feature.py		feature.py
feature_process.py		feature_process.py
item_word2vec.py		item_word2vec.py
multi_recall.py		multi_recall.py
rank.py		rank.py
rank_models.py		rank_models.py
recall_process.py		recall_process.py
stacking.py		stacking.py
utils.py		utils.py

Provide feedback