Skip to content
This repository has been archived by the owner on Apr 17, 2021. It is now read-only.

add README-zh-cn.txt #7

Open
wants to merge 3 commits into
base: master
Choose a base branch
from
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
140 changes: 140 additions & 0 deletions data/README-zh-cn.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,140 @@
摘要
=======

该数据集来源于[MovieLens](http://movielens.org)的5星评级和自由文本标记的电影推荐服务,它包含一个100234评级和2213个,跨越8927部电影.这些数据是由718位用户在1996年5月26日-2015年8月5号产生的,这些数据集在2015年8月06生成。

用户是随机选择的. 所有选择的用户至少投票了20部电影. 没有人口统计信息包括在内. 每个用户只有一个id信息。

数据被包含在4个文件中,`links.csv`, `movies.csv`, `ratings.csv` and `tags.csv`. 下面详细描述这些文件

这是一个开发数据集,因此它会随着时间改变,如果你想看性能方面的的数据集请看"benchmark"

这些数据集可以在这下载<http://grouplens.org/datasets/>.


使用许可证
=============

明尼苏达大学和任何研究人员都不能保证数据的正确性、对任何特定目的的适用性或基于数据集的使用结果的有效性。在下列条件下,数据集可用于任何研究目的:

* 用户不得声明或暗示明尼苏达大学或GulpLes研究小组的任何认可。
* 用户必须承认使用数据集所产生的出版物中的数据集的使用,并且必须向我们发送这些出版物的电子或纸质副本。
* 用户可能重新分配数据集,包括转换,只要它是在相同的许可条件下分发的。
* 用户可以不使用任何商业或收入的目的,而不首先获得明尼苏达大学的GulpRes研究项目的教员的许可。
* 可执行软件脚本是“按原样”提供的,没有任何形式的保证,包括表达或暗示,包括但不限于,适销性和适合特定目的的默示保证。对他们的质量和性能的整个风险与你同在。如果程序被证明有缺陷,你承担所有必要的维修、修理或修正的费用。

明尼苏达大学、其分支机构或雇员在任何情况下都不能对使用或无法使用这些程序造成的损害承担责任(包括但不限于数据丢失或数据不准确)。

如果你有更多问题和建议,请联系 <[email protected]>


更多信息 关于GroupLens
===================================

GulpLeNes是明尼苏达大学计算机科学与工程系的一个研究小组。自1992成立以来,Gulpern的研究项目已经探索了多个领域,包括:


* 推荐系统
* 在线社区
* 移动与普遍技术
* 数字图书馆
* 地方地理信息系统

GulpLeNes研究操作基于协同过滤的电影推荐者Movieles,这是这些数据的来源。我们鼓励您访问<Htp://Moviels.Org>尝试一下!如果你对实验工作有令人兴奋的想法,可以在Mevieleles上发邮件给我们。


文件的内容
========================

格式和编码
-----------------------

DataSet文件被写为[逗号分隔值](HTTP://E.WiKiTo.Org/Wiki/CCOMA-TealDataValx)文件,具有单个标题行。包含逗号(‘,’)的列使用双引号('')进行转义。这些文件被编码为UTF-8。如果电影标题或标签值中的重音字符(例如MieErrabes,LES(1995))显示不正确,则确保任何程序读取数据,例如文本编辑器、终端或脚本,被配置为UTF-8。

用户Id
--------

MOVIELSENS用户随机选择纳入。他们的ID已经匿名。用户ID在“评价.CSV”和“标签.CSV”之间是一致的(即,相同的ID指的是两个文件上的同一个用户)。

电影 Ids
---------

只有具有至少一个等级或标签的电影包含在数据集中。这些电影ID与MOVELIENS网站上使用的ID一致(例如,ID‘1’对应于URL<http://MovielNe.org/电影/ 1>)。电影ID在“评价.CSV”、“标签.CSV”、“电影.CSV”和“链接.CSV”(即,相同的ID指的是这四个数据文件上的同一电影)之间是一致的。


评级数据文件结构 (ratings.csv)
-----------------------------------------

所有评价都包含在文件“ratings.CSV”中。标题行后的该文件的每一行代表一个用户对一个电影的一个评级,并且具有以下格式:

用户标识、电影标识、等级、时间戳

该文件中的行首先由用户ID排序,然后在用户内部通过movieId排序。

评级是在5星级,半星增量(0.5星级- 5星级)。

时间戳代表1970年1月1日午夜以来协调世界时间(UTC)的秒数。

标签数据集 (tags.csv)
-----------------------------------

所有标签都包含在文件'tags.CSV'中。标题行之后的该文件的每一行表示一个用户应用于一个电影的一个标签,并且具有以下格式:

用户标识、电影标识、标签、时间戳

该文件中的行首先由用户ID排序,然后在用户内部通过MeVIEID排序。

标签是用户生成的关于电影的元数据。每个标签通常是单个单词或短短语。特定标签的含义、价值和用途由每个用户决定。

时间戳代表1970年1月1日午夜以来协调世界时间(UTC)的秒数。

电影 (movies.csv)
---------------------------------------

电影信息包含在文件“电影.CSV”中。标题行之后的该文件的每一行表示一个电影,并且具有以下格式:

电影、头衔、流派

电影标题是手动输入的,或者是从<https://www.themoviedb.org/>导入的,并且包含在括号中的发行年。这些标题中可能存在错误和不一致。

流派是一个管道分隔列表,并从以下选择:

行动
冒险
动画
儿童
喜剧
犯罪
纪录片
戏剧
幻想
黑色电影
恐怖
音乐
奥秘
罗曼史
科幻小说
惊悚片
战争
西部
(没有列出的流派)

链接 (links.csv)
---------------------------------------

可以链接到其他电影数据源的标识符包含在文件'links.csv'中。标题行之后的该文件的每一行表示一个电影,并且具有以下格式:

电影,IMDBID,TMDEBID

MeVIEID是由<https://movielens.org>使用的电影的标识符。例如,电影《玩具总动员》有链接<<https://movielens.org/movies/1>。

IMDBID是由<http://www.imdb.com>使用的电影的标识符。例如,电影《玩具总动员》有链接<http://www.imdb.com/title/tt0114709/>。

TMIDBID是由<https://www.themoviedb.org>使用的电影的标识符。例如,电影《玩具总动员》有链接<https://www.themoviedb.org/movie/862>。

上述资源的使用受每个供应商的条款影响。

交叉验证
----------------

MOVIELSENS数据集的先前版本包括预计算的交叉折叠或脚本来执行该计算。我们不再将这些特征与数据集捆绑在一起,因为大多数现代工具包都将其作为内置的特征。如果您希望了解推荐系统评估上下文中的交叉折叠计算的标准方法,请参阅[LensKit](http://lenskit.org),用于工具、文档和开源代码示例。
Original file line number Diff line number Diff line change
Expand Up @@ -117,6 +117,7 @@ public void run() {
// get 10 recommendation for the user
ResultList recs = irec.recommendWithDetails(user, 10, null, null);
System.out.format("Recommendations for user %d:\n", user);
System.out.println("\titemId itemName: itemScore\n");
for (Result item : recs) {
Entity itemData = dao.lookupEntity(CommonTypes.ITEM, item.getId());
String name = null;
Expand Down