飞桨PaddlePaddle开源深度学习平台

简介/价格/文档

零基础实践深度学习第六章：情感分析 - 基于THUCNews数据集的文本分类比赛

文档简介：

THUNews文本分类比赛：通过前面情感分析章节的学习，大家已经清楚了自然语言处理建模的一般步骤：读取文本数据，并将其转化为字典中对应字或词的ID，然后输入给模型。将字或词对应的ID映射为对应的词向量embedding。模型根据embedding进一步计算，得到模型输出。将模型的输出映射为对应的语义tag。

*此产品及展示信息均由百度智能云官方提供。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

THUNews文本分类比赛

通过前面情感分析章节的学习，大家已经清楚了自然语言处理建模的一般步骤：

读取文本数据，并将其转化为字典中对应字或词的ID，然后输入给模型
将字或词对应的ID映射为对应的词向量embedding
模型根据embedding进一步计算，得到模型输出
将模型的输出映射为对应的语义tag

在本节中，希望大家能够根据自己学到的知识，基于THUCNews数据集实现一个文本分类模型，对新闻标题进分类。 THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

为了方便大家处理数据，除了训练、测试、验证集之外，我们还提供了一份字典文件，可用于将字转换为词典ID；提供了一份标签文件，可用于将"财经"、"彩票"等标签映射为对应的标签ID，详细数据说明如下：

dict.txt: 字典文件，用于将字转换为词典ID
tag.txt: 标签映射文件，用于将标签映射为不同标签ID
train.tsv: 训练数据，每列以\t分割
val.tsv: 验证数据，每列以\t分割
test.tsv: 测试数据，每列以\t分割请大家基于以上THUCNews数据，设计模型实现文本分类任务.

# coding=utf-8 import os import paddle import numpy as np from multiprocessing import cpu_count
print(paddle.__version__)

class Classifier(paddle.nn.Layer): def __init__(self): # 请在此初始化网络层或者参数 ...

def forward(self): # 请在此实现模型前向传播代码 ... def load_data(data_path): #

 请在此加载数据，并转换为给到模型的数据格式 ... def train(model, train_set): # 加载训练数据

# 开始模型训练 # 保存模型 ... def test(mode, test_set): # 加载测试数据 # 加载训练好的模型 # 进行模型测试 ...

相似文档

零基础实践深度学习第七章：推荐系统（上） - 推荐系统介绍
当我们苦于听到一段熟悉的旋律而不得其名，看到一段电影片段而不知其出处，心中不免颇有遗憾。在另外一些场景，我们偶然间在某些音乐平台、视频平台的推荐页面找到了心仪的音乐、电影，内心却是极其激动的。这些背后往往离不开推荐系统的影子。那究竟什么是推荐系统呢？在此之前，我们先了解一下推荐系统产生的背景。
零基础实践深度学习第七章：推荐系统（上） - 数据处理与读取
数据集回顾：在进行数据处理前，我们先回顾下本章使用的ml-1m电影推荐数据集。 ml-1m是GroupLens Research从MovieLens网站上收集并提供的电影评分数据集。包含了6000多位用户对近3900个电影的共100万条评分数据，评分均为1～5的整数，其中每个电影的评分数据至少有20条。
零基础实践深度学习第七章：推荐系统（下） - 电影推荐模型设计
模型设计的代码需要用到上一节数据处理的Python类，定义如下： import random import numpy as np from PIL import Image class MovieLen(object): def __init__(self, use_poster):
零基础实践深度学习第七章：推荐系统（下） - 模型训练与特征保存
启动训练前，复用前面章节的数据处理和神经网络模型代码，已阅读可直接跳过。 import random import numpy as np from PIL import Image import paddle from paddle.nn import Linear, Embedding, Conv2D import paddle.nn.functional as F import math
零基础实践深度学习第七章：推荐系统（下） - 电影推荐
训练并保存好模型，我们可以开始实践电影推荐了，推荐方式可以有多种，比如：根据一个电影推荐其相似的电影。根据用户的喜好，推荐其可能喜欢的电影。给指定用户推荐与其喜好相似的用户喜欢的电影。这里我们实现第二种推荐方式，另外两种留作实践作业。

文档中心

全民上云·上云补贴申领

免费试用（限企业）

THUNews文本分类比赛