上云无忧 > 文档中心 > 零基础实践深度学习 第六章:情感分析 - 基于THUCNews数据集的文本分类比赛
飞桨PaddlePaddle开源深度学习平台
零基础实践深度学习 第六章:情感分析 - 基于THUCNews数据集的文本分类比赛

文档简介:
THUNews文本分类比赛: 通过前面情感分析章节的学习,大家已经清楚了自然语言处理建模的一般步骤: 读取文本数据,并将其转化为字典中对应字或词的ID,然后输入给模型。 将字或词对应的ID映射为对应的词向量embedding。 模型根据embedding进一步计算,得到模型输出。 将模型的输出映射为对应的语义tag。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

THUNews文本分类比赛

通过前面情感分析章节的学习,大家已经清楚了自然语言处理建模的一般步骤:

  • 读取文本数据,并将其转化为字典中对应字或词的ID,然后输入给模型
  • 将字或词对应的ID映射为对应的词向量embedding
  • 模型根据embedding进一步计算,得到模型输出
  • 将模型的输出映射为对应的语义tag

在本节中,希望大家能够根据自己学到的知识,基于THUCNews数据集实现一个文本分类模型,对新闻标题进分类。 THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

为了方便大家处理数据,除了训练、测试、验证集之外,我们还提供了一份字典文件,可用于将字转换为词典ID;提供了一份标签文件,可用于将"财经"、"彩票"等标签映射为对应的标签ID,详细数据说明如下:

  • dict.txt: 字典文件,用于将字转换为词典ID
  • tag.txt: 标签映射文件,用于将标签映射为不同标签ID
  • train.tsv: 训练数据,每列以\t分割
  • val.tsv: 验证数据,每列以\t分割
  • test.tsv: 测试数据,每列以\t分割 请大家基于以上THUCNews数据,设计模型实现文本分类任务.
# coding=utf-8 import os import paddle import numpy as np from multiprocessing import cpu_count
print(paddle.__version__)

class Classifier(paddle.nn.Layer): def __init__(self): # 请在此初始化网络层或者参数 ... 
def forward(self): # 请在此实现模型前向传播代码 ... def load_data(data_path): #
 请在此加载数据,并转换为给到模型的数据格式 ... def train(model, train_set): # 加载训练数据 
# 开始模型训练 # 保存模型 ... def test(mode, test_set): # 加载测试数据 # 加载训练好的模型 # 进行模型测试 ...

相似文档
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部