文档简介:
通过前面情感分析章节的学习,大家已经清楚了自然语言处理建模的一般步骤:
在本节中,希望大家能够根据自己学到的知识,基于THUCNews数据集实现一个文本分类模型,对新闻标题进分类。 THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
为了方便大家处理数据,除了训练、测试、验证集之外,我们还提供了一份字典文件,可用于将字转换为词典ID;提供了一份标签文件,可用于将"财经"、"彩票"等标签映射为对应的标签ID,详细数据说明如下:
THUNews文本分类比赛
# coding=utf-8 import os import paddle import numpy as np from multiprocessing import cpu_count
print(paddle.__version__)
class Classifier(paddle.nn.Layer): def __init__(self): # 请在此初始化网络层或者参数 ...
def forward(self): # 请在此实现模型前向传播代码 ... def load_data(data_path): #
请在此加载数据,并转换为给到模型的数据格式 ... def train(model, train_set): # 加载训练数据
# 开始模型训练 # 保存模型 ... def test(mode, test_set): # 加载测试数据 # 加载训练好的模型 # 进行模型测试 ...