书签分享收藏举报版权申诉 / 7

立即下载

当前位置：首页 > 技术资料 > 技术方案 > 利用卷积神经网络（cnn）实现文本分类.docx

利用卷积神经网络（cnn）实现文本分类.docx

上传人：暗伤

文档编号：73474643

上传时间：2023-02-19

格式：DOCX

页数：7

大小：41.17KB

( 4.5 )

《利用卷积神经网络（cnn）实现文本分类.docx》由会员分享，可在线阅读，更多相关《利用卷积神经网络（cnn）实现文本分类.docx（7页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、利卷积神经络（ cnn）实现本分类卷积神经络在情感分析中取得了很好的成果，相于之前浅层的机器学习法如 NB、 SVM效果更好，特别实在数据集较的情况下，并且 CNN不我们动去提取特征，原浅层 ML是需要进本特征提取、本特征表、归化、最后进本分类，本特征提取主要可以分为四步：（ 1）：对全部训练档进分词，由这些词作为向量的维数来

2、表本 ;（ 2）：统计每类档中所有出现的词语及其频率，然后过滤，剔除停词和单字词 ;（ 3）：统计每类内出现词语的总词频，并取若个频率更的词汇作为这类的特征词集 ;（ 4）：去除每类别中都出现的词，合并所有类别的特征词集，形成总特征词集，最后得到的特征词集是我们到的特征集合，再该集合去筛选测试集中的特征。本的特征表是利 TF-IDF公式来

3、计算词的权值，这也充分利的是特征提取时提取的特征来计算特征权值的，归化处理需要处理的数据，经过处理后限制在定范围内，经过处理后，我们原来的本信息已经抽象成个向量化的样本集，然后将样本集和训练好的模板进相似度计算，若属于该类别，则与其他类别的模板件进计算，直到分进相应的类别，这是浅层 ML进本分类的式；CNN进本分类相对简单些，我结合最近做的些实验总结了下：在利

4、CNN进本分类的时候，先要将原始本进预处理，主要还是分词、去除停词等，然后对预处理后的本进向量化利 word2vec，我利的时word2vec中的 skip-gram模型，将搜狗数据集表为了 200维的词向量形式;转化为词向量后就可以将每句话转化为个矩阵的形式，这样就跟利 CNN处理图像分类很相似;说下实验，我的实验环境：# encoding=utf-from future import unicode_literalsimport tensor

5、flow as tf import numpyas npclass TextCNN(object):使 CNN 于情感分析整个 CNN架构包括词嵌层，卷积层，max-pooling层和 softmax层def init (self, sequence_length, num_classes,vocab_size,embedding_size, embedding_table, filter_sizes, num_filters, l2_reg_lambda=0.0):# 输，输出， dropout的 placeholderself.input_x= tf.place

6、holder(tf.int32, None, sequence_length, name=input_x)self.input_y= tf.placeholder(tf.float32, None, num_classes, name=input_y) self.dropout_keep_prob = tf.placeholder(tf.float32, name=dropout_keep_prob)#eeping track of l2 regularization loss (optional) l2_loss = tf.constant(0.0)# 词嵌层with tf.device(

7、/cpu:0), tf.name_scope(embedding):W = tf.Variable(embedding_table,name=W)#embedding_table就是词向量表， W还有另种简单的表达#W=tf.Variable(vocab_size,embedding_size,-1.0,1.0),随机初始化这个词向量表；self.embedded_chars = tf.nn.embedding_lookup(W, self.input_x)#这个 tf.nn.embedding_lookup()的作就是从词向量表中去找i

8、nput_x所对应的词向量；self.embedded_chars_expanded = tf.expand_dims(self.embedded_chars, -1)tensorflow1.2、 gpu1050Ti、 Ubuntu16.04、 pycharm、 python2.7#由于 CNN输都是四维，所以在最后维添加个维度，与 CNN的输维度对照起来。 # 成卷积层和max-pooling层pooled_outputs = for i, filter_size in enumerate(filter_sizes):

9、with tf.name_scope(conv-maxpool-%s % filter_size): # Convolution Layerfilter_shape = filter_size, embedding_size, 1, num_filtersW = tf.Variable(tf.truncated_normal(filter_shape, stddev=0.1), name=W) b = tf.Variable(tf.constant(0.1, shape=num_filters), name=b)conv = tf.nn.conv2d( self.embedded_chars_

10、expanded, W,strides=1, 1, 1, 1, padding=VALID, name=conv)# Applynonlinearity# h = tf.nn.relu(tf.nn.bias_add(conv, b), name=relu) h=tf.nn.relu6(tf.nn.bias_add(conv,b),name=relu)#axpooling over the outputs # pooled = tf.nn.max_pool(#h,#ksize=1, sequence_length - filter_size + 1, 1, 1,#strides=1, 1, 1,

11、 1, #padding=VALID, #name=pool)# pooled_outputs.append(pooled) pooled = tf.nn.avg_pool(h,ksize=1, sequence_length - filter_size + 1, 1, 1,strides=1, 1, 1, 1, padding=VALID, name=pool)pooled_outputs.append(pooled)# 将 max-pooling层的各种特征整合在起 num_filters_total = num_filters * len(filter_sizes)se

12、lf.h_pool = tf.concat(pooled_outputs,3)self.h_pool_flat = tf.reshape(self.h_pool, -1, num_filters_total)# 添加全连接层，于分类with tf.name_scope(full-connection):W_fc1 = tf.Variable(tf.truncated_normal(num_filters_total,500, stddev=0.1) b_fc1 = tf.Variable(tf.constant(0.1,shape=500)self.h_fc1 = tf.nn

13、.relu6(tf.matmul(self.h_pool_flat, W_fc1) + b_fc1)# 添加 dropout层于缓和过拟化with tf.name_scope(dropout):# self.h_drop = tf.nn.dropout(self.h_pool_flat, self.dropout_keep_prob) self.h_drop = tf.nn.dropout(self.h_fc1, self.dropout_keep_prob)# 产最后的输出和预测with tf.name_scope(output):# W = tf.get_variabl

14、e( #W,#shape=num_filters_total, num_classes,#initializer=tf.contrib.layers.xavier_initializer() W = tf.get_variable(W,shape=500, num_classes, initializer=tf.contrib.layers.xavier_initializer()b = tf.Variable(tf.constant(0.1, shape=num_classes), name=b) l2_loss += tf.nn.l2_loss(W)l2_loss += tf.nn.l2_

15、loss(b)self.scores = tf.nn.xw_plus_b(self.h_drop, W, b, name=scores)self.scores = tf.nn.xw_plus_b(self.h_drop, W, b, name=scores)self.predictions = tf.argmax(self.scores, 1, name=predictions)定义模型的损失函数 with tf.name_scope(loss):losses = tf.nn.softmax_cross_entropy_with_logits(logits=self.score

16、s, labels=self.input_y) self.loss = tf.reduce_mean(losses) + l2_reg_lambda * l2_loss定义模型的准确率 with tf.name_scope(accuracy):correct_predictions = tf.equal(self.predictions, tf.argmax(self.input_y, 1) self.accuracy = tf.reduce_mean(tf.cast(correct_predictions, float), name=accuracy)以上时 TextCNN

17、的模型结构代码，然后开始进 train，并利summary和checkpoints来记录模型和训练时的参数等等，利折交叉验证来产准确率，最后利tensorboard查看accuracy、loss、w、b等等变化图;训练py的代码：/usr/bin/env python encoding=utf-8import tensorflow as tf import numpy as np import osimport time import datetimeimport data_loaderfrom cnn_graph import Text

18、CNN from tensorflow.contrib import learn from sklearn import cross_validation import preprocessingtf.global_variables伴随tensorflow的 summary和checkout=odelyperparameterstf.flags.DEFINE_integer(embedding_dim, 200, Dimensionality of character embedding (default: 128) tf.flags.DEFINE_string(filter_sizes,

19、3,4,5, Comma-separated filter sizes (default: 3,4,5) tf.flags.DEFINE_integer(num_filters, 40, Number of filters per filter size (default: 128) tf.flags.DEFINE_float(dropout_keep_prob, 0.5, Dropout keep probability (default: 0.5) tf.flags.DEFINE_float(l2_reg_lambda, 3.0, L2 regularizaion lambda (defa

20、ult: 0.0)Training parameterstf.flags.DEFINE_integer(batch_size, 50, Batch Size (default: 64) tf.flags.DEFINE_integer(num_epochs, 100, Number of training epochs (default: 200)tf.flags.DEFINE_integer(evaluate_every, 100, Evaluate model on dev set after this many steps (default: 100) tf.flags.DEFINE_in

21、teger(checkpoint_every, 100, Save model after this many steps (default: 100)isc Parameterstf.flags.DEFINE_boolean(allow_soft_placement, True, Allow device soft device placement) tf.flags.DEFINE_boolean(log_device_placement, False, Log placement of ops on devices)w2v件路径tf.flags.DEFINE_string(w2v_path

22、, ./w2v_model/retrain_vectors_100.bin, w2v file) tf.flags.DEFINE_string(file_dir,./data_process/jd,train/test dataSet)FLAGS = tf.flags.FLAGS FLAGS._parse_flags() print(nParameters:)for attr, value in sorted(FLAGS. flags.items(): print(=.format(attr.upper(), value)print()Data Preparatopn=Load dataLoa

23、d data print(Loading data.)files = reviews.neg,reviews.pos加载所有的未切分的数据 x_text, y_labels,neg_examples,pos_examples = data_loader.load_data_and_labels(data_dir=FLAGS.file_dir,files=files,splitable=False)获取消极数据的2得 ,到的评论的长度离散度更低 neg_accept_length = preprocessing.freq_factor(neg

24、_examples,percentage=0.8, drawable=False) neg_accept_length = item0 for item in neg_accept_lengthneg_examples = data_loader.load_data_by_length(neg_examples,neg_accept_length)获取积极数据的2得 ,到的评论的长度离散度更低 pos_accept_length = preprocessing.freq_factor(pos_examples,percentage=0.8, drawable=

25、False) pos_accept_length = item0 for item in pos_accept_lengthpos_examples = data_loader.load_data_by_length(pos_examples,pos_accept_length)x_text = neg_examples + pos_examples neg_labels = 1,0 for _ in neg_examples pos_labels = 0,1 for _ in pos_examplesy_labels = np.concatenate(neg_labels,pos_label

26、s, axis=0) print(Loading data finish)uild vocabularymax_document_length = max(len(x.split( ) for x in x_text)最长的句的长度 print(max_document_length)vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length) x = np.array(list(vocab_processor.fit_transform(x_text)加载提前训练的w2v数据集

27、word_vecs = data_loader.load_bin_vec(fname=FLAGS.w2v_path, vocab=list(vocab_processor.vocabulary_._mapping),ksize=FLAGS.embedding_dim)加载嵌层的tableW = data_loader.get_W(word_vecs=word_vecs, vocab_ids_map=vocab_processor.vocabulary_._mapping, k=FLAGS.embedding_dim,is_rand=False)随机化数据 np.random.seed(1

28、0)shuffle_indices = np.random.permutation(np.arange(len(y_labels) x_shuffled = xshuffle_indicesy_shuffled = y_labelsshuffle_indicesout_path = os.path.abspath(os.path.join(os.path.curdir, runs,parameters) parameters = 新全连接+jd数据 +10n embedding_dim: ,n filter_sizes:,n num_filters:,n dropout_keep_prob:

29、,n l2_reg_lambda:,n num_epochs:,n batch_size:.format(FLAGS.embedding_dim,FLAGS.filter_sizes,FLAGS.num_filters, FLAGS.dropout_keep_prob,FLAGS.l2_reg_lambda,FLAGS.num_epochs, FLAGS.batch_size)open(out_path, w).write(parameters)raining=def train(X_train, X_dev, x_test, y_train, y_dev, y_test): with tf.

30、Graph().as_default():session_conf = tf.ConfigProto( allow_soft_placement=FLAGS.allow_soft_placement, log_device_placement=FLAGS.log_device_placement) sess = tf.Session(config=session_conf)log_device_placement=FLAGS.log_device_placement) sess = tf.Session(config=session_conf)with sess.as_default(): c

31、nn = TextCNN(sequence_length=max_document_length, num_classes=2, vocab_size=len(vocab_processor.vocabulary_), embedding_size=FLAGS.embedding_dim, embedding_table=W,filter_sizes=list(map(int, FLAGS.filter_sizes.split(,), num_filters=FLAGS.num_filters, l2_reg_lambda=FLAGS.l2_reg_lambda)efine Training

32、procedureglobal_step = tf.Variable(0, name=global_step, trainable=False) optimizer = tf.train.AdamOptimizer(1e-3)grads_and_vars = pute_gradients(cnn.loss)train_op = optimizer.apply_gradients(grads_and_vars, global_step=global_step)eep track of gradient values and sparsity (optional) grad_summaries =

33、 for g, v in grads_and_vars: if g is not None:grad_hist_summary = tf.summary.histogram(/grad/hist.format(v.name), g) sparsity_summary = tf.summary.scalar(/grad/sparsity.format(v.name), tf.nn.zero_fraction(g) grad_summaries.append(grad_hist_summary)grad_summaries.append(sparsity_summary) grad_summari

34、es_merged = tf.summary.merge(grad_summaries)Output directory for models and summaries timestamp = str(int(time.time()out_dir = os.path.abspath(os.path.join(os.path.curdir, runs, timestamp) print(Writing to n.format(out_dir)Summaries for loss and accuracy loss_summary = tf.summary.scalar(loss, cnn.lo

35、ss)acc_summary = tf.summary.scalar(accuracy, cnn.accuracy)Train Summariestrain_summary_op = tf.summary.merge(loss_summary, acc_summary, grad_summaries_merged) train_summary_dir = os.path.join(out_dir, summaries, train)train_summary_writer = tf.summary.FileWriter(train_summary_dir, sess.graph)ev summ

36、ariesdev_summary_op = tf.summary.merge(loss_summary, acc_summary) dev_summary_dir = os.path.join(out_dir, summaries, dev) dev_summary_writer = tf.summary.FileWriter(dev_summary_dir, sess.graph)Checkpoint directory. Tensorflow assumes this directory already exists so we need to create it checkpoint_d

37、ir = os.path.abspath(os.path.join(out_dir, checkpoints)checkpoint_prefix = os.path.join(checkpoint_dir, model) if not os.path.exists(checkpoint_dir):os.makedirs(checkpoint_dir)saver = tf.train.Saver(tf.global_variables()Write vocabulary vocab_processor.save(os.path.join(out_dir, vocab)nitialize all

38、variables sess.run(tf.initialize_all_variables()sess.run(tf.global_variables_initializer()def train_step(x_batch, y_batch): A single training step feed_dict = cnn.input_x: x_batch, cnn.input_y: y_batch,cnn.dropout_keep_prob: FLAGS.dropout_keep_prob_, step, summaries, loss, accuracy = sess.run(train_

39、op, global_step, train_summary_op, cnn.loss, cnn.accuracy, feed_dict)_, step, loss, accuracy = sess.run(train_op, global_step, cnn.loss, cnn.accuracy, feed_dict)time_str = datetime.datetime.now().isoformat()print(: step , loss :g, acc :g.format(time_str, step, loss, accuracy) train_summary_writer.ad

40、d_summary(summaries, step)def dev_step(x_batch, y_batch, writer=None): Evaluates model on a dev set feed_dict = cnn.input_x: x_batch, cnn.input_y: y_batch,cnn.dropout_keep_prob: 1.0step, summaries, loss, accuracy = sess.run(global_step, dev_summary_op, cnn.loss, cnn.accuracy, feed_dict)step, loss, a

41、ccuracy = sess.run( global_step, cnn.loss, cnn.accuracy, feed_dict)time_str = datetime.datetime.now().isoformat()print(: step , loss :g, acc :g.format(time_str, step, loss, accuracy) if writer:writer.add_summary(summaries, step)Generate batchesbatches = data_loader.batch_iter(list(zip(X_train, y_tra

42、in), FLAGS.batch_size, FLAGS.num_epochs) raining loop. For each batch.for batch in batches:x_batch, y_batch = zip(*batch) train_step(x_batch, y_batch)current_step = tf.train.global_step(sess, global_step) if current_step % FLAGS.evaluate_every = 0:print(nEvaluation:)dev_step(X_dev, y_dev, writer=dev

43、_summary_writer) dev_step(X_dev, y_dev, writer=None)print()if current_step % FLAGS.checkpoint_every = 0:path = saver.save(sess, checkpoint_prefix, global_step=current_step) print(Saved model checkpoint to n.format(path)est loopGenerate batches for one epochbatches = data_loader.batch_iter(list(x_tes

44、t), FLAGS.batch_size, 1, shuffle=False) ollect the predictions hereall_predictions = for x_test_batch in batches:batch_predictions = sess.run(cnn.predictions, cnn.input_x: x_test_batch, cnn.dropout_keep_prob:1.0) all_predictions = np.concatenate(all_predictions, batch_predictions)correct_predictions

45、 = float(sum(all_predictions = np.argmax(y_test,axis=1)all_predictions = np.argmax(y_test,axis=1)print(Total number of test examples: .format(len(y_test) print(Accuracy: :g.format(correct_predictions / float(len(y_test)open(os.path.join(out_dir,test),a).write(Accuracy: :g.format(correct_predictions / float(len(y_test) out_path = os.path.abspath(os.path.join(os.path.curdir, runs,test) open(out_path,a).write(:g,.forma

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 利用卷积神经网络 cnn 实现文本分类

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：利用卷积神经网络（cnn）实现文本分类.docx
链接地址：https://www.taowenge.com/p-73474643.html