GitHub

Quora Question Pairs （短文本主题相似）

使用Siamese网络结构：

采用BLSTM最后一个神经元的输出，训练准确率９３，测试准确率为８３过拟合解决方法：期权，正则，但是还没有做．数据预处理还没有做完．
单层LSTM有问题，可以继续搞一搞，但基本知道什么问题了

数据（data文件夹）

/data/csv/train.csv : Quora公开的数据集，具有数据标签
/data/csv/test_part_aa, /data/csv/test_part_bb : 测试数据（test.py）split之后的数据，可以使用cat连接数据。
/data/vovab.model : VocabularyProcessor的模型（max_length = 60）
/data/lr_sentiment.model : logistics regression回归模型，用来预测情感正负性
/data/xgb_sentiment.model : xgboost回归模型，用来预测情感正负性
/data/

代码组织结构


    ├── PreProcess.py 数据预处理
    ├── README.md
    ├── cnn_src
    │   ├── cnn.py:    cnn网络
    │   └── train.py:    cnn网络的训练
    ├── data
    │   ├── csv
    │   │   ├── Tweets.csv:     推特数据（用来做情感分析）
    │   │   ├── new.csv.zip
    │   │   ├── test.csv：       test数据集
    │   │   ├── test.csv.zip：   test数据集的压缩包
    │   │   ├── test_part_aa：   test数据集分割的第一部分
    │   │   ├── test_part_ab：   test数据集分割的第二部分
    │   │   ├── train.csv：     训练数据集
    │   │   ├── train_test.csv： 分割训练数据集的测试数据，包括新特征
    │   │   └── train_train.csv： 分割训练数据集的训练数据，包括新特征
    │   ├── feature.pkl：    特征
    │   ├── feature.pkl.zip
    │   ├── lr_sentiment.model：   情感分析的logistic regression模型
    │   ├── pkl
    │   │   ├── ans.pkl
    │   │   ├── bag.pkl
    │   │   ├── extra_feature.pkl：   训练数据集的extral feature（分成测试部分和训练部分，每个部分都是样本个数*17）
    │   │   ├── feature_old.pkl
    │   │   ├── test_distance.pkl：   测试集（需要提交到kaggle的测试数据集）的距离特征
    │   │   ├── train.pkl
    │   │   └── train_distance.pkl：   训练集的距离特征
    │   ├── stop_words_eng.txt
    │   ├── vocab.model
    │   ├── word_vec
    │   │   └── xgb_sentiment.model
    ├── edit_distance.cpp
    ├── extral_features.py：提取extral feature
    ├── integration
    │   ├── integration.py：模型融合的代码（包含CNN和LSTM）
    │   └── train.py：训练融合模型的代码
    ├── lstm_src
    │   ├── lstm.py
    │   └── train.py
    ├── rnn_src
    │   ├── siamese_network.py
    │   └── train.py
    ├── summary
    ├── test.py
    └── 论文


extral_features.py：提取extral feature：
	class sentiment
	    :param twitter_path: 推特数据的路径
	    :param xgboost_path: xgboost模型情感分析的dump的路径和名称
	    :param lr_path： lr模型情感分析的dump的路径和名称
	
	class ManualFeatureExtraction
	    :param feature_path: 提取extra feature之后dump的路径（/data/feature.pkl）
	    :param data_file: 训练数据集：/data/csv/train.csv
	    :param lr_path: 逻辑回归模型的路径：/data/lr_sentiment.model
	    
	    :function tf_idf_word_match: 利用tf_idf值计算匹配程度
	    :function length_difference: 计算句子长度差值
	    :function LongCommonSequence: 句子的最长公共子序列
	    :function edit_distance_word: 句子之间的编辑距离
	    :function fuzzy_ratio: 计算句子之间的ratio
	    :function main: 计算句子的情感极性，并且综合前面的函数，计算出所有的数据，并且dump所有的手动提取的特征。
	    
	class distance
	    :param data_path: 数据
	    :param word2vecpath: Wordvec的路径
	    :param pkl: 距离特征的路径

PreProcess.py：预处理数据和生成新的数据：
	:function preprocess_tocsv: 统计数据并且生成相关图
	:function pre_split_train: 生成最后使用的数据
	                           包括train_test: 前五千条数据，用来测试
	                           同时包括train_train: 后面所有的数据，用来训练

	class data
		:param train_file_path: 训练数据文件路径
		:param test_file_path: 测试数据文件路径
		:param stop_words_file: 停用词文件

Contrastive Loss (博客链接)


http://blog.csdn.net/autocyz/article/details/53149760

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Quora Question Pairs （短文本主题相似）

使用Siamese网络结构：

数据（data文件夹）

代码组织结构

Contrastive Loss (博客链接)

相关参考资料和论文

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
cnn_src		cnn_src
data		data
integration		integration
lstm_src		lstm_src
papers		papers
rnn_src		rnn_src
论文		论文
PreProcess.py		PreProcess.py
README.md		README.md
edit_distance.cpp		edit_distance.cpp
extral_features.py		extral_features.py

CementMaker/Quora_query

Folders and files

Latest commit

History

Repository files navigation

Quora Question Pairs （短文本主题相似）

使用Siamese网络结构：

数据（data文件夹）

代码组织结构

Contrastive Loss (博客链接)

相关参考资料和论文

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages