Kaggle 的 NLP 比赛 Quora Insincere Questions Classification 总结
比赛简介
这是一个二分类的问题, 目标是给定的Quora中的问题文本序列, 判断该问题是否为一个真诚的问题(insincere classification)训练集样本数1306122条Quora问题文本序列, 第一阶段测试集样本数56370条. 这是一个kernel-only的比赛, 即所有的提交结果必须通过kaggle提供的kernel环境执行生成(如果使用Telsa K80显卡则限kernel运行时间2h, 不使用显卡则为6h, 内存16G), 此外不允许连接互联网及使用任何外部数据, Kaggle官方提供了4个Embedding文件, 包括GloVe、Paragram、WikiNews(Fasttext)和GoogleNews(Word2Vec)四种预训练词向量
more >>