===================================================================== A Neural Attention Model for Sentence Abstractive Summarization ===================================================================== Authors -------- Alexander M.Rush, (现在哈佛任助理教授,主要做 data-driven的工作,把DL与structure-prediction 结合) Corpra Sumit, Weston Jason 整个工作是facebook的。 个人评价 ----------- 开坑之作。现在来看觉得训练数据很有问题:为啥用1st sentence作为输入就可以生成headline呢? 这点站不住脚。 构建训练集 ----------- **核心方法**: 对Gigaword (Graff et al., 2003; Napoles et al., 2012), 将 headline 与 文章第一句 作为输入,即 :: (first-sentence-of-article, headline) 得到 9.5 百万的输入; **启发式过滤**:因为Gigaword contains mainly spurious headline-article pairs, 所以启发式地对以下情况做过滤: 1. 如果除去停用词就没有词了 (no non-stop-words) 2. 标题有 作者信息(byline) 或者 无关的编辑标记 (extraneous editing marks) 3. 有问题标题或者冒号 过滤后只有 4 万的输入; **基础预处理**: 1. PTB tokenization 2. lower-casing 3. replace all digit with # 4. replace word-type seen less than 5 times with UNK **词表统计**: 输入(first-sentence-of-article): 119million tokens, 110K unique word-types (average 31.3 words per. sent) 摘要/标题(headline): 31 million tokens, 69K unique word-types (average 8.3 words per. headline) **额外过滤**: 因为模型训练出来要在DUC-2004上做evalution,所以去掉了 DUC-2004 时间区间的文章。 (没说影响的文章数有多少)