【个性化】【对话生成】 本文研究的问题是如何生成个性化的对话,模型仍是基于经典的seq2seq+attention,在该模型的基础上通过两个步骤来生成特定style的对话,第一步是initialization,第二步是adaptation。工作来自哈工大 @刘挺 老师组,他们推出了一个聊天机器人 “笨笨” (可微信搜),而且具有中文阅读理解的功能。关于生成更多样的对话内容,可以参考 PaperWeekly 第十八期 --- 提高seq2seq方法所生成对话的流畅度和多样性
【对话系统】【评价】 本文研究的问题也是当前对话系统中非常关键的一个问题,如何更加准确地自动评价模型的效果,本文提出了一种新的评价方法RUBER,旨在通过生成的reply和用户的当前query来联合评判效果,建议从业者和相关研究人员精读。
【对话生成】【seq2seq】 本文研究的问题是如何生成一个又长、又多样的对话,模型仍是基于经典的seq2seq,在decoding部分,加了一个所谓的self-attention部件来保证对话长度和连贯性,在解空间中用随机beam search来搜索候选对话,然后进行重排得到最终结果。
【seq2seq】【解码】 本文的亮点在于将seq2seq模型中的解码部分转化成一个连续优化的问题,通过比较成熟的优化算法来解决解码问题,这个思路可以被应用到所有seq2seq解决方案中。
【NMT】【开源】 Harvard NLP组和SYSTRAN公司联合推出的开源机器翻译系统OpenNMT,torch实现,代码地址:https://github.com/opennmt/opennmt 主页地址:http://opennmt.net/
【词向量】将词形信息考虑在词向量模型中是一种常见的增强手段,一般的做法是将词的前缀、后缀和词根作为独立的token进行建模,而本文的思路则是用能够代表前缀、后缀意思的词来代替进行建模。
【真假多义词】 词向量是一个非常活跃的研究领域,word2vec提供了一种非常简单粗暴、充满问题的词向量,比如一个典型的问题是一词多义,于是很多的工作都是在解决一词多义的问题,但一个词对应的多个向量其实都指向同一个词义,本文的工作正是对这些伪一词多义进行识别,降低语言研究的复杂度。
【entity表示】 entity是知识图谱的基础组件,很多的entity都是罕见词(短语),entity的表示是一个相对困难的问题。本文提出了一种char-level、word-level和entity-level三种level的联合表示模型,得到了不错的效果。本文非常值得精读!数据和代码都已公开 http://cistern.cis.lmu.de/figment/
【短语对齐】 本文研究的问题是句子匹配,该问题常常被应用于文本蕴含和答案选择两个任务上,针对短语识别、表示和对齐等关键问题,本文提出了一种基于GRU的NN模型,取得了不错的效果。本文作者是@Wenpeng_Yin
【依存分析】【无监督】 本文的工作是基于pagerank和一些规则来做无监督式的依存文法分析,无监督的paper总是让人眼前一亮,EACL2017。”在现今去规则化和拼语料库的机器学习型parser盛行时,少有的使用规则,无监督的Parser。每人研究都有自己支撑点,在没有被完全推翻时,自然会坚持,不为热潮激流所动,我认为这是理性研究者的主骨,我一直有敬畏之心。尽管各家学说各异,相信还是以结果优良和可发展性为最终评价标准”(观点来自微博 王伟DL)
扫码下载所有paper pdf
阅读更多
▽ 故事
· “玩具”登上 Nature 子刊:纸片离心机,只要一块钱!
· 屠呦呦、赵忠贤问鼎2016年度国家最高科学技术奖(附奖项详解)
▽ 论文推荐
· 可以探测蜘蛛脚步的超级橡皮泥 | Science 论文推荐
· 新型材料或能连接量子物理和经典物理 | Science论文推荐
▽ 论文导读
内容合作请联系
keyanquan@huanqiukexue.com
这里是“科学美国人”中文版《环球科学》服务科研人的微信号“科研圈”。我们:
· 关注科学进展与科研生态
· 推荐重要前沿研究
· 发布科研招聘
· 推送学术讲座与会议预告。
联系客服