论文地址:https://arxiv.org/abs/2205.06175v3 论文 7:Solving Quantitative Reasoning Problems with Language Models 来自谷歌的研究者提出了一种叫作 Minerva 的深度学习语言模型,可以通过逐步推理解决数学定量问题。其解决方案包括数值计算、符号操作,而不需要依赖计算器等外部工具。 此外,Minerva 还结合了多种技术,包括小样本提示、思维链、暂存器提示以及多数投票原则,从而在 STEM 推理任务上实现 SOTA 性能。 Minerva 建立在 PaLM(Pathways Language Model ) 的基础上,在 118GB 数据集上进一步训练完成,数据集来自 arXiv 上关于科技方面的论文以及包含使用 LaTeX、MathJax 或其他数学表达式的网页的数据进行进一步训练。 下图为 Minerva 解决问题示例展示:
论文地址:https://arxiv.org/abs/2206.14858 论文 8:No Language Left Behind: Scaling Human-Centered Machine Translation 来自 Meta AI 的研究者发布了翻译模型 NLLB(No Language Left behind ),直译为「一个语言都不能少」,其可以支持 200 + 语言之间的任意互译,除了中英法日等常用语种翻译外,NLLB 还能对包括卢干达语、乌尔都语等在内的许多小众语言进行翻译。 Meta 宣称,这是全球第一个以单一模型对应多数语言翻译的设计,他们希望借此能够帮助更多人在社群平台上进行跨语言互动,同时提高用户在未来元宇宙中的互动体验。
论文地址:https://arxiv.org/abs/2212.04356 论文 11:Make-A-Video: Text-to-Video Generation without Text-Video Data 来自 Meta AI 的研究者提出了一种最先进的文本到视频模型:Make-A-Video,可以将给定的文本提示生成视频。 Make-A-Video 有三个优点:(1)它加速了 T2V(Text-to-Video)模型的训练,不需要从头开始学习视觉和多模态表示,(2)它不需要配对的文本 - 视频数据,(3)生成的视频继承了当今图像生成模型的多项优点。 该技术旨在实现文本到视频生成,仅用几个单词或几行文本就能生成独一无二的视频。如下图为一只狗穿着超级英雄的衣服,披着红色的斗篷,在天空中飞翔:
论文地址:https://arxiv.org/abs/2209.14792 论文 12:Galactica: A Large Language Model for Science 近年来,随着各学科领域研究的进步,科学文献和数据呈爆炸式增长,使学术研究者从大量信息中发现有用的见解变得越来越困难。通常,人们借助搜索引擎来获取科学知识,但搜索引擎不能自主组织科学知识。 最近,Meta AI 的研究团队提出了一种新的大型语言模型 Galactica,可以存储、组合和推理科学知识。Galactica 可以自己总结归纳出一篇综述论文、生成词条的百科查询、对所提问题作出知识性的回答。