【谷歌官方】CVPR最强总结：5位主席21篇论文，最关注数据

【新智元导读】CVPR 2017，作为会议的白金赞助商，谷歌表现强势，有超过 250 人参会，并且有 21 篇论文被接收。一起来看看。根据谷歌官方的数据，这次 CVPR 2017 共有 21 篇文章被接收。这些论文覆盖的方向也很广，从技术到应用到理论都有。其中，讨论最多的是数据相关的内容，包括推出带有边界框的 YouTube 视频数据集，以及通过半监督和无监督的方法利用没有人工标记的数据。

CVPR 2017上，来自谷歌的主席们：

企业关系主席：韩玫（Mei Han）

韩玫是谷歌研究科学家。她已发表超过30篇有关视频分析、视觉跟踪、物体检测、几何建模、图像处理、计算机视觉、多媒体处理以及计算机图形学的会议论文。加入谷歌之前，韩玫曾是美国NEC实验室研究员。韩玫本科、硕士、博士毕业于清华大学计算机科学与技术专业，并于2001年获得卡内基梅隆大学机器人学博士学位。

领域主席：Alexander Toshev, 刘策（Ce Liu）, Vittorio Ferrari, David Lowe

我们重点关注谷歌这本届CVPR 所发表的论文：

根据谷歌官方的数据，这次 CVPR 2017 共有 21 篇文章被接收。这些论文覆盖的方向也很广，从技术到应用到理论都有。其中，讨论最多的是数据相关的内容，包括推出带有边界框的 YouTube 视频数据集，以及通过半监督和无监督的方法利用没有人工标记的数据。

应用方面，图说生成、视频摘要（总结）、人脸识别、野外多人姿态估计都有论文入选。此前新智元曾经报道过的全分辨率图像压缩，也是谷歌在今年 CVPR 的一个重点。

《现代卷积物体识别方法在速度和精度方面的权衡比较》可以算理论研究。

论文列表

使用点击监督学习训练物体识别检测器

Training object class detectors with click supervision

Dim Papadopoulos, Jasper Uijlings, Frank Keller, Vittorio Ferrari

使用对抗生成网络进行像素级的无监督领域适应

Unsupervised Pixel-Level Domain Adaptation With Generative Adversarial Networks

Konstantinos Bousmalis, Nathan Silberman, David Dohan, Dumitru Erhan, Dilip Krishnan

BranchOut：用于在线聚合追踪的卷积神经网络的正则化技术

BranchOut: Regularization for Online Ensemble Tracking With Convolutional Neural Networks

Bohyung Han, Jack Sim, Hartwig Adam

通过视觉-语言嵌入提升视频内容总结

Enhancing Video Summarization via Vision-Language Embedding

Bryan A. Plummer, Matthew Brown, Svetlana Lazebnik

通过联想进行学习—训练神经网络的多用途的半监督方法

Learning by Association—A Versatile Semi-Supervised Training Method for Neural Networks

Philip Haeusser, Alexander Mordvintsev, Daniel Cremers

使用上下文无关的监督学习生成适合上下文的图说

Context-Aware Captions From Context-Agnostic Supervision

Ramakrishna Vedantam, Samy Bengio, Kevin Murphy, Devi Parikh, Gal Chechik

残差网络的空间适应计算时间

Spatially Adaptive Computation Time for Residual Networks

Michael Figurnov, Maxwell D. Collins, Yukun Zhu, Li Zhang, Jonathan Huang, Dmitry Vetrov, Ruslan Salakhutdinov

Xception：使用在宽度上相互独立的卷积进行深度学习

Xception: Deep Learning With Depthwise Separable Convolutions

Fran?ois Chollet

通过设施定位进行深度指标学习

Deep Metric Learning via Facility Location

Hyun Oh Song, Stefanie Jegelka, Vivek Rathod, Kevin Murphy

现代卷积物体识别方法在速度和精度方面的权衡比较

Speed/Accuracy Trade-Offs for Modern Convolutional Object Detectors

Jonathan Huang, Vivek Rathod, Chen Sun, Menglong Zhu, Anoop Korattikara, Alireza Fathi, Ian Fischer, Zbigniew Wojna, Yang Song, Sergio Guadarrama, Kevin Murphy

使用面部等同特征合成正则化人脸

Synthesizing Normalized Faces From Facial Identity Features

Forrester Cole, David Belanger, Dilip Krishnan, Aaron Sarna, Inbar Mosseri, William T. Freeman

野外多人姿态精确估计

Towards Accurate Multi-Person Pose Estimation in the Wild

George Papandreou, Tyler Zhu, Nori Kanazawa, Alexander Toshev, Jonathan Tompson, Chris Bregler, Kevin Murphy

看！通过多模式对话发现物体

GuessWhat?! Visual Object Discovery Through Multi-Modal Dialogue

Harm de Vries, Florian Strub, Sarath Chandar, Olivier Pietquin, Hugo Larochelle, Aaron Courville

学习辨别和变换协变局部特征检测器

Learning discriminative and transformation covariant local feature detectors

Xu Zhang, Felix X. Yu, Svebor Karaman, Shih-Fu Chang

使用 RNN 进行全分辨率图像压缩

Full Resolution Image Compression With Recurrent Neural Networks

George Toderici, Damien Vincent, Nick Johnston, Sung Jin Hwang, David Minnen, Joel Shor, Michele Covell

通过最小限度的监督，从大规模噪音数据集中学习

Learning From Noisy Large-Scale Datasets With Minimal Supervision

Andreas Veit, Neil Alldrin, Gal Chechik, Ivan Krasin, Abhinav Gupta, Serge Belongie

视频宽度和自运动无监督学习

Unsupervised Learning of Depth and Ego-Motion From Video

Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe

视觉导航的认知映射和规划

Cognitive Mapping and Planning for Visual Navigation

Saurabh Gupta, James Davidson, Sergey Levine, Rahul Sukthankar, Jitendra Malik

快速傅里叶色彩常数

Fast Fourier Color Constancy

Jonathan T. Barron, Yun-Ta Tsai

论可见水印的有效性

On the Effectiveness of Visible Watermarks

Tali Dekel, Michael Rubinstein, Ce Liu, William T. Freeman

YouTube边界框：用于视频物体检测的大规模高精度人为注释数据集YouTube-BoundingBoxes: A Large High-Precision Human-Annotated Data Set for Object Detection in Video

Esteban Real, Jonathon Shlens, Stefano Mazzocchi, Xin Pan, Vincent Vanhoucke

部分论文介绍

使用点击监督学习训练物体识别检测器

摘要

训练物体类别检测器（object class detector）通常需要大量属于同一类别的图像，而且这些图像中的物体要有边界框注释。但是，手动绘制边界框非常耗时。在本文中，我们通过提出中心点击注释（center-click annotation），大大减少了注释时间：先构建一个紧密包围物体实例的虚构边界框，再让注释器点击这个边界框的中心。然后，将这些点击合并到现有的用于弱监督物体定位的多实例学习技术（Multiple Instance Learning）中，从而在所有训练图像上共同定位对象边界框。

我们在 PASCAL VOC 2007 和 MS COCO 上进行了大量实验，并表明：（1）新方案提供了一个高质量的检测器，性能不仅远优于弱监控技术产生的检测器，还进行了额外的注释工作；（2）这些检测器绘制的边界框与人工绘制的边界框十分接近；（3）新方案将总的注释时间缩短了 9 倍到 18 倍。

使用生成对抗网络进行无监督像素级的领域适应

摘要

使用带有精心注释的图像数据集来训练现代机器学习算法，对于许多任务来说都是非常昂贵的。一个很有吸引力的替代方案是渲染合成数据，其中 ground-truth 注释会自动生成。不幸的是，纯粹在渲染图像上进行训练的模型通常不能推广到真实图像。为了解决这个缺点，此前有研究引入无监管的领域自适应算法，尝试在两个域之间映射表示，或者学习提取不变的特征。在这项工作中，我们提出了一种新的方法，以无监督的方式学习实现从一个域到另一个域在像素空间上的转换。我们基于生成对抗网络（GAN）的模型能够适应源域映像，就像从目标域中绘制的一样。我们的方法不仅产生了合理的样本，而且在一些无监督的域适应场景中也远远胜过最先进的技术。最后，我们展示了适应过程生成了在训练过程中没有见过的物体类别。

通过视觉-语言嵌入提升视频内容总结

摘要

本文解决视频摘要的问题，也就是将原始视频转换为较短的形式，同时保持原始故事不变。我们表明，以自由形式语言监督的视觉表示非常适用于这种应用。我们对两个不同的数据集——UT Egocentric 和 TV Episodes 进行评估，并且表明，与标准视觉特征相比，我们的新目标改进了总结性能。实验还表明，视觉语言嵌入不需要对领域特定数据进行训练，可以从标准静态图像视觉语言数据集中学习并转移到视频。我们的模型的另一个好处是，能够在测试时间引导使用自由格式文本输入的摘要，从而允许用户定制。

通过联想进行学习—训练神经网络的多用途半监督方法

摘要

在许多现实世界场景中，用于特定机器学习任务的标记数据获取成本很高。半监督训练方法利用大量可用的未标记数据和较少量的标记样本相结合的数据。我们提出了一个新的框架，用于深度神经网络的半监督训练，这种方法受人类学习的启发。将已标记的样本嵌入到未标记的样本中生成“联想”。作者设计了优化函数，鼓励正确的联想（从一个物体类别开始，在训练周期结束后终于同一个物体类别），惩罚那些错误的关联（在训练结束后，被归于不同类别的数据）。该实现易于使用，可以添加到任何现有的端到端训练设置中。我们展示了通过联想在多个数据集上学习的功能，并表明可以通过使用附加的未标记数据来极大地提高分类任务的性能。特别是对于几乎没有标记数据的情况，我们的训练计划胜过SVHN 的现有最佳技术水平。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。