原文:多模态学习方法在视频理解中的应用