打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
浅谈归纳学习和转导学习

在本文中,让我们首先了解归纳学习(inductive Learning)和转导学习(Transductive Learning)的定义,然后介绍这两种学习方法的区别,最后举例说明。

了解定义

归纳

归纳是从观察到的训练实例到一般规则的推理,然后将其应用于测试实例。

归纳学习与我们通常所知的传统监督机器学习是一样的。我们基于已有标记的训练数据集构建和训练机器学习模型。然后我们使用这个训练过的模型来预测我们的测试数据集的标签。

转导

转导是从观察到的特定(训练)实例到特定(测试)实例的推理。

与归纳学习相反,转导学习技术事先观察了所有的数据,包括训练数据集和测试数据集。我们从已经观察到的训练数据集中学习,然后预测测试数据集的标签。即使我们不知道测试数据集的标签,我们也可以在学习过程中利用这些数据中的模式和其他信息。

示例性的转导学习方法包括转导SVM(TSVM)和基于图的标签传播算法(LPA)

有什么区别?

主要的区别在于,在转导学习过程中,您在训练模型时已经遇到了训练集和测试集。然而,归纳学习在训练模型时仅会遇到训练数据,并将学习到的模型应用于从未见过的数据集上。

转导不能建立预测模型。如果一个新的数据点被添加到测试数据集中,那么我们将不得不从头重新运行算法,训练模型,然后使用它来预测标签。另一方面,归纳学习建立了一个预测模型。当遇到新的数据点时,不需要从头重新运行算法。

简单地说,归纳学习试图建立一个通用模型,在这个模型中,任何新的数据点都将基于一组观察到的训练数据点进行预测。在这里,您可以预测点空间中除未标记点之外的任何点。相反,转导学习建立了一个适合它已经观察到的训练数据点和测试数据点的模型,这种方法利用已知的标记点和附加信息来预测未标记点的标记。

在引入新数据点的情况下,转导学习的成本可能会很高,每次有新数据点时,都必须重新运行所有内容。另一方面,归纳学习最初会建立一个预测模型,新的数据点可以在很短的时间内用较少的计算量标记出来。

示例演练

假设您有一组点,如图1所示。有四个标记点A,B,C和D。我们的目标是标记其余的未标记数据点(无色),编号从1至14。如果我们在这个任务中使用归纳学习,我们将不得不使用这4个标记点,并建立一个监督学习模型。

图1

粗略一看,我们可以看到有两个独立的聚类。在归纳学习中,由于我们只有很少的训练样本,因此很难建立一个能够捕捉数据完整结构的预测模型。例如,如果使用最近邻算法,则靠近边界的点(例如12和14)可能会被着色为红色而不是绿色,因为它们更靠近红色点A和B而不是绿色点C和D(如如图2所示)。

图2

如果我们有一些关于数据点的附加信息,例如基于相似度等特征的点之间的连接性信息(如图3所示),我们可以在训练模型和标记未标记点时使用这些附加信息。

图3

例如,我们可以使用转导学习方法(如半监督基于图的标签传播算法),使用所有标记和未标记点的结构信息来标记未标记点,如图4所示。沿边界的点(例如12和14)连接到的绿色点多于红色点,因此它们被标记为绿色,而不是红色。

图4

请注意,由于我们在开始时就遇到了所有训练数据点和测试数据点,并且测试数据还包含一些有用的附加信息,因此我们能够应用诸如标签传播之类的转导学习方法。如果一开始没有测试数据点,我们将不得不采用归纳学习方法。

最后

现在您已经对归纳学习和转导学习及其差异有了基本的了解,您可以在开发下一个机器学习模型时利用这些知识。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
比监督学习做的更好:半监督学习
python机器学习(1)-机器学习基本概念与流程
机器学习中的有标注数据集和无标注数据集
[量化]LARA: 一种可以获得高胜率的入场信号的方法
数据资产目录为数字化转型提供智能化数据管理能力
ICU 器官功能障碍的多任务预测
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服