机器学习在过去十年里取得了长足的进步。这可以归因于处理能力的并行提高和深度学习研究的新突破。另一个重要原因是数据的积累。分析人士估计，今天人类拥有44兆字节的信息。引人注目的Open AI论文GPT-2是基于40GB的互联网数据进行培训的。这些算法以惊人的速度发展，它们对训练数据的需求也保持同步。

　　将数据输入算法的方法可以有多种形式。无监督学习需要大量的数据并识别自己的模式，以便对类似的情况做出预测。无监督学习已经应用于大型非结构化数据集，如股票市场行为或Netflix show推荐。本文将集中讨论监督学习，即人类将自己的一组标签应用于数据，以便更好地理解和分类其他数据。监督学习需要较少的数据，可以更准确，但确实需要使用标签。数据集及其相关标签被称为基本事实。我们将在下面介绍常见的监督学习用例。

　　此外，数据本身至少可以分为4种主要格式：文本、音频、图像和视频。虽然所有类型的数据都有有趣的应用，但我们将进一步深入研究文本数据，以讨论一个称为自然语言处理(NLP)的领域。

NLP的常见用例

　　一个常见的用例是通过识别和提取关键实体来理解句子或文本语料库的核心意思。此分支通常称为命名实体识别或命名实体提取。

　　在上面的例子中，Big Bird可以标识为一个字符，而门廊可能被标记为一个位置。有了足够的例子，一个模型就可以开始识别其他模式了，比如Elmo坐在门廊上，或者Cookie Monster站在街上。从这个玩具的例子中推断，世界各地的公司都能够使用这种方法来阅读医生的说明，并了解执行了哪些医疗程序;一个算法可以阅读商业合同，了解当事人和转手的钱有多少。

　　NLP的另一个流行领域是语义分析，这使得算法能够理解句子的语气。

NLP数据标记

　　我们可以训练一个二元分类器来理解一个句子是肯定的还是否定的。更高级的分类器可以在全谱上训练出二进制以外的分类器。情绪分析被用来理解各种各样的东西，比如购物网站上的产品评论、社交媒体上关于政治候选人的帖子以及客户体验调查。

　　NLP中其他更高级的任务包括依赖解析和语法树，这些任务允许我们分解句子的结构，以便更好地处理人类语言中的歧义。

　　由于大数据时代和云计算技术的进步，许多公司已经拥有了大量的数据。这些数据通常被称为非结构化数据或原始数据。然而，在准备好标记这些数据之前，通常需要对其进行处理和清理。

　　一旦你确定了你的培训数据，下一个重要的决定就是决定如何标记这些数据。要应用的标签可能导致完全不同的算法。浏览数据集的团队可能希望关注单个项目随时间推移的价格，并利用这些数据预测未来的价格。另一个可能侧重于识别商店、日期和时间戳并理解购买模式。

　　从业者将参考标签集的分类法，具体了解客户抱怨的是哪种产品?或者更具体地说，他们是否要求换货/退款、投诉缺陷、运输问题等。

　　我们已经为标记数据建立了存在的理由，那么怎么开始呢?

　　许多数据科学家和学生从给数据本身贴标签开始，这样做的好处是在标记的数据上保持接近地面。

　　为了扩展到训练算法所需的大量标签并节省时间，公司可以选择聘请专业服务。标签服务的选择会对培训数据的质量、所需时间和所需花费的资金产生重大影响。

众包服务

　　Amazon Mechanical Turk成立于2005年，旨在将简单的任务外包给全世界分散的“人群”。我们也看到了专门从事人工智能服务的公司的崛起。一些顶级公司包括Appen、Playment、Samasource和iMerit。这些公司会收取你的数据，并在他们的平台上设置标签任务。世界各地注册了他们的服务的贴标者可以标记您的数据。使用这些公司的优势包括弹性伸缩性和效率。由于他们平台上有很多贴标器，他们通常可以比任何其他选项更快地完成对数据的标记。他们还将为工作带来专业知识，建议你如何验证数据质量，或建议如何抽查工作质量，以确保符合你的标准。缺点包括更高的价格、更高的数据质量差异和潜在的数据泄露。这些公司通常会对数据标签服务收取相当大的利润，并要求对标签的数量设置一个阈值。完全的众包解决方案也会受到那些在系统中玩游戏和创建假帐户的标签商的影响。我们已经看到数据泄露公开让Facebook、Amazon和Apple等公司感到尴尬，因为这些数据可能落入世界各地陌生人的手中。

　　另一类标签公司包括CloudFactory和DataPure。他们的贴标工是全职的，受过全面培训。这有利于提高质量，同时也提高成本。

内部贴标

　　为了应对上述挑战，一些公司选择内部雇佣贴标工。这样可以更好地控制数据输出的访问和质量。然而，这种选择也有其自身的缺点。有时候模特们需要及时接受培训，以满足商业的最后期限。有可能在2周内将50万个标签外包给专业的标签服务，但这种能力很难在内部建立起来。内部团队需要更多的计划，并且需要在项目时间安排上做出妥协。此外，建立运营服务需要一套新的技能，这些技能并不总是与公司的专业知识相吻合。

　　许多公司还选择将两者结合起来——使用内部标记劳动力来完成重复性或任务关键性工作，同时通过外包解决方案补充突发性的数据需求。

标记工具

　　现在你有了你的数据，你的标签集和你的贴标机到底是怎么做的?年轻的ML行业在方法上仍然有很大的差异。

　　最常见的起点是Excel/Google电子表格。这个界面是可服务的，普遍理解的，需要一个相对较低的学习曲线。它处理常见的标记任务，如词性和命名实体识别标记。电子表格的缺点是它的接口不是为这个任务而创建的。此外，它很容易出错。打字更容易，单元格列不是阅读文本文档最直观的方式。某些类型的标记(如依赖关系解析)根本无法使用电子表格。最重要的是，这种方法不可扩展，因为您的需求将扩展到更高级的界面和劳动力管理解决方案。

　　更先进的NLP公司的标准是转向开源社区。像brat和WebAnno这样的工具是流行的标签工具。这些都是考虑到标签，提供了广泛的定制。它们可以自由设置和托管，并处理更高级的NLP任务，例如依赖关系标记。缺点是学习曲线更高，需要一定程度的训练和调整。直接的客户支持是有限的。这些工具也处于不同的维护级别，因为它们依赖于开源社区来进行改进和bug修复。

　　其他人仍然选择在内部构建自己的工具。与您自己的堆栈完全集成有好处。然而，构建内部工具需要投入工程时间，不仅要建立初始工具，而且还要进行持续的支持和维护。

　　也可以使用商业工具。包括Prodigy、LightTag、TagTog和数据仓库.ai。这些公司提供不同价位的标签工具。与开源工具类似，它们提供可定制性并处理高级NLP任务。其他需要考虑的功能包括标签团队的团队管理工作流、贴标机性能报告、数据许可、on-prem功能和半自动标记。半自动贴标是一个相对较新的发展，使您的贴标机有一个领先的标签时。与从头开始标记所有内容不同，可以插入一个模型来标记常见的英语术语。

　　在最终的情况下，选择正确的工具可以使最终的工作产生显著的不同。考虑的因素应该包括针对特定任务的界面的直观性。他们专门从事什么类型的标签工作?是否有足够的可定制性来满足项目的独特需求?你能从一个单一的界面组织和排列标签项目的优先级吗?当出现问题或问题时，提供何种程度的支持?你的预算拨款是多少?找出你的主要痛点，为你的工作找到正确的解决方案。

结论

　　ML是一种“垃圾输入，垃圾输出”的技术。结果模型的有效性与输入数据直接相关;因此，数据标记是训练ML算法的关键步骤。实际上，增加训练数据的数量和质量是改进算法的最有效方法。随着ML的日益普及，标记任务将继续存在。在设置或重新检查自己的标签过程时，请检查以下内容：

数据源

1.你将如何收集数据?

2.你要怎么清洗它?

标签集

1.为了训练你的模型，你需要输入什么类型的标签?

2.您的模型要做出正确的预测，在分类法中需要什么级别的粒度?

3.你能先从一个更简单的模型开始，然后再改进它吗?

贴标服务

1.你会选择外部员工还是内部员工?你应该使用混合方法吗?

2.是否需要主题专家?

3.是否需要满足任何合规或监管要求?

标记工具

1.需要什么类型的接口?

2.半自动标签是否适用于您的项目?

3.需要什么级别的安全和数据许可?

4.你打算如何管理你的员工?这应该包括在软件中吗?

　　可供选择的有很多，行业仍在制定标准。但通过回答以上问题，你应该能够迅速缩小你的选择范围。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。