Skip to content Skip to footer

如何开始针对工业级问题的机器学习解决方案

image-20231222012301402

本文专为对机器学习解决方案有基本了解的专业人士而设计,这些解决方案通常通过在线课程或学位获得。这些课程通常提供准备好的数据,但在处理行业层面的问题时,往往无法获得准备好的数据。

当您开始解决行业级问题时,为机器学习解决方案准备数据会占用您的大部分时间。如果我的任务是解决机器学习问题,我会采取三个初始步骤来快速建立基本解决方案。这里的目标不是追求完美,而是创造一个可以轻松改进的基础。从本质上讲,我设置了允许使用不同算法进行实验和快速结果的系统。我的方法来自我在医疗保健、零售和媒体等行业的经验。

  1. 准备数据,包括创建标签(如果要解决监督式机器学习问题)。
  2. 确定构建模型时要使用的特征。
  3. 从基本模型开始,然后从那里发展。

准备自变量

在过去的五年里,作为一名机器学习工程师,我最大的挑战是解决一个没有标记数据的监督式机器学习问题。

在某些情况下,标记训练数据可能很简单。例如,如果您将客户评论分类为相关或不相关,则可以使用人工审核。然而,这种方法非常耗时,并且将更多人添加到流程中可能会引入偏见。

为了解决这个问题,可以建立一个标准操作程序(SOP),解释为什么审查是相关的或不相关的。然后,更多的人可以加入该过程,阅读 SOP,并相应地标记评论。

在其他情况下,确定标签以及如何获取标签可能很乏味。例如,如果你正在像“KUKUFM”这样的音频平台上解决一个排名问题,那么在训练过程中为每个内容生成一个将用作自变量的分数就成为一个挑战。

一种方法是根据节目的年龄和至少一分钟的收听次数等因素创建分数。然而,这可能并不完全准确,因为用户可能会因为朗朗上口的标题、缩略图或大量的宣传而收听节目。

更好的解决方案是从用户那里获取分数,让机器学习算法只识别训练后的重要特征。所有与内容相关的特征都成为因变量,使模型能够更好地了解哪些元素有助于获得更高的相关性分数。

因变量

数据科学领域的第二个挑战涉及从数千个选项中选择因变量的复杂任务。虽然特征消除技术可以在此选择过程中提供一些帮助,但在使用现有特征创建派生变量时,它们往往不足,尤其是当手头的数据未标记时。在这种情况下,批判性思维的价值怎么强调都不为过;它成为数据科学家工具包中必不可少的工具。

为了有效地确定哪些特征值得选择,建议考虑手动决策过程中通常使用的参数。让我们用一个实际的例子来说明这个概念。假设您正在用户友好的应用程序上从 20 个音频列表中选择内容。在此过程中,您将考虑各种因素,例如节目名称、缩略图上的图像以及为每个音频片段提供的描述。这些因素指导您的决策过程

同样,在机器学习领域,您可以遵循类似的过程来根据这些影响因素识别特征。例如,您可以轻松获取名称、描述和图像嵌入等功能。一旦你有了你的功能,结果开始浮出水面,这个过程的下一个合乎逻辑的步骤是逐步包含更复杂的功能。通过这样做,您可以逐步增强结果,进一步完善模型并提高其预测能力。

因此,我们的想法是为您的训练选择这些功能,这也有助于手动做出有关某事的决策。

快速而肮脏的基线

在开始利用机器学习解决方案的旅程时,人们经常犯的一个常见错误是将目光投向立即构建一个复杂的模型。这种方法可能会导致不必要的并发症和挫折。更有效的策略是专注于在尽可能早的阶段创建基线模型。

例如,在处理分类问题时,一个好的起点是建立逻辑回归模型。这个基本模型是一个坚实的基线,提供了一个比较基准,可以据此衡量未来的模型。

一旦此基线模型到位并充分执行,您就可以继续开发更详细、更复杂的模型。理想情况下,此增强模型将包含高级功能,目的是超越原始基线模型的性能。

就像传统的软件解决方案一样,您并不总是从最优化的算法开始解决问题,同样的原则也适用于机器学习。这不是要直接使用最好的模型或功能,而是要建立一个坚实的基础,并随着时间的推移逐步增强它。