打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
机器学习相关研究的复现标准是什么?

随着生命科学领域数据量的增多,一些基于机器学习方面的研究也就越来越多。只要是科研方面的结果,就会涉及到研究结果重复性的问题。但是数据分析这些的,不像基础实验那样,把做的实验说清楚了就有可能重复出来。数据分析的话,有时候一个相同的算法,里面一个参数的不同都会导致结果的不同。所以为了保证机器学习这些的研究结果的可重复性,就有了下面的这个文章。

在这篇文章当中,作者主要来说明了机器学习在生命科学领域的可重复性标准。类似于一些游戏里面的等级机制。作者把可重复性的标准分成了三个等级:

  1. 青铜水平: 作者公开了分析中使用的数据、模型和代码。青铜标准是再现性的==最低标准==。

  2. 白银标准: 除了满足青铜标准还需要符合下面三个要求:

    1. 可以使用单个命令下载和安装分析所需要的软件;

    2. 记录重现工作的关键细节,包括运行分析脚本的顺序、使用的操作系统和系统资源要求;

    3. 分析中的所有随机分量都设置为确定性的。
      白银标准是最低可用性和完全自动化之间的中间点。符合这个标准的作品比只符合青铜标准的作品需要更少的时间来复制。

  3. 黄金标准。除了符合银级标准之外,作者需要提供可以自动化进行数据分析的流程。重现性的黄金标准是完全自动化。当一项工作符合这个标准时,科学家几乎不需要努力就可以复制它。

具体标准青铜白银黄金
数据已发布和可下载
模型已发布和可下载
原代码已发布和可下载
通过单个命令解决依赖关系
关键分析的详细记录
分析组件设置为确定性
通过单个单个命令一键复现数据

以上是这篇文章的基本介绍了。其中关于三个标准。作者在后面提供了详细的说明。同时一些相关的工具也进行了推荐。有兴趣的可以了解一下。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
如何面对可重复性挑战
方法赏析:《人文地理学进展》定量研究方法第一弹之“复制量化研究”
顶级期刊上的部分社会科学论文无法复现,是危机还是机遇?
Nature社论:顶刊上肿瘤研究50%以上结果不能重复的幕后真相!
复现是科学的唯一标准吗?
今天来给大家介绍一下什么是强化学习研究中的可重复性问题
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服