HI,下午好,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-163-302
请扫码咨询

新闻动态

NEWS CENTER

需要精心预备和挑选练习集,确保它具有代表性和高质量

2024-02-04

欢迎一同揭秘AI的世界。AI领域中,不管是模型,算法,仍是应用,都离不开数据。

假如将AI比方成一个厨师,那么数据就是食材。没有食材,厨师就无法烹饪出甘旨的佳肴。同样地,没有数据,AI就无法进行分析和猜测,无法提供有价值的信息和决议计划支持。

所以,我觉得很有必要在了解AI的初步阶段时,就先和咱们一同了解一下AI数据集是怎么回事。

不管你是厨师仍是食客,大致要知道一些,美食佳肴用哪些食材烹饪而成的吧?

原本呢,我是打算仅一篇文章就把数据集的事情说清楚的,但后面越写越发现,数据集的内容比我料想的要多,文章草稿拟完后,意外发现竟然有2万多字。

2万多字假如放在一篇文章中,不符合阅览习惯,不能发。所以,即使我已经将整体的内容草稿都写好了,仍是决定再投入一些精力和时刻,重新进行一轮拆分。

毕竟太长的内容,的确会影响到阅览的耐心,在短视频充满的当代,也不知道还剩多少人会有耐心看完一篇长文了。可见,内容太长,亟待拆解,分章阅览,许更适宜。

本篇依旧持续说数据集的故事,这是数据集的第三篇文章,和之前两篇有上下文的逻辑相关,但不会影响独立阅览。假如想一次性弄懂AI数据集,可以连着前面两篇一同看。


这是第三篇,我想说的是“练习集,验证集,测验集”的区别和联络,以及目前国内数据集的现状、挑战和应对之策。希望对你有协助。

全文8000字左右,预计阅览时刻12分钟,若是碎片时刻不行,建议先收藏后看,便于找回。

按例,开篇提供文章结构导图,便利咱们在阅览前总揽全局,有大致的画面框架。


一、练习集、测验集、验证集的不同之处

练习集、测验集、验证集这三者,在数据目的与功用、数据交互频率上、数据区分与比例以及运用时机等方面均有不同之处。

1. 目的与功用不同

练习集、测验集、验证集这三者的目的和功用不同。练习集首要用于练习模型,验证集首要用于在练习过程中选择模型和调整超参数,测验集则用来最终评估模型的功能。

【练习集】:练习模型

练习集用于模型练习,协助模型确定权重和偏置等参数,模型经过深入学习和了解练习会集的数据,逐步学会辨认其中的模式和规律,并逐步优化其猜测才能。

这就像是人类在学习语言和常识,一步步建立起自己的认知体系。

“九层之台,起于累土。”没有良好的练习集,模型就像是失去了根基的大树,无法稳固地生长和扩展。


因此,咱们需要精心预备和挑选练习集,确保它具有代表性和高质量,这样模型才能更好地了解和适应真实世界的改变。

【验证集】:选择和调参

验证集用于模型选择和超参数调整。它不参加学习参数的确定,首要协助咱们在很多可能性中,找到那些可以使模型功能到达巅峰的超参数,如网络层数、网络节点数、迭代次数、学习率等。

它有点像是暗地的智囊团,默默地为挑选最优模型超参数提供优质的咨询和建议。

验证集让咱们可以在实战之前,就预知模型的功能,然后做出最佳的选择。这种前瞻性的策略,不只可以提高模型的功率,更可以节约宝贵的时刻和资源。

相关推荐