《数据科学与分析:Python语言实现》 —3.13 总结
【摘要】 本节书摘来自华章计算机《数据科学与分析:Python语言实现》 一书中第3章,第3.13节,作者是[英]赫苏斯·罗格尔–萨拉查(Jesús Rogel-Salazar),白 皓 刘江一 上官明乔 刁 娟 译。
3.13 总结
在本章结束时,我们在数据科学和分析工作中必须始终牢记这些想法:
如果机器可以学习,我们也可以!
机器学习和数据科学不是关注因果关系,而是关注预测、洞察力和知识。
所有模型都是错误的:没有完美的模型,只有足够好的模型。
数据科学和分析工作流程是一种平衡行为:
偏差和变化
复杂性和简单性
过度拟合和正则化
更多数据和巧妙的算法和资源
准确性和洞察力
减少的工作量和计算成本
鹿角兔般的数据科学家和独角兽般的数据科学家
拥有大量数据(甚至是大数据)是好的,能够构建模型也是一项很好的技能。尽管如此,它们也并不是万能的。
注意维度的诅咒。
将我们的数据分成训练集和测试集不仅是良好的做法,而且是必要的。
数据科学建模阶段的一个重要部分是使用交叉验证。请记住,测试数据绝不能用于训练。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
作者其他文章
评论(0)