《数据科学与分析:Python语言实现》 —3.13 总结

举报
华章计算机 发表于 2020/02/15 21:54:14 2020/02/15
【摘要】 本节书摘来自华章计算机《数据科学与分析:Python语言实现》 一书中第3章,第3.13节,作者是[英]赫苏斯·罗格尔–萨拉查(Jesús Rogel-Salazar),白 皓 刘江一 上官明乔 刁 娟 译。

3.13 总结

在本章结束时,我们在数据科学和分析工作中必须始终牢记这些想法:

如果机器可以学习,我们也可以!

机器学习和数据科学不是关注因果关系,而是关注预测、洞察力和知识。

所有模型都是错误的:没有完美的模型,只有足够好的模型。

数据科学和分析工作流程是一种平衡行为:

  • 偏差和变化

  • 复杂性和简单性

  • 过度拟合和正则化

  • 更多数据和巧妙的算法和资源

  • 准确性和洞察力

  • 减少的工作量和计算成本

  • 鹿角兔般的数据科学家和独角兽般的数据科学家

拥有大量数据(甚至是大数据)是好的,能够构建模型也是一项很好的技能。尽管如此,它们也并不是万能的。

注意维度的诅咒。

将我们的数据分成训练集和测试集不仅是良好的做法,而且是必要的。

数据科学建模阶段的一个重要部分是使用交叉验证。请记住,测试数据绝不能用于训练。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。