编程学习网 > IT圈内 > 如何做一个完整的数据分析项目??
2023
02-08

如何做一个完整的数据分析项目??

据分析员实际上是做什么的?他们如何对待自己的工作?如果你有兴趣进入数据分析领域,一个常见的建议是创建一个使用数据的项目组合。但如果你没有经验,你可能不知道如何处理项目。你的组合项目应该遵循哪些步骤?然后一旦你开始工作,你应该如何处理项目?

从一个问题开始

新人们犯的一个错误是,从一个数据集开始,在没有计划的情况下就开始进行。但是,如果你不知道你要解决什么问题,你怎么知道要做什么?有些人认为一旦他们开始挖掘数据,它就会 "告诉他们一些东西"。但是,如果你没有问什么,它怎么能 "告诉你 "什么?数据是没有灵性的。如果你只是为了钻研而钻研--你怎么知道什么时候该停下来?

在工作中,总是从一个问题或疑问开始。通常,它来自于一个利益相关者,或者是从另一个项目中形成的问题。要确保了解 "为什么"--为什么我们要关心这个问题或疑问?它与我们的业务或我们的目标有什么关系?向利益相关者提出任何澄清的问题--答案将使你能够做什么?我们是否有特定的时间框架,或者我们的用户/数据的某个部分?

确定要使用的正确数据

现在知道了我们要解决的问题,我们可以寻找最好的数据源来使用。在工作中,这通常意味着我们已经收集了一个数据源。对于个人项目,有很多免费的数据集可以下载。在下载数据之前,要确保你了解它。是否有任何解释每个变量的文件?如果没有,是否有你可以联系到的主题专家?一个数据源就够了,还是你需要把数据连接在一起,如果是这样,你知道要连接在哪一(些)列上吗?如果你要把数据连接在一起,请确保它代表相同的东西--例如相同的时间线、地点或用户。

确定你的解决方案的范围

在开始你的项目之前,确保你了解范围利益相关者所期望的可交付成果是什么?一个仪表盘或机器学习模型投入生产,还是仅仅是你的发现的总结?在你认为项目已经 "完成 "之前,你需要回答哪些问题?根据项目的范围,我们可以给自己设定一个 "时间框",根据利益相关者规定的时间表,我们可以给自己留出一半的时间,以获得一个可以提交反馈的解决方案初稿,然后在最后期限前进行必要的更新。

清理和准备数据

最后,我们可以查询或下载数据并进行清理。如果你要自己查询,一定要考虑到。你应该看什么时间范围或使用其他过滤器,以限制对数据的查看,使其成为相关的内容。任何能帮助你分割或分组数据的变量--什么与你的问题相关?例子包括性别、年龄和其他人口统计学因素、地点、客户或用户类型、技术类型等。

一旦你有了你的数据,就应该对它进行清理和准备。即使是最干净、最完美的收集的数据,也常常需要一些准备工作--创建新的变量或汇总数据。而且,在做完下一步--探索--之后,你可能会发现更多需要清理的东西。

清洁和准备的一些基本步骤

检查缺失的值。决定是否可以把它们作为NULL,是否应该替换它们,或者是否应该放弃该行或列。检查不正确的数据类型。你的日期是否真的被格式化为日期?你所有的数字值实际上都是整数或浮点数吗?检查数字变量的分布情况。是否有异常值?决定如何处理它们--转换它们,放弃它们,或者让它们保持原样。检查你的分类变量--有什么问题吗?有任何意外的值吗?有没有拼写错误或不一致的地方?是否有任何你不需要的变量?丢掉它们,或者创建一个没有这些列的数据的第二版。你需要创建任何新的变量吗?例如,你想为任何数字变量创建仓吗?在现有列的基础上创建任何新的计算指标?

探索你的数据

在进入你要解决的问题之前,先熟悉一下你的数据。一些常见的东西要看。检查任何数字变量的分布情况。直方图是一个很好的方法,可以直观地做到这一点。检查数字变量的计数、平均数、中位数、标准差、最小值、最大值和四分位数。一些Python或R的软件包可以在一行代码中完成这个工作。检查你的分类变量的计数。在按分类变量分组时比较数值。检查你的数字变量的相关性--数值是多少,或者用散点图进行可视化。如果在你的探索中出现了任何 "奇怪 "的东西,在这个时候做更多的数据清理是可以的。

在数据探索过程中,很容易进入兔子洞,以许多不同的方式分析数据,有时你会达到 "分析瘫痪",即你有太多的信息,但不知道该做什么结论。这就是为什么有一个最初的问题或你试图解决的问题是很重要的。如果你觉得被信息淹没了,退后一步,记住你要完成的任务,以及与这个项目的利益相关者最相关的内容。

解决你的问题

现在你有了你熟悉的干净的数据,通过你与利益相关者商定的可交付成果,解决你最初的问题或回答你最初的问题。

如果你同意使用仪表盘和/或你的利益相关者在未来需要更新数据,请建立一个干净的仪表盘,让他们易于浏览使用标题和标签,使浏览者容易理解他们正在看的东西。添加过滤器,这样他们就可以自我服务于数据的不同视图。添加一个链接到定义了你的仪表盘中所有变量的文件。

否则,如果是一次性的分析,使用你认为最好的工具。我们经常用SQL+Python工作。有时做上述所有的探索性步骤就足以回答问题。或者会做一个预测模型--也许是线性或逻辑回归,或者是基于树的模型,如随机森林--并分析varaibles的系数,以了解特征的重要性以及独立变量如何影响因变量的结果。

总结

你需要整理的 "总结 "的数量取决于项目和受众。如果你做的是一个仪表盘,有时你需要做的就是分享一个链接到可以访问的地方,尽管通常你需要引导你的利益相关者了解仪表盘中包括什么,如何使用它,数据的刷新频率等等。他们可能会有疑问。想出一些用例,或例子,让他们了解如何使用仪表盘来回答他们正在进行的问题,会有帮助。

通常情况下,用PPT幻灯片总结你的工作是必要的。即使你正在为你的作品集创建一个个人项目,我们也建议你在PowerPoint中进行总结,你可以把它上传到GitHub。总结的一个框架是S.T.A.R.方法。这也适合在面试中谈论你的项目。

以上就是“如何做一个完整的数据分析项目?”的详细内容,想要了解更多IT圈内资讯欢迎持续关注编程学习网

扫码二维码 获取免费视频学习资料

Python编程学习

查 看2022高级编程视频教程免费获取