ChatGPT正在逐步取代数据科学家？

当你正在阅读这篇文章的时候，也许你已经在数据行业有一份工作，或者正打算进入这个领域。随着过去一年生成式人工智能领域所取得的种种进展，你可能会担心数据科学岗位是否会被AI取代。

一年前如果有人提出想要用AI自动化我的数据科学工作，我会嗤之以鼻。我甚至写过一整篇文章，里面论述了AI不可能取代数据科学家——因为我们不仅仅是编写代码，构建机器学习模型，分析数据，我们还需要将复杂的信息解释给非技术人员。我们的工作很有挑战性，这些技能需要多年的磨炼。AI可以提高效率和数据团队之间的协作，但它绝对无法取代我们正在做的实际工作。
然而，上述博文是在ChatGPT发布之前写的。此后，我目睹了生成式人工智能领域发生的具有重大影响的进展。所以，在本文中，我将重新评估我对数据科学未来的立场，基于生成式人工智能领域的现有发展。根据我的广泛研究和行业专家的见解，我将提出一系列观点，解释为什么ChatGPT可能会取代数据科学家，以及它可能不会的原因。我将探讨辩论的双方留给你，读者，来做出明智的决策：决定生成式人工智能是否会使数据科学家变得不再必要。
不利因素：数据科学岗位面临风险的原因：
1. ChatGPT 可以快速编写代码
数据科学家花费大约40%-50% 的时间编写代码。不仅如此，ChatGPT在编写代码方面表现出色，而且速度飞快。这款聊天机器人已经通过了多家顶级公司的编码面试，可以将手绘草图转化为完整的网站，还可以在几秒钟内从用户故事中构建数据库表。实际上，这位软件公司的首席执行官表示，该模型将完成编码任务所需的时间从9 周减少到了几天左右这把效率提高了20 倍以上，这将显著减少公司需要雇佣的编程人员数量。
2. ChatGPT 可以提取和分析数据
现在，你可能会想：“编程只是数据科学家工作的一小部分。我们的工作涉及机器学习建模、统计分析以及向利益相关者提供见解。”那么，ChatGPT也可以胜任这些任务。该模型的新的Code Interpreter 插件（现在叫“高级数据分析”）允许你在ChatGPT 界面内上传和分析数据。该模型也能够预处理数据集，用K-Means 聚类找到最佳簇数，构建算法，甚至根据模型的输出提供基于数据的见解。根据《商业内幕》（Business Insider）的报道，与编程和分析相关的工作是最有可能被人工智能自动化的工作之一。布鲁金斯学会的高级研究员马克·穆罗（Mark Muro）研究了人工智能对美国劳动力的影响，他声称这是因为ChatGPT 可以比人类更快地生成代码，而且擅长分析数据和预测结果。
3. 架起人类和技术之间的桥梁
许多我合作过的非技术人员很难阅读Excel表格中呈现的数据。这些人很忙，他们需要我用最直白的语言去解释分析结果。例如，市场团队会提出类似“哪些客户最有可能再次购买产品X”这种问题，并期望你用几张ppt回答，然后再强调驱动重复购买的预测性指标。作为一种语言模型，像这样的用例正好适合ChatGPT。
ChatGPT不会为你提供复杂的图表和计算，而是会告诉你关于客户数据集的一切，为你提供了进行基于数据的市场决策所需的知识。ChatGPT的对话能力，结合其技术能力，可以使数据科学和分析等领域大众化。曾经需要你具备对Excel或Python的深刻理解才能完成的任务，现在可以轻松地通过像 “高级数据分析”插件这样的工具完成。
此外，ChatGPT Enterprise 刚刚发布，允许公司为其员工购买语言模型的订阅。OpenAI称这是ChatGPT 的“最强大版本”，因为它没有使用上限，性能提高了一倍。它还提供对“高级数据分析”插件的无限访问。由于这个版本的ChatGPT 符合 SOC2 标准，员工可以直接将专有的公司数据集上传到ChatGPT 接口上，而不必担心泄露敏感的公司信息。
前面的那部分可能会让人感到有点沮丧，我几乎能看到有些人正在摇头表示不同意我提出的观点。但不要担心！我们现在将探讨为什么许多人认为数据科学工作是安全的（至少目前是这样的）：
1. ChatGPT无法进行复杂的数据分析
数据科学家（和分析师）通常会从多个来源收集数据。这项工作并不像使用“高级数据分析”插件将单个数据集上传到ChatGPT 那样简单。例如，我目前正在进行一个需要分析成千上万个PDF文件的项目。这项任务因为规模而具有挑战性，需要处理大量数据，而每个PDF文档包含不同类型的信息，如表格和图像。对于这项任务，ChatGPT就没有太大帮助。
当然，它能够帮助我编写提取和分析数据所需的代码。但是一个没有编程知识的人无法运行、验证或调试代码。此外，大多数公司将它们的信息存储在SQL数据库中。“高级数据分析”插件只限于文件上传，这意味着它无法直接与公司内部数据库进行交互。因此，公司仍然需要具备数据库管理和SQL查询等必要技能的人员来访问、解释和分析来自这些数据库的数据。
2. ChatGPT无法模仿人类进行决策
根据畅销书作者和领先的业务和数据专家伯纳德·马尔（Bernard Marr）的说法，即使是最复杂的人工智能模型也缺乏批判性思维、战略规划和解决问题等能力。这些模型不了解业务的内部运作，也缺乏领域专业知识。如果您问它“为什么产品销售在过去2个月内大幅下降”，该模型将缺乏有关您的组织所需的上下文信息，无法提供明智的回应。此外，人类分析师或数据科学家通常会与组织内的不同团队进行交流并了解业务问题，从而提出解决方案。
3. ChatGPT容易犯错
ChatGPT在编写代码、解释数据和生成见解时可能会出现错误。根据由AI模型生成的数字做出业务决策几乎是不可能的，没有公司愿意去冒这个风险。人类专家仍然需要验证AI模型生成的代码和输出。事实上，我与许多组织合作，这些组织目前在做出决策之前有两种生成预测的方式——内部的数据科学团队和外部的咨询公司。这两个实体生成的数字会进行比较，通常会进行调和，以确保预测保持一致。如果公司愿意花费数万美元雇佣第三方咨询公司，仅仅是为了在决定如何继续之前验证他们的预测，你真的认为他们会为了降低成本而用AI模型替换他们的数据科学家吗？在我看来，以AI生成的预测将作为基线可能会成为公司验证其数据科学团队提供的见解的另一种方式。
我从事数据科学工作，如何确保自己的饭碗不受AI冲击？
首先，你必须拥抱/接受人工智能。利用它来紧跟行业趋势并学习新知识。根据《Forbes》的一篇文章，如果你认为AI不会极大地改变你的工作方式只会让你适得其反。多使用生成式AI模型来自动化你工作的一部分，并利用效率提升来培养能让你在这一领域脱颖而出的额外技能。
另外，前Meta数据科学家Tina Huang建议你建立多个收入来源，而不仅仅依赖全职工作。你可以开始提供自由职业的数据科学服务，以获取其他收入，确保你的职业安全不仅仅依赖于单一雇主的决策。

最后，我个人认为，组织在招聘员工时青睐的品质将发生变化。传统上，工作要求极大强调技术技能——你在Excel、编程或Tableau方面越擅长，就越有可能被雇佣。但是之后重点将逐渐从工具和技术专长转向其他方面，因为生成式AI模型正在填补这一领域的技能差距。相反，组织将开始青睐沟通、创造力、领导力和决策等技能。一个理解如何利用AI来实现公司目标的人，对雇主来说将远比那些只提供技术专长的人更有价值。

以上就是“ChatGPT正在逐步取代数据科学家？”的详细内容，想要了解更多IT圈内资讯欢迎持续关注编程学习网。

扫码二维码 获取免费视频学习资料

Python编程学习

查看2022高级编程视频教程免费获取