睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

7个数据分析常见错误及规避方法

时间:2022-07-11来源:白色球鞋浏览数:103

​从事数据分析师的工作,做好自己的数据分析师职业规划,是非常有必要的,它是我们不断向前进取的动力和方向,也是支撑我们坚持下去的理由和需要。一个良好而客观可行的数据分析师职业规划,对于一个人的成长和晋升是必不可少的。

从事数据分析师的工作,做好自己的数据分析师职业规划,是非常有必要的,它是我们不断向前进取的动力和方向,也是支撑我们坚持下去的理由和需要。一个良好而客观可行的数据分析师职业规划,对于一个人的成长和晋升是必不可少的。

但在进行数据分析师职业规划的同时,我们千万不能因为自身一些可规避的错误而导致我们的职业规划受到阻碍。因此,在工作中,我们一定要多多留意可能会出现或常犯的一些错误。下面就来很大家讲讲数据分析工作中常见的7种错误及其规避方法,为你的数据分析师职业规划道路扫清障碍。

01相关关系和因果关系之间的混乱

相关性和因果关系的错误,最好的例子是《魔鬼经济学》的分析中,关于因果关系的相关性错误,导致伊利诺斯州给本州的学生发书,因为根据分析显示家里有书的学生在学校考的分更高。进一步分析显示,在家里有几本书的学生在学业上能表现的更好,即使他们从来没有读过这些书。

这改变了之前的假设和洞察:父母通常买书的家庭,能营造愉快的学习环境。

大部分的数据分析师在处理大数据时假设相关关系直接影响因果关系。使用大数据来理解两个变量之间的相关性通常是一个很好的实践方法,但是,总是使用“因果”类比可能导致虚假的预测和无效的决定

要想实现利用大数据的最好效果,数据分析师必须理解相关关系和因果关系的区别。关联往往是指同时观察X和Y的变化,而因果关系意味着X导致Y。在数据分析中,这是两个完全不同的事情,但是许多数据分析师往往忽视了它们的区别。基于相关性的决定采取行动,我们不需要知道原因,但这还是完全依赖于数据的类型和要解决的问题。

每位数据分析师都必须懂得——“数据分析中相关关系不是因果关系”。如果两个关系出现彼此相关的情况,也不意味着是一个导致了另一个的产生。

02没有选择合适的可视化工具

大部分的数据分析师专心学习技能。他们不能使用不同的可视化技能理解数据,即那些可以令他们更快获得洞察力的技术。如果数据分析师不能选择合适的可视化发展模型,监控探索性数据分析和表示结果,那么即使是最好的机器学习模型,它的价值也会被稀释。事实上,许多数据分析师根据他们的审美选择图表类型,而不是考虑数据集的特征。这个可以通过定义可视化的目标避免。

常言道“一图胜千言。”——数据分析师不仅要熟悉自己常用的数据可视化工具,也要理解数据可视化的原理,用令人信服的方式获得结果。

解决任何数据分析问题的至关重要一步,就是要获得该数据是关于什么的洞察力,通过丰富的可视化表达,可以形成分析基础和建立相应模型。

03没有选择适当的模型-验证周期

分析师认为,建立了一个成功的指标体系模型,就是获得了最大程度的成功。但是,这只是成功了一半,它必须要确保模型的预测发挥作用。许多数据分析师经常忘记或者倾向性的忽视这样的事实,就是他们的数据必须在指定的时间间隔进行反复验证。

一些数据分析师经常犯的一个普遍性错误:如果和观察到的数据吻合,就认为预测模型是理想的。已建立的模型的预测效果可以因为模型的关系在不断变化而瞬间消失。为了避免这种情况,数据分析师最好的解决方式就是每个小时都对含有新数据的数据模型进行评分,或者基于模型的关系变化快慢逐日逐月评分。

由于几个因素,模型的预测能力往往会变弱,因此数据分析师需要确定一个常数,用以确保模型的预测能力不能低于可接受的水平。有实例即数据科学家可以重建数据模型。能建立几个模型和解释变量的分布总是更好的,而不是考虑单个模型是最好的。

为了保留已建模型的预测效果和有效性,选择迭代周期是非常重要的,如果做不到,可能会导致错误的结果。

04无问题/计划的分析

数据分析最高级的用途就是,提出正确的问题和收集正确的数据集,一切工作都要根据科学的标准。然后你将获得结果,并解释它。

数据分析是一个结构化的过程,以明确的目标开始,随后出现一些假设的问题,最终实现我们的目标。数据分析师往往站在数据之上而不考虑那些需要分析回答的问题。数据分析项目必须要有项目目标和完美的建模目标。数据分析师们如果不知道他们想要什么,那么最终得到的分析结果也不会是他们想要的。

大多数数据分析项目最终是回答“是什么”的问题,这是因为数据分析师通过手头的问题作分析而不遵循做分析的理想路径。数据分析是使用大数据回答所有关于“为什么”的问题。数据分析师应该通过整合以前未被整合的数据集,主动分析给与的数据集,回答以前没人解答的问题。

为了避免这种情况,数据分析师应该集中精力获得正确的分析结果,这可以通过明确实验,变量和数据准确性和清晰明白他们想要从数据中获得什么实现。这将简化以往通过满足假设的统计方法来回答商业问题的过程。引用伏尔泰的一句话——“判断一个人,是通过他的问题而不是他的答案。”——先确定明确的问题是及其重要的,能够实现任何企业的数据科学目标。

05仅关心数据

数据分析师常常因为得到多个数据源而兴奋,并开始创建图表和可视化来做分析报告,忽视发展所需的商业智慧。这是危险的事情。

他们不够重视发展自身商业智慧,不明白分析如何令企业获益。数据分析师应该不仅仅让数据说话,而且善于运用自身的智慧。数据应该是影响决策的因素而不是数据科学项目决策制定的最终声音。企业雇佣的数据分析师应该是可以将领域知识和技术特长结合起来的,这是避免错误的理想情况。

06忽视可能性

数据分析师经常倾向性忘记方案的可能性,这将导致作出更多的错误决策。数据分析师经常犯错,因为他们经常说,如果企业采取了X操作一定会实现Y目标。对于特定的问题这没有唯一的答案,因此要确认数据分析师从不同可能性中所做的选择。对指定问题存在不止一个可能性,它们在某种程度是不确定的。情景规划和可能性理论是数据分析的两个基本核心,不应该被忽视,应该用以确认决策制定的准确性频率。

07建立一个错误人口数量的模型

如果一个数据项目的目的是建立一个客户影响力模式的模型,但是他们仅仅考虑那些具有高度影响力的客户的行为数据,这不是对的做法。建立该模型不仅要考虑那些具有高度影响力的客户的行为数据,也要考虑那些不怎么有影响力但是具有潜在影响力的客户的行为数据。低估任何一边人口的预测力量都可能导致模型的倾斜或者一些重要变量的重要性下降。

以上7点,都是数据分析师在工作时常见的错误。如果你还有其他常见的错误总结,欢迎评论区留言讨论哦~

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询