您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息
免费发信息
三六零分类信息网 > 梅州分类信息网,免费分类信息发布

作为数据分析师,鬼知道我经历了什么!

2023/6/29 23:00:07发布38次查看
谨以此文献给所有数据从业苦逼之人,如有中伤之处,请自行戴好盔甲,以防中伤过深。同时也以此文献给后期对数据热情,想长期从事此行业的年轻人,希望对你们有所启发,并快速的调整思路和方向,以对自己的职业生涯有更好的发展。
最近听到一些段子,很有意思,分享给大家!
这些段子是很多数据分析人员的真实写照:
新招进公司做大数据分析师,好开心好兴奋好激动!!!然而...
入职第一天,老板给了我一张 50m 的 excel 表说:
“你看我们有 100多万条用户信息,这么大的数据,来个大数据分析下!”
还没从震惊中恢复过来,业务部又神补一刀:
“我们准备跟星巴克合作,来预测下明年多少人喝咖啡,几千万的大项目,预测不准公司要亏很多钱的,你加油哈!”
面对这样的业务部,我只想说:“我要是未卜先知为啥不去炒股来给你打工”
it大哥贼兮兮的说:“哥们你可来了,那失散到天涯的数据有娘啦!”
没法,最终还是把数据拼起来开始分析...
发现好有规律啊~好工整啊~这...是不是有坑?!
去业务部一问才知道,这些都是被经销商篡改操纵的数据...
后来拿到了全真实的数据!全部没有规律了!喜极而泣!!
擦干泪仔细一看,80%的记录缺失,10%记录不全,5%记录出错……
整完数据开始统计,然而领导觉得只做加减乘除太简单了,有没有更深度的方法(解读:需要纠正的是,有用为先,花哨次之,这种说法不太合理)
简单了就做个模型吧,然而检验值还没讲完领导表示太复杂搞不懂,能简单点不(解读:这个是解读能力的问题,跟领导没关系...没关系..没关系...)
改来改去已很多遍了!我已不太记得领导唠叨了什么,总之又听到一句:“再改一下,看看其他维度深入分析分析”,然后默默新建一个文件:《分析报告v16-8版》
输出结果和业务部的认知差不多,被评价为:
“我们都知道了啊,这大数据做了跟没做一样啊”
输出结果和业务部的认知差很多,被评价为:
“这个与业务经验完全不同,肯定是数据的问题,我们都十多年经验了,快回去检查数据,上次我去见xxx客户人家就不是这样的!一定是你错了!一定!”
此段子一出,群里都炸开了锅,大家都开始不断的煽风点火,各种数据背锅,各种吐槽,说尽了数据分析师的辛酸苦辣。
我做数据分析师的时候也经常遇到上面这些遭遇,乃至后来找到了一些规避这些问题的方法,希望对大家有所帮助。
同时,我也希望借此号召所有的数据从业者,在数据应用实践上能够深入思考并有所突破,在正确的轨道上更好的发挥出数据的价值,从而让数据从业者有更大的 ,不再拘泥于每天的抱怨和自怨自艾中。
数据之苦
进入正文,数据人之苦最苦的是:有好处想不到你,出了问题都是你的错
这句话的意思就是你做好是应该的,做得不好就得承担责任。这种痛苦完全命中了马云蜀黍对离职的两点看法:
心累(得不到价值肯定)、钱少(没业绩肯定哪来的升职加薪)
区分数据流程的不同阶段,数据人之苦又有所区分侧重不同,说一下我的个人浅见。
根据数据应用的不同阶段,我的划分方法如下,从数据底层到最后应用:
大数据平台
目前很火,数据源头,各种炫酷新技术,搭建 hadoop、hive、spark、kylin、druid、beam~,前提是你要懂 java,很多平台都是用 java 开发的。
现在很多企业都把数据采集下来了。对于传统的业务,用传统的数据是完全够用的;可是对于用户行为和点击行为这些数据或者很多非结构化的数据,文本、图像和文本类的,由于数据量太大,很多公司都不知道怎么进行存储。
这里面要解决的是实时、近实时和离线的大数据框架如何搭建,各数据流之间如何耦合和解耦,如何进行容灾、平台稳定、可用是需要重点考虑的。
我的感觉是:最近两三年中,这块人才还是很稀缺的,因为大数据概念炒作的这么厉害,很多企业都被忽悠说,我们也来开始进入大数据行业吧。但是,进入的前提之一就是需要把数据存储下来,特别是很多用户行为方面的数据,对于业务的提升了比较明显的,如果你能很好的刻画用户,那么对你的产品设计、市场营销、开发市场都是有帮助的。
现阶段,很多公司都要做第一步:存储更多的数据。这也就是我们这块人员流动性比较高,因为都被高薪挖走了。
和传统的 sql 不同的是,针对大数据量的非结构式数据,我们所想的就是:用最廉价的成本存储数据同时能够达到容灾、扩展性高、高性能、跨域,从目前来看有两个方向
分布式已经被证明是个很好的一个方式。云端会是个很好的方向。不是每个公司都养得起这么多这么贵的大数据平台开发人员和运维人员 ops,从事这个行业的我们要有很好的危机意识,及时贡献出自己的价值,积极主动的学习新技术、否则你就要被淘汰了。
此外,花点钱把数据托管给云服务提供商对于创业公司或者一些传统的企业来说是个很好的思路,这样能够最快速地确定数据对你的价值是什么,而不用采购这么多的服务器、雇佣这么多的运维和网站开发人员。
说了以上这些,主要是想给未来会从事这块的人或者想存储数据的公司一点方向。我自己不做这块,体会不深,大家看看就行。
这块工作最被吐槽的一点就是:hive 速度好慢,sql 查询好慢,集群怎么又挂掉了,hadoop 版本升级后,怎么数据跑出来不对了等等。
因此,在这个领域内工作,需要有强大的
攻坚能力。快速定位和解决 bug 的能力。因为有很多工具都是开源的。java 开发能力。因为是开源的,所以会出现各种坑爹,甚至出现无法向下兼容的情况。
如果想在这块做的很好,还需要有整个系统架构的设计能力、比较的强的抗压能力和解决问题的能力、资源收集的能力,可以打入开源社区,这样就可以随时 follow 最新的潮流和技术。
数据仓库-etl
确实做仓库的人很辛苦,单单 oncall 就会让人望而却步。有很多数据库工程师,晚上睡觉的时候经常被 oncall 电话吵醒,因为数据流程出问题,需要第一时间去排查,是哪个数据源出问题,并且要立即解决,否则整个数据流程都会受到影响。
如果数据流程受到了影响,你就可能会被大领导一言不合叫到办公室说:我要的数据怎么还没有准备好,我的业务报表今天怎么没有发出来。
通过上面这个情景,我们可以知道:这是个很重要的岗位,因为数据流程很重要,决定了数据从源头杂乱无章的状况,通过 etl 之后变成了整齐的数据,这些整齐一致性的数据可以让你很方便地把各业务的统计结果计算出来,并且能够统一口径。要不然就会变成有几个部门,就有几种统计结果,到时候 a 部门说业务增长了 5%,b 部门说业务涨了 10%,omg,到底信谁?
至少在以下几点上,我觉得数据仓库人员是应该要做好:
数据字典的完整性,用的人都希望能够清晰的知道这个字段的逻辑是什么。字段要保持很好的一致性,不要同样一个字段在不同表里有不同的定义。核心流程的稳定性,不要让每天订单主表能够使用的时间很不稳定,有的时候很早,有的时候要中午才出来,如果不稳定就会导致使用数据的人对你很没有信心。仓库版本迭代不要过于频繁,要保持不同版本之间的兼容性。不要做好了仓库 1.0,很快就把原来的推倒重来,变成了 2.0。在数据仓库中需要考虑到延续性,主表的变动不要太频繁,否则使用的人会非常痛苦,好不容易才用习惯了 1.0 的表结构,没办法这么快进行切换。简单地说,要能向下兼容。在这点上,我是深有体会,之前出现过每来一个大领导都来换一次数据仓库的。保持各业务逻辑的统一性,不要出现同样的业务逻辑,同一个组别的人统计出来的结果不同。原因在于共同的逻辑没有落地成通用的东西,所以导致每个人写法不同。这点其实需要特别注意。
针对以上,这个岗位的技能要求是:不要成为仅仅会写 sql 的人,现在工具都很发达,如果你的技能很单一的话,那么可替代指数是非常高的,并且你自身也没有什么成就感。这里并不是说会写 sql 的人很 low,只是说应该多学一些技能,否则你很危险。
技能上,除了 sql 熟练之外,还需要知道如何写 transform,mapreduce,因为有很多业务逻辑用 sql 实现起来非常复杂,但是如果你会其他脚本语言,那么就能给你提供便利,让你的效率提升很多。
另外好的仓库人员需要写 java 或者 scala,通过写 udtf 或者 udaf 来提升你的效率是很有必要的。
仓库人员应该要常常思考,如何进行架构设计是最合理的,你要考虑是否需要字段冗余、行存储还是列存储、字段如何扩展最有效,热数据和冷数据如何拆分等,所以需要有架构思维。
数据仓库人员也应该常常考虑自动化和工具化方面的事情,需要很好的工具或者模块的抽象能力,动手实现自动化的工具来提高整个组织效能。针对经常碰到的数据倾斜问题,需要很快定位问题并进行优化。
说完了数据存储这块,接下来是数据应用的几个关键职位,在此之前,我想说数据应用的一个最关键的前提是:数据质量、数据质量、数据质量!!在每次阐述你的观点、分析结论或者用算法的时候,都需要先检查,源头数据正确性,否则任何结论都是伪命题。
数据可视化
这是个很炫的工作,最好是能懂点前端,比如 js。
数据可视化人员需要有很好的分析思维,不能为了炫技而忽视对业务的帮助程度。因为我对这个岗位客串的不多,所以没有特别深入的感悟,不过我觉得这个岗位需要有分析的能力,才能把可视化做好。
另外一方面来说,做数据应用的人都应该懂点数据可视化,要知道观点表达的素材顺序是:图片>表格>文字,一个能够用图片来阐述的机会千万别用文字来描述,因为这样更易于让别人理解。要知道,给大领导讲解事情的时候,需要把大领导设想成是个“数据白痴”,这样才能把一件事情说的比较生动。
4
数据分析师
现在对数据分析的需求是很大的,因为大家都想着说:数据有了,但是能做些什么呢?这就需要有数据分析师, 。
对数据分析师吐槽最多的是:你分析出来的不就是正常的业务逻辑吗,还需要你分析什么?或者是你分析的结论不对,跟我们的业务逻辑不符合。
特别是 abtest 的结果和当初设定的预期不相符合的时候,分析师会常常被拉过去说:分析一下,为什么我的 ab 实验结果不显著,里面肯定有原因的。
很多时候,宝宝的心里苦啊,你说这个转化率下降了,从数据上可以看出哪个细分渠道下降了,至于为什么客户不下单,我们得问用户去,很多时候,数据上也体现不出来为什么,只能告诉你现状是什么。
如果你一直在写分析报告,给结论中,持续周而复始,没有直接在业务中体现成绩的时候,数据分析师们该醒醒了,你该想想这个是你要的岗位吗?
对于数据分析师的定位:个人认为,成为优秀的数据分析师是非常难的,现在市面上也没有多少优秀的分析师。
我个人对数据分析师的技能要求除了会数据分析、提炼结论、洞察数据背后的原因之外,还需要了解业务,懂算法。只有这样,当面对一个业务问题时,数据分析师们才可以针对问题抽丝剥茧,层层递进去解决问题,再根据定位的问题进行策略的应对,比如是先做上策略进行测试还是应用算法进行优化,用算法用在哪个场景上,能不能用算法来解决问题。
一个优秀的数据分析师,是个精通业务和算法的全能数据科学家,不是那个只会听从业务的需求而进行拉数据、做报表、只做分析的闲杂人等。
我们都说分析要给出结论,优秀分析师的结论就是一个能解决问题的一揽子策略和应对措施,同时很多需求是分析师去主动发现并通过数据来挖掘出来的。
从上述描述中,可以看到对数据分析师的要求是:
会写sql拉数据精通业务会数据洞察精通算法主动性强
如果你一直只是忙于应付日常分析需求,热衷于写华丽的报告,那么你要记得,你很危险,因为会有一堆人在那里质疑你存在的价值,特别是小公司。因为数据人员的薪资是个不小的支出。
大部分不落地的分析都是伪分析,有一些探索性的可行性研究可以不考虑落地,但是其他的特定业务需求的分析都需要考虑落地,然后通过实践来反推你的作用,如此反复,才能慢慢的给你价值的肯定,同时提升你的分析技能,也只有这样才能证明你作为分析师、数据落地者的价值。
数据挖掘/算法
这块的话,经过这三年的摸爬滚打,感触蛮多的。体会比较深的吐槽主要有以下几点:
一个规则搞定了,还用什么算法。你的准确率怎么这么低?!你的准确率可以到 99% 吗?你的推荐有价值吗?你不推荐客人也会下那个产品的订单的。帮我做个大数据预测他想要什么?
很多时候,不同的场景对准确率的要求是不同的,所以在一定合理的场景下和业务进行据理力争是必要,不要害怕让业务吐槽,更多的时候管理�...
梅州分类信息网,免费分类信息发布

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录