发布网友 发布时间:2022-04-23 10:11
共2个回答
热心网友 时间:2023-05-18 22:43
如何去整理分析数据,其中一个很重要的工作就是数据清洗。数据清洗是指对“脏”数据进行对应方式的处理,脏在这里意味着数据的质量不够好,会掩盖数据的价值,更会对其后的数据分析带来不同程度的影响。有调查称,一个相关项目的进展,80%的时间都可能会花费在这个工作上面。因为清洗必然意味着要对数据有一定的理解,而这个工作是自动化或者说计算机所解决不了的难题,只能靠人脑对数据进行重新审查和校验,找到问题所在,并通过一些方法去对对应的数据源进行重新整理。
清洗数据的方式大概可以分为以下几类,筛选、清除、补充、纠正,例如:
去除不需要的字段:简单,直接删除即可。但要记得备份。
填充缺失内容:以业务知识或经验推测填充缺失值;以同一指标的计算结果(均值、中位数、众数等)填充缺失值;以不同指标的计算结果填充缺失值。
格式不一致:时间、日期、数值、全半角等显示格式不一致,这种问题通常与输入端有关,在整合多来源数据时也有可能遇到,将其处理成一致的某种格式即可。例如一列当中储存的是时间戳,某些*公司的不同部门在时间的格式上有可能存在差别,比如2019-01-12,2019/01/12等,这时候需要将其转换成统一格式。
内容中有不需要的字符:某些情况使得有些数据中包含不需要的字符。例如从网络爬到的数据会包含一些编码解码的字符如%22,这种情况下,需要以半自动校验半人工方式来找出可能存在的问题,并去除不需要的字符。
数据提取:例如咱们只有用户身份证的信息,但是需要用户生日一列,这时候我们可以直接从身份证号中按照一定规律将生日信息提取出来。
热心网友 时间:2023-05-18 22:44
1. 获取:主要来源包括——自有(关系数据库同步)、自采(探针/爬虫等手段)、外购(合法的白色数据、非法的灰色数据、违法的黑色数据);涉及的关键点:数据的维度定义;探针节点的选择及采集方式(依据具体业务而定,一般无非是部署在数据产生者随路式或者数据产生者必经路径上蹲点式两种,各有优劣);外购数据源的选择及价值识别(可信度等)。数据来源两种,移动式(某德地图、某度地图这一类)和定点式(测速摄像头、监控摄像头),假定都是未分析的原始数据。
2. 清洗入库:对数据源进行清洗及其他所需的预处理入库。本文的重点,见正文。
3. 分析、给数据打标签以用于后续的挖掘:基于业务需求选择所需的字段并分析,比如哪些路段拥堵、拥堵程度如何。
4. 挖掘:这就看开脑洞的程度了,比如红绿灯时长优化预测、车辆流向优化(禁左、禁右、单行等)效果预测这种相对简单的的以及未来突发交通热点预测等等各种复杂的。