数据异常识别处理 data anomaly detection
一、某行业客户数据异常主要原因有:
1.来自于多个系统,异构,元数据标准不一,匹配映射时容易出错;
2.录入时人填写错误;
3.客户欺诈、消费数据异常:。。。
二、某行业现有数据异常处理方法:
1.业务逻辑分析
2.统计分析
3.可视化分析
因此,针对异常数据处理想做如下几个点:
1. issue1是大数据下,静态数据和动态数据的数据量巨大,需要有快速处理数据的方法,目前的方法有平行算法、map reduce、spark等。假如使用聚类的方法找出outlier,如何能在海量数据里快速聚类?
2. issue2 假如使用聚类的方法,如何平衡聚类速度和准确率?
3. issue3 找出异常值后,如何做数据替换(替换成正确值)?数据填充?数据平滑处理?
有意向请直接联系18601068119
--
FROM 117.72.187.*