首页 网站首页 商业信息 数据 查看内容

数据质量对于成功的AI/ML建模的重要性

网站运营 2023-2-9 18:28 5679人围观 数据


野生智能 (AI) 和机械进修 (ML) 技术有能够完全改变很多行业。但 AI 和 ML 有一个不为人知的致命弱点。Refiniv在2019年“更聪明的人类、更聪明的机械:野生智能/机械进修全球研讨”中停止的一项研讨表白,摆设和采用野生智能和机械进修的最大障碍是数据质量差。来自替换资本和非结构化数据的数据正变得越来越重要,但在它们的看法变得真正有代价之前必须对其停止“提炼”。

“garbage in, garbage out”这句话适用于 AI/ML 摆设——假如你给模子供给坏数据,分析和成果也会低于标准。按照 Refiniv观察,66%的受访者暗示,糟糕的数据质量会影响他们摆设机械进修和野生智能技术的才能。该报告还表白,在ML模子中处置新数据的四个应战中的三个与数据质量有关。这些应战包括有关数据历史、覆盖范围和整体的正确信息,识别不完整或损坏的记录,以及清算和治理数据。数据科学家面临的最大应战之一是找到高质量的数据,由于他们必须花费 80-90% 的时候来清算和标准化不良数据。

01

为什么数据质量很重要?

在停止数据分析时,不管能否用于野生智能,数据质量都极为重要。数据质量有两个组成部分:

1.缺失数据

2.数据不正确

这两方面都存在很大题目,每个题目标影响只能按照具体情况来肯定。假如ML模子中不支持数据质量,则会致使误解和毛病揣度。研讨表白,公司在分析自己的公司数据的同时,也会分析市场数据和非结构化数据,这意味着他们正在连系三种分歧的数据源来获得洞察力。传统上,结构化数据一向是强大的定量分析的关键,非结构化数据是公司面临的首要应战。来自其他来历的数据大多是非结构化的,需要对其停止改良和考证以确保正确性。

自然说话处置 (NLP) 等机械进修方式用于构建和优化基于文本的数据,Facebook 和谷歌一向很是关注非结构化数据,他们的成功是使非结构化数据更轻易、更正确、更有用。虽然 ML 使从非结构化数据源中提取信息变得加倍轻易,但需要大量的技能和耐心来练习ML模子,这照旧是一个耗时的进程。

02

移动利用法式:缺少与 AI 诠释的链接

确保数据质量杰出的最好方式是从易于拜候的牢靠来历获得数据。对于可信来历,利用移动利用法式能够一种是方式。与很多构造仍在利用的传统纸质表格相比,移动利用法式可让您更好地控制数据质量,而且您可以在需要时轻松拜候数字数据。

移动利用法式是野生智能实施的关键,由于它们可以进步数据质量。传统数据来自纸质流程,凡是轻易出现报酬毛病。假如数据质量差,野生智能也会遭到影响,更不用说您将面临纸质表格丧失的信息或时候提早。而且,用基于移动利用法式的数字表格取代这些流程,将消除毛病并进步数据质量。移动利用法式可以自动捕捉时候、位置和数据等信息,甚至可以考证计较、数字签名、条形码和读数。出格是当现场数据用作模子的关键数据源时,收集现场数据的移动利用法式对于成功实施 AI 相当重要。

03

不良数据的现实本钱

我们能够没成心想到,不良数据能够会花费很多钱(每笔记录高达10美圆)。数据质量公司的一份报告“不良数据的现实本钱”指出,员工收集的信息中有高达20%是不正确的。该报告表白,考证信息每笔记录的本钱高达1美圆。这笔钱用于付出员工人为、运转计较机的本钱以及利用考证处理计划

可是,每笔记录一美圆似乎具有误导性,由于假如利用批处置停止考证,本钱会大大增加。然后本钱将上升到每笔记录10美圆,假如公司没有检查记录的机制,这个数字也会被低估。由于退回的邮件、错放的货物和错失的营销机遇,每笔记录的用度能够高达100美圆。这意味着您将损失支出而且不能不在运输进程中花费大量资金。简而言之,不良数据不但需要花费金钱来提炼和修复,而且还会由于公司没法向客户托付和打仗潜伏客户而形成支出损失。

只管削减不良数据的最好方式是实现无纸化和数字化一切流程。经过无纸化、进步生产力和削减处置不良数据的隐性本钱,您可以节省大量资金。构立功用强大的利用法式将帮助您的公司节省时候并下降本钱。当一切都可以在最少的野生干涉下数字化时,基于纸张的流程需要花费大量时候和劳动力来治理。

04

移动利用法式天生器

要建造可以促进您的营业流程的移动利用法式,您将需要合适的利用法式构建器来为任何移动装备构建移动表单并实现无纸化。为此,低代码开辟平台能够是理想的挑选,由于它们答应百姓开辟职员构建企业利用法式。很多低代码开辟平台可以利用最新的移动利用法式功用(如 GPS、相机等)在几分钟内开辟出基于移动装备的表单,以正确快速地捕捉数据。

文章原链接:https://www.iotforall.com/the-importance-of-data-quality-for-successful-ai

高端人脉微信群

高端人脉微信群

人脉=钱脉,我们相信天下没有聚不拢的人脉,扫码进群找到你所需的人脉,对接你所需的资源。

商业合作微信

商业合作微信

本站创始人微信,13年互联网营销经验,擅长引流裂变、商业模式、私域流量,高端人脉资源丰富。

精彩点评

相关推荐

终于有人把数据、信息、知识讲明白了

终于有人把数据、信息、知识讲明白了

导读:我们把关于信息处理的理论称为信息论,它是20世纪40年代从通信实践中发展并总结

各领域公开数据集下载

各领域公开数据集下载

整理了网上的公开数据集,分类下载如下,希望节约大家的时间。1.经济金融1.1.宏观经济

有哪些可以获取数据的网站?[大数据]

有哪些可以获取数据的网站?[大数据]

做数据可视化或者数据分析的朋友可能经常会碰到的问题就是有想法没有数据。想到我有几

数据增强(Data Augmentation)

数据增强(Data Augmentation)

我们常常会遇到数据不足的情况。比如,你遇到的一个任务,目前只有小几百的数据,然而

快速找到论文数据的19个方法

快速找到论文数据的19个方法

在这个用数据说话的时代,能够打动人的往往是用数据说话的理性分析,无论是对于混迹职

数据迷思2:辛普森悖论下的香港死亡数字

数据迷思2:辛普森悖论下的香港死亡数字

如果有两名篮球手A和B,本来,无论是两分球还是三分球,A都要比B投得准,但是一个赛季

最通俗易懂的理解什么是数据库

最通俗易懂的理解什么是数据库

1.什么是数据库呢?每个人家里都会有冰箱,冰箱是用来干什么的?冰箱是用来存放食物的

数据看中国vs世界:2021世界各国/地区薪资排名

数据看中国vs世界:2021世界各国/地区薪资排名

数据源:NUMBEO自从我的“randy77:数据看中国vs世界:2020年世界各国人均GDP最新排名

数据分析,这样才算读懂数据

数据分析,这样才算读懂数据

编辑导语:数据分析是让很多职场人头疼的一个话题,一张简简单单的图片上有几条曲线,

什么是大数据?大数据能做什么?

什么是大数据?大数据能做什么?

本篇文章主要为我们介绍了大数据的概念、发展以及相关应用。“Big Data is like teena

10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)

10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系

编辑导语:作为一名数据小白,在日常学习和工作中经常会接触到数据。随着用户数据与业

北上广等70城楼市最新数据出炉,近40%城市二手房降价,深圳连跌3个月

北上广等70城楼市最新数据出炉,近40%城市二手房降价,深圳连跌3

8月16日,国家统计局发布了2022年7月70个大中城市商品住宅销售价格变动情况。数据显示

29省份常住人口数据出炉:浙江增量37万领跑全国,辽宁降幅最大

29省份常住人口数据出炉:浙江增量37万领跑全国,辽宁降幅最大

本文来源:时代周报 作者:阿力米热人口是国家发展的基础性、全局性、长期性和战略性

2022年我国数据产量达到6.6ZB 位列全球第二

2022年我国数据产量达到6.6ZB 位列全球第二

中新网7月23日电 (中新财经 吴涛)23日,在第五届数字中国建设峰会期间举行的大数据分

韩国最新数据:自去年4月至今年6月,访韩游客同比减少95.4%,中国游客锐减98.6%

韩国最新数据:自去年4月至今年6月,访韩游客同比减少95.4%,中

来源:环球时报【环球时报综合报道】受疫情影响,今年上半年访韩外国游客数量持续猛减

中国数据震惊西方!不服也不行

中国数据震惊西方!不服也不行

日前,国家统计局公布了中国一季度的实际GDP增长率,结果2022年1季度中国GDP实际增长

【数据分析】基本数据分析的7个步骤

【数据分析】基本数据分析的7个步骤

原文链接:知乎专栏目录:一、为什么要做一份数据报告二、制作数据报告的流程一、为什

数据 | 经历添加剂风波的海天味业市值蒸发超400亿

数据 | 经历添加剂风波的海天味业市值蒸发超400亿

文 | 李童 孟令稀编辑 | 陈臣自9月30日首度回应“双标”争议以来,海天味业市值已下跌

数据分析整体框架

数据分析整体框架

编辑导语:无论是产品还是运营,数据分析都是其日常工作中不可忽略的一个板块,那么数

数据分析入门学习指南|零基础小白必看

数据分析入门学习指南|零基础小白必看

数据分析在如今的求职场上越来越重要。然而,让很多朋友困惑的是,我是没有编程基础的

商业洽谈 文章投递 寻求报道
电话咨询: 15924191378
关注微信