Array ( [article_id] => 123 [article_title] => 缺失值填充 [article_keyword] => 缺失值填充,缺失值填充算法的作用,缺失值填充算法原理 [article_description] => 缺失值填充是针对带有缺失值的数据进行处理;因为有的分析算法在进行数据分析前要求数据是无缺失的;所以数据的缺失值填充是非常关键的一步,对后续的分析影响很大。 [article_detail] => 针对带有缺失值的数据进行处理 [article_content] => <div class="rightwrap collegeDetail"> <h1 class="algorithmName"> 缺失值填充 </h1> <div class="clearfix topcontent"> <p> 数据处理是指对数据(包含数值和非数值类型)进行分析和加工的技术过程;也就是对数据的采集、检索、加工、变换和传输,将数据转换为信息的过程。 </p> <p> 数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。 </p> <p> 计算机的数据处理是使用计算机收集、记录数据,并经过一个或若干个处理方式组合,最后输出的是各种文字和数字的表格和报表。数据处理主要包含11种处理方式:数据查询、数据计算、数据排序、缺失值填充、数据抽样、变量处理、数据合并、重新编码、数据重构、数据汇总、随机数生成。 </p> </div> <div class="lemma_catalog clearfix"> <h2 class="block_title"> 目录 </h2> <div class="lemma_list"> <a href="#a_2">1、算法描述</a><a href="#a_6">2、相关应用</a><a href="#a_8">3、参考资料</a><a href="#a_10">4、实例</a><a href="#a_22">5、输入输出</a><a href="#a_25">6、相关条目</a><a href="#a_27">7、优缺点</a> </div> </div> <a name="a_2"></a><a class="para_title"><span class="number">一</span>算法描述</a> <p> 缺失值填充是针对带有缺失值的数据进行处理;因为有的分析算法在进行数据分析前要求数据是无缺失的;所以数据的缺失值填充是非常关键的一步,对后续的分析影响很大。 </p> <p> 常用的数据缺失值填充的方法有:列均值填充、列中值填充、临近点均值法、列众数填充、线性插值填充、固定值填充等方法。 </p> <a name="a_6"></a><a class="para_title"><span class="number">三</span>相关应用</a> <p> 缺失值填充主要目的是对数据进行补充,使能够用分析算法进一步的分析挖掘数据之中的规律和价值 </p> <a name="a_8"></a><a class="para_title"><span class="number">四</span>参考资料</a> <p> 马克威分析系统使用教程,http://www.tenly.com </p> <a name="a_10"></a><a class="para_title"><span class="number">五</span>实例</a> <p> 示例数据为某小学三年级部分学生的体重数据(单位为:千克) </p> <table class="college_table"> <tbody> <tr class="thead"> <td> 编号 </td> <td> 体重 </td> </tr> </tbody> <tbody> <tr> <td> 1 </td> <td> 52 </td> </tr> <tr> <td> 2 </td> <td> 42 </td> </tr> <tr> <td> 3 </td> <td> 31 </td> </tr> <tr> <td> 4 </td> <td> 48 </td> </tr> <tr> <td> 5 </td> <td> 33 </td> </tr> <tr> <td> 6 </td> <td> 35 </td> </tr> <tr class="lasttr"> <td> 7 </td> <td> 46 </td> </tr> </tbody> </table> <p> 1)根据列均值填充法: </p> <p> 编号为4的学生体重=(编号1+2+3+5+6+7)/6=40 </p> <p> 得到的结果为: </p> <table class="college_table"> <tbody> <tr class="thead"> <td> 编号 </td> <td> 体重 </td> </tr> </tbody> <tbody> <tr> <td> 1 </td> <td> 52 </td> </tr> <tr> <td> 2 </td> <td> 42 </td> </tr> <tr> <td> 3 </td> <td> 31 </td> </tr> <tr class="lasttr"> <td> 4 </td> <td> 40 </td> </tr> </tbody> </table> <p> 2)根据列中值填充法: </p> <p> 编号为4的学生体重=(编号3+5)/2=32 </p> <p> 得到的结果为: </p> <table class="college_table"> <tbody> <tr class="thead"> <td> 编号 </td> <td> 体重 </td> </tr> </tbody> <tbody> <tr> <td> 1 </td> <td> 52 </td> </tr> <tr> <td> 2 </td> <td> 42 </td> </tr> <tr> <td> 3 </td> <td> 31 </td> </tr> <tr class="lasttr"> <td> 4 </td> <td> 32 </td> </tr> </tbody> </table> <p> 当然还有许多种其他的填充方法,这里就不一一介绍,根据实际的情况选取合适的算法进行计算,以便得到精确的结果。 </p> <a name="a_22"></a><a class="para_title"><span class="number">六</span>输入输出</a> <p> 输入变量类型:数值型数据 </p> <p> 输出结果:给出经过缺失值填充处理后的数据结果 </p> <a name="a_25"></a><a class="para_title"><span class="number">七</span>相关条目</a> <p> 数据处理、中值填充、众数填充 </p> <a name="a_27"></a><a class="para_title"><span class="number">八</span>优缺点</a> <p> 优点:让数据更完整,有利于进行数据统计分析。 </p> <p> 缺点:填充的数据与真实数据存在偏差,对结果有可能产生影响。 </p> </div> [is_show] => 1 [cat_id] => 68 [article_img] => [article_order] => 4 [article_time] => 1478656449 [isdel] => 0 )

缺失值填充

数据处理是指对数据(包含数值和非数值类型)进行分析和加工的技术过程;也就是对数据的采集、检索、加工、变换和传输,将数据转换为信息的过程。

数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。

计算机的数据处理是使用计算机收集、记录数据,并经过一个或若干个处理方式组合,最后输出的是各种文字和数字的表格和报表。数据处理主要包含11种处理方式:数据查询、数据计算、数据排序、缺失值填充、数据抽样、变量处理、数据合并、重新编码、数据重构、数据汇总、随机数生成。

算法描述

缺失值填充是针对带有缺失值的数据进行处理;因为有的分析算法在进行数据分析前要求数据是无缺失的;所以数据的缺失值填充是非常关键的一步,对后续的分析影响很大。

常用的数据缺失值填充的方法有:列均值填充、列中值填充、临近点均值法、列众数填充、线性插值填充、固定值填充等方法。

相关应用

缺失值填充主要目的是对数据进行补充,使能够用分析算法进一步的分析挖掘数据之中的规律和价值

参考资料

马克威分析系统使用教程,http://www.tenly.com

实例

示例数据为某小学三年级部分学生的体重数据(单位为:千克)

编号 体重
1 52
2 42
3 31
4 48
5 33
6 35
7 46

1)根据列均值填充法:

编号为4的学生体重=(编号1+2+3+5+6+7)/6=40

得到的结果为:

编号 体重
1 52
2 42
3 31
4 40

2)根据列中值填充法:

编号为4的学生体重=(编号3+5)/2=32

得到的结果为:

编号 体重
1 52
2 42
3 31
4 32

当然还有许多种其他的填充方法,这里就不一一介绍,根据实际的情况选取合适的算法进行计算,以便得到精确的结果。

输入输出

输入变量类型:数值型数据

输出结果:给出经过缺失值填充处理后的数据结果

相关条目

数据处理、中值填充、众数填充

优缺点

优点:让数据更完整,有利于进行数据统计分析。

缺点:填充的数据与真实数据存在偏差,对结果有可能产生影响。