数据清洗是将224家上市公司中,不具备设定的50个指标的公司删除掉,并且删除一些空值与重复值,清洗后,只剩下156家公司,如图所示。
对数变换是数据变换的一种常用方式,它可以将一类理论上未解决的模型问题转化为已经解决的问题。平时在一些数据处理中,经常会把原始数据取对数后进一步处理。本案例中取对数作用主要是缩小数据的绝对数值,方便计算。对数变换前后对比如图所示。
数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
数据的标准化一般分为正向标准化与逆向标准化。正向化是指让正向指标的数字越大越好。正向化的结果是数据压缩在[0,1]范围内,即进行了量纲处理。当某些数据刚好为最小值时,则归一化后为0;如果数据刚好为最大值时,则归一化后为1。正向化的计算公式:(X-Min)/$2Max-Min$3。逆向化是指对逆向指标(逆向指标的数据是越小越好)进行处理。逆向化的结果也是将数据压缩在[0,1]范围内,即进行了量纲处理。公式可以看出,逆向化时,分母永远是大于0,随着X的增大,分子会越来越小;那么,对逆向指标进行逆向化处理之后就会得到一个特征,即数字越大越好(数字越大时,其实X是越小)。逆向化的计算公式:(Max-X)/$2Max-Min$3。本案例中逆向化的指标数据如裁判文书数量、异常经营次数、行政处罚次数等,除此之外的大部分数据为正向化指标。标准化处理前后对比如图所示。