要充分利用数据压缩技术



  丁一教授早年留学日本,回国后曾任贸易工作,及后任职于出版事业司调研处的统计工作,


  自此便和印刷业结下不解之缘。其著作及著译甚多,在印刷业内声誉极高。


  丁一教授于一九九二年受聘为北京印刷学院董事会董事至今,定期为本刊撰写文章。




  利用数据压缩为的是解消工作流程中的混乱现象。在印前工程中使用的数据大多是大容量的,通常都是100兆或200兆,这对于在办公室中使用个人电脑的人们来说,是超乎想像的巨大容量。


  为此,必然是压缩形式的文件会增多起来。JPEG文件是作为钱色数据的标准式压缩形式,使用频度也逐渐增多。最近,叫做LZW压缩格式比较有名。在Photoshop上,要想将图像数据以TIFF形式保存下来,在选择设定方面,该不该选择LZW压缩格式,值得考虑。另一方面,在DTP的普及方面,上述格式已几乎不出现了,但在扫描纸底版所采纳的数据已经转换为G4压缩的格式了。至今,小至手描插图也是如此。


  为此,关于常用的文件,很遗憾能悉熟压缩方式的操作人员尚不多见。比如说,指JPEG文件的问题所在,说这么做是达不到印刷的品质的,尽管提出了否定的意见,再问在JPEG上究\ 会不会发生这般的问题呢,能够说出原因的人却不多。本文归纳整理有代表性的压缩文件的方式和用途,在实际的工作流程中,不妨采用一下,看看是否能提高生产效率,同时,针对JPEG和G4也打算介绍一下它们下世纪的姿态。





  压缩文件的分类


  成为压对象的图像数据,大体上可分为1像素为8bit的连续调数据和1像素为1bit的二进制数据。将连续调数据归纳成RGB3色或CMYK4色的数据,即全色数据(full color data)。二进制数据常用于将手描插图以扫描机读取时,最贴近的例子就是传真的发报数据。通常使用的传真是G3规格,这里输送著以MH和MR方式压缩的二进制数据。而在印前工程的现场采用的二进制数据的压缩形式是平常称作G4压缩的方式。这严格地说是叫做MMR的压缩方式,是为G4规格的传真用制定的压缩方式。


  除此之外,压缩方式还有另一种区分。即可逆压缩和非可逆压缩。经过压缩的数据被复原时,回到与压缩前完全一样的数据,这方式称可逆压缩。当复原时,与压缩前的数据不能完全一致的,称可逆压缩。





  在印前工程中使用的压缩方式的分类



8bit图像数据

(例:照片数据)



可逆压缩非可逆压缩

LZWJPEG

JPEG200 JPEG2000

(下世纪)下世纪)

1bit图像数据

(例:线条图像数据)

LZW

G4(MMR)

DR(下世纪)



  通常,采用8bit的压缩方式时,以非可逆压缩为多,采用1bit时可逆压缩为多。其理由是,所谓8bit一类的数据,大多是以全色的照片数据为主,而这种数据在眼睛的错觉下容易蒙混过去。可是,1bit类的压缩方式,只要有稍微一点差错,就会变成锯齿状或噪声,明显地表露出来,所以多用可逆压缩方式。





  JPEG压缩为何意


  JPEG是由ISO和ITU-T的共同作业集团制定的规格,属于国际规格的静止图像用数据压缩方式。它是在扩充子上附加了[.jpg]的数据,近来广为互联网上使用。本来是压缩式自身的名称,不在不觉地格式名称也叫起JPEG来了。实际上,一般所用的形式是叫做JFIF的方式,其他尚有主要用于数码摄像机的附加有摄影情报的EXIF和CIFF形式。





  JPEG的压缩顺序大致可以区分为三个阶段。


  (1)频率转换


  首先将图像数据分割为8×8的方块,分别以离散余弦转换(DCT)的方法,转换为频率特性。例如,有细微明暗的岩层等属于高频,晴朗天空带柔和变化的图像属于低频,将这类图像特性称做频率特性。作为对它采取数值化的方法,才使用DCT (data characteristies table)的。


  (2)量子化


  人们的眼睛对于有细微明暗的高频部分,具有钝感的特性。利用这点,将从高频转换的数据中,仅将高频部分舍去。这么做后,数据量有所减少,但纸频部分仍保留下来,所以在视感方面,与原数据没有多大的变化。


  (3)编码化


  将经过量子化的数据,进一步以哈夫曼编码法进行编码。这个方法是,对经常发生的数值给予短符号,对于不经常发生的数值给予长符号,这样做后,总体上属于将数据量递减的一种压缩方式。


  JPEG的场合,将量子化的层次借助Q表的值可以可变地设定,若加大Q表值,压缩率会有所提高,但画质恶化。相反,减少Q表值,压缩率虽有下降,但画质得到维持。经常作为JPEG的要点被提出来的是,即在Q表中投入大值的情况。这么一来,用8×8方块处理的缺点便呈现出来,在画面上呈现[情报块杂音],如同在轮廓部分上有过缘的部分,其周围发生噪声呈现蚊音。对于上述的问题,靠在Q表中投入适切的值,可以得到某种程度的改进。例如,在Photoshop上,用JPEG来保持图像数据时,借助选件,可以投入画质层次,此值即Q表值。





  JPEG2000可否成为下世纪的标准


  *有情报块杂音(block noise)和坟音(mosquito noise)的JPEG之缺点,可以说在于分割为8×8方块而产生的DCT处理和其后的量子化。于是研讨起使图像能连续流通进行描述的新方式,这就是采用子波转换(wavelet transform)的方法。称此为JPEG2000,在ISO方面,本来预定在2000年中完成标准化。


  根据采用子波转换,在JPEG 2000上,可以无间隙地执行可逆压缩和非可逆压缩。而且还能做到扩充式地延伸,所以对同样的JPGE 2000文件可改成复数不同解像度。例如,将1种JPGE 2000文件置于Web上,等于从这可以引出草图用的低解像度数据和印刷用的高解像度数据。无疑是可以与RGB,CMTK,CIE Lab的色彩空间相对,预计色彩管理环境也会准备。已经由Lura Tech公司生产的Photoshop用插入式等,正大提供能使用JPEG2000的环境。至于取代目前的JPEG,要想达到标准的地位,估计还需要些时间,但以品质为优先考虑的印刷领域,很有可能会早日使用。





  在专利问题上摇摆的LZW和GIF


  LZW为美国UNISYS公司持有专利权的压缩方式。作为可以补偿8bit和1bit双方的可逆压缩方式,曾经用得相当普遍。另一方面,GIF是在互联网常用的压缩格式,对应256色的色样的压缩方式。事实上,GIF的基本压缩方式中,早已采用了LZW,但是UNISYS公司针对利用这LZW的应用软件或方式徵收了专利使用费。GIF的场合原本是适应多数的免费软件,但既使这样,UNISYS公司也是徵收5000美元的专利使用费。因为这层原因,近来LZW不太被人采用了,对于GIF也提出可用PNG的新方式来取代。在印前工种的工作流程上,有直接关系的倒是TIFF/LZW。这是当前最为普通的8bit图像数据用的可逆压缩方式,所以在TIFF输入可能的打样工程则采用LZW方式过渡。然而,这也将会因JPGE 2000的出现渐渐地替换下来。





  在CTP上可用1bit数据压缩技术


  通常,CTP(电脑控制直接制版上,使用著没有层次的只有墨白的图像,也就是1像素只用0和1表示的1bit图像数据。例如,在CTP上,为了输出,经过RIP处理的PS数据被1bit数据化,利用任意可变功能(on the fiy)转给CTP,一旦被压缩便可作为文件储存于磁盘中。


  作为1bit图像数据用的压缩方式,主要有高效编码法(run Length encoding)和预测编码法的二种,均为可逆压缩。一般称做G4压缩的方式多指MMR(Modified Modified Read)压缩方式,此方法乃是高效编码法之一。高效编码法的原理是,图像数据上的黑白长,即1bit的0和1排列的个数经过编码之后才将数据压缩。例如图1中所示,遇到1bit图像数据时,最初的扫描线上由X1到X10排列了10个0,在下一个扫描线上,由X1到X13排列着3个0,由X14到X17排列着4个1,由X18到X20排列着3个0。以下类同,所有的扫描线同样可经借助0和1的像素排列来表示。实际上,在1bit数据上,0和1必定交错反复排列,如果事先知道这个图像数据是以10×5的像素构成的,那就可以简单以13,4,6,、,2,6,4,13,来表示。


  



图1 高效编码法



  但是,稍加仔细想一想这种方式,只需使0和1尽量排列得长些,反复频度少的场合,压缩率才能提高;反之,0和1的个数少,而反复频度多,压缩率就不可能升高。


  诸如上述,单态高效编码法的基本原理手法,压缩率的升高有个限度,于是实际上是兼并使用着哈夫曼编码法,或者是上述的检测出于扫描线数据的相关关系后进行编码的二维码法等。然而,对待0和1的反复频度愈,高导致压缩率下降,很难越过向效编码法原理的界限。从而设想出来的是预测编码法。


   预测编码法的有代表性的方式是JBIG(Joint Bi-Level Comqression Group)压缩方式。通常构成图像数据的象素是与其临近的像素具有密切的相关关系。于是,在JBIG上对某像素进行编码时,如图2所示对比是事先规定的临近像素位置(template)的预测像素值X1到X9及A和实际的参照像素值X1到X9及A,仅对不一致场合,将参照像素值记入数据。因此,对于JBIG这种预测编码法,如果预测正确,就没有必要将对象像素值记入数据中,民以说,予测愈是正确,其对果等于压缩率升高。


  JEIG对于0和1的反复频度高的图像数据,也能保证一定的压缩率,尤其是对经过网点处理的图像数据,与MMR压缩方式相比,可获得5-6倍的压缩率,因此,已经作为新的G4规格传真的压缩方式,促进标准化作业,目前又发表了扩充规格的JBIG 2。


  



图2 预测编码法






  DR压缩方式的特徵


  如上所述,JBIG是着眼于编码对象像素和其临像素之间的相关关系,将临近的10个像素位置当作模板。但是,犹如CTP用据的情况,经过网点化的1bit图像数据,其临近像素的相关关系较低,莫如远离的像素之间倒有较强的相关关系。


  最近研制成功的DR压缩方式,是与JBIG 2属于同样的预测编码法,根据独特的手法,提高了压缩率。DR压缩方式中的DR是分散参照(Dispersed Reference)的意思,源自模板(template)的特徵,亦即将模板设置的参照领域扩充到256像素成为可以将10个参照像素安置在此领域内的任意位置。(参照图3)


  另外,对于模板形状的决定,根据采用将基因时化的适应过程经过模式化的遗传算法,可以获得极高的最适当处理,当使用遗传算法时,用叫做染色体的字符行,将实际的处理结果的优劣依靠染色体 评价值求得,最终导致最适宜条件。


  DR就是根据分散化的模板形状和遗传算法相组合,与JBIG相比较,提高了2倍左右的压缩率。这是以一般的网点形状的数据作为前提的,对于发生无规则网点形状的调频加网的场合,能收到最理想的效果。


  



图3 编码对象象素



  本来高编效码法对于调频加网那样的数据是最棘手的,有时候会使想压缩的数据变成增大的情况。JBIG的情况,倒不至于出现这种逆转的现象,但临近像素的相关关系,遇到调频加网的场合,由于愈来愈淡薄的缘故,预测像素值的正确率便下降,压缩率本身也不得不大幅度下降。在这方面,DR却由于采用遗传算法,可以将分散参照像素位置帮到最适当处理,所以既便是调频加网,也能维持一定的压缩率。这方面又可以在CTP工作流程的应用上,获取最大的效益。

[时间:2001-03-06  作者:丁一  来源:印艺学会月刊202期]

黄品青微站