中文校对软件
在出版业“告别铅与火”以后,校对成为出版环节中的一个瓶颈,而利用电脑进行中文校对则给出版业带来了解决问题的希望。
color=”#800000″>1、中文校对软件的发展历程
1993年我们开始研制“黑马文字校对”1.0版。到了1994年4月,我们做出了演示盘,并参加了当年的“京交会”。六天的展会下来,我们一共销售了60多套校对软件。
首战告捷以后,校对软件成为公司最重要的产品。然而,尽管我们抢到了先机,但在1995年初,我们还是陷入了很多新技术公司都遭遇过的困境:仿佛在一夜之间,冒出了七八家公司的中文校对软件。经过艰苦的努力和六个版本的改进,黑马文字校对终于在市场站稳了脚跟。
在传统的二分检索法的基础上,我们采用了一种特别的技术来转换知识库和建立索引,能够节约50%到66%的存储空间,这意味着运行速度可以提高二到三倍。我们还有一种技术是通过增加一个检索过滤器,可以大大减少硬盘查询次数,最多时可以减少80%的查询量。
有了这些技术手段,我们进一步积累和加大知识库的容量。一方面是通过各种手段收集语料,另一方面则是加强语料处理能力。到1998年,我们已经积累了10亿汉字以上的各种语料。
自1996年起,我们开始开发黑马校对软件Word版,直接校对在Word中编辑的文件。但是由于一些限制,在Word中很难实现专业校对所需的功能。因此我们下决心要开发一个全32位的编辑校对软件,那就是现在的编校98。
Windows版中文校对软件需要解决文件格式的处理问题。相对来讲,PS是国际标准格式,S2文件我们以前做过文本转换,而Word文件格式虽没有公开,但好在Word文件可以存为RTF格式,这样我们就有办法了。在Windows95/98的年代,中文校对软件终于经受住了挑战和考验。
2、中文校对的未来
一方面,校对要朝专业化方向发展;另一方面,随着校对功能逐渐成熟,我们也在努力把它普及化,特别是要进入主流排版系统和主流字处理软件。我们已经和IBM公司做过合作,具体是在Lotus的WordPro之中;我们还曾经跟联想汉字系统合作,把校对功能加入到联想Office之中。?
在Internet大潮中,我们可以利用网络来发展校对业务。从1997年起我们开通网络校对,用户只需将他们要校对的文件通过电子邮件传给我们,我们用电脑校对软件校对以后,再将校对的结果传回给用户,整个过程中我们不收取任何费用。通过一年多的运行,我们已有了80多个用户
从做校对的角度出发,目前一个语料库至少需要64亿到400亿汉字之多。这么大的语料库的收集、整理、加工和应用需要巨大的投资,把它仅仅用于文字校对实在是大材小用。而且,校对的基础是上下文相关分析,这也是其他很多软件的基础,像键盘智能输入、OCR识别后处理、语音所以,我们希望以某种方式建立一种共享的语料库,把中文校对发展成为信息处理的利器,这就是黑马人最大的心愿。