打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【传统文化】汉字数码简介:汉字数码(卷一)汉字数码概述




 





【传统文化】
 
汉字数码简介
汉字数码(卷一)
汉字数码概述


第一章 总说

    人类已经进入到了二十一世纪,但是,世界信息科学领域里许多世纪性难题仍然悬而未决。人机对话作为人类梦寐以求的崇高理想,吸引了许多世界级巨擘参与,他们投入了数百亿美元的资金,其语音产品仍难令人满意。微软虽然垄断了世界电脑操作系统,却难以应对手机等随身携带数字化产品的操控需要。

    中文信息基本上停留在字处理阶段,加密效果不理想,检索效率也不高,就连手机中文输入,也需要从国外进口技术。虽然国家倾力扶植民族信息产业,由于中文信息化建立在电脑拉丁化的基础上,导致我国信息产业发展永远也赶不上西方发达国家的步伐,在许多关键信息领域仍将受制于人。

    正当我们痛切感到困难和无奈的时候,这个世界突然变了,信息数字化异军突起,取代信息拉丁化之势不可阻挡。中文信息处理乃至中华文明面临着一个历史性大机遇,即通过汉字数字化来实现我国信息科学技术对西方发达国家的全面超越,进而引领世界信息科学技术的发展潮流。

    本世纪伊始,在中国西部成都诞生了一个叫做汉字数码的发明专利。这个被称为输入法的技术,并没有引起人们太多的兴趣和关注。殊不知,唯一做到了有规则、无重码的汉字数码,竟是一种高效率数据算法,一种数字化计算机语言,一种多媒体用户界面,一种数字语音识别模式,提供了中文输入、检索、加密、存贮、传递等一揽子解决方案,巧妙地解决了中文分词、中文加密、电脑编程、人机界面、语音控制、人工智能等一系列关键信息领域里的难题。通过汉字数字化,它要将中文信息处理的各环节、全过程统统建立在数字化的基础上,从根本上摆脱拉丁化的束缚,开创全数字计算机的新时代。

高效率数据算法

中文分词技术、中文检索技术、中文压缩技术、中文传输技术、中文输入技术、中文加密技术……

数字化程序语言

计算机编程技术、计算机操控技术……

多媒体用户界面

字符用户界面、图形用户界面、数字用户界面……

语音识别模式

数字语音识别技术、数字语音操控技术……

人工智能模拟

智能操控技术、人工智能技术……

    汉字数码第一次将隐含在汉字字形中的“理”通过“数”的形式准确地表达了出来,将东方“物物皆有理”和西方“一切皆是数”两大哲学观点统一了起来。它使汉字成为了计算机唯一可以计算、可以理解的文字,只要通过简单的规则,就能模拟复杂的思维,构造出自主思维、自主行动的新一代机器人。

    汉字数码第一次将深藏在汉字字形中的数字化基因发掘了出来,将汉字与数字之间的神秘关系揭示了出来。作为我们中华民族开启汉字文化宝库的一把金钥匙,它将汉字文化优势转化为科学技术优势,产生出巨大的产业化效果。作为让汉字重放光芒的一项伟大发明,它让中华民族为之振奋,让全世界为之震撼。

    当计算能力不再是瓶颈,当计算机、手机、掌上电脑和各种智能机器都通过有线或者无线网络连接起来的时候,信息技术的热点和软件市场的竞争焦点,自然地转向了人机智能交互技术。以汉字数码为代表的数字交互技术,正是提供了这样一种成熟的技术,低成本、高效率并且十分准确地实现了人与信息终端、通讯终端的交互和沟通。

    汉字数码的发明以及随之而来的汉字数字化浪潮,将以数字键盘代替字母键盘,以数字和声音代替字符和图形,使人类摆脱鼠标、显示器、甚至键盘的束缚,以一种无处不在的计算模式和无时不有的交互模式来操控范围更广、种类更多、数量更大的数字化产品,从而使人类的生产效率和生活质量产生质的飞跃。

    我国业已形成强大的产品制造业,数字操作系统、数字语音芯片这两大数字化核心产品的问世,将立即形成强大的数字化产品生产能力。数字化产品所用的操作系统和数字语音芯片的数量远远超过了个人计算机,这个潜力巨大、前景广阔的市场将孕育出一批可以与微软、英特尔相媲美的中国籍、世界级企业。

    汉字数码得到政府有关部门、科研机构和社会的高度关注,成为了中国科学院虚拟经济与数据科学研究中心直接孵化的高科技项目。商务印书馆高度评价汉字数码是“一项具有划时代意义的伟大发明”。在十一届全国人大一次会议上,四川代表团代表提交了一份议案,建议成立国家汉字数字化委员会,统领汉字数字化工作,以汉字数码为主体内容制定《汉字数字化方案》,将其纳入国民教育体系,以解决我国信息技术的核心问题,推动汉字数字化产业发展。

第二章 汉字数码概念

    汉字数码,即汉字数字编码的简称,是一种使用阿拉伯数字来表示汉字的规则和方法。

    汉字数码具有以下三大特点:

    一.定义了九种汉字笔形

    汉字数码以汉字的四个基因和五个最简基因组合为基础。这些基因及其基因组合构成了全世界所有的汉字。将其与九个数字相对应,数字键盘就成了地道的中文键盘。从此,在十几个键的数字键盘上处理中文信息,比在一百多个键的字母键盘上还要方便快捷。它不仅适应了移动电话、移动电脑和数字电视等数字化产品的操作要求,而且大大降低了国民操作数字化产品的门槛和难度。

    二.将汉字与数字一一对应起来

    人们只要掌握了汉字数码几条简单规则,就能将汉字从文字形态转换成数字形态,数字形态也可以转换成文字形态,而且这种相互转换具有唯一性,不会出现信息失真现象。从此,我们只要通过数字键盘或者数字语音,就能准确无误地控制机器,或与机器进行对话。汉字数码不仅创造了一种人性化、数字化、智能化的人机交互模式,而且开辟了数字语音识别新领域。

    三.平均两个数字表示出了一个汉字

    汉字数码平均两个数字就唯一地表示出了一个汉字,而汉字内码使用五个数字才表示出一个汉字。这就意味着,同样内容的中文信息,汉字数码的存储空间和传递时间将减少一半以上,中文信息的处理速度将提高一倍以上,因而对微处理器芯片的处理速度和存储空间要求更低,可以直接采用国产芯片生产,其制造成本将大幅度下降。

第三章 神奇的汉字数码

    汉字数码是二十一世纪将对我国信息化进程产生重大影响的一项专利技术。这项发明提出汉字只有九种笔形。全世界所有的汉字,无论是中国的简体字、繁体字、异体字,还是日本国汉字、韩国汉字、新加坡汉字,都是由这九种笔形像搭积木一样构建而成。将这九种笔形分别用九个数字来表示,就构造出了汉字数码。汉字数码的神奇之处,就在于能将汉字、词语、句子用数字非常简约地、完全唯一地表示出来。

    一.汉字输入

    使用汉字数码在数字键盘上输入汉字,就像在字母键盘上输入英文那样轻松自如,只要按照笔画顺序输入汉字笔形,就能自动组合成所需的汉字、词语和句子,操作之方便,输入之快捷,令人拍案叫绝,不可思议。

    二.汉字检索

    使用汉字数码在数码字典上查找汉字,就像在牛津辞典上查找英文那样简单快速,只要将汉字笔形转换成汉字数码,就能准确地翻到所找的那页,不像汉语拼音那样需要在同音字之中寻找,更不用说数字顺序人人都会了。

    解决了汉字在数字键盘上的输入问题,解决了汉字按照字形直接翻页的检索问题,这只是汉字数码应用中的冰山一角。汉字数码使汉字成为了世界上第一个完全数字化的文字,对我们的工作、生活和学习所产生的影响力,也许最富有想像力的人也很难描绘出来。

    四.电脑芯片

    现代计算机是以英文而不是汉字为基础设计的,因此不可能在设计上先考虑到中国人的利益。语言上长期处于劣势,使我国软件产业远远落后于西方国家,甚至落后于印度。汉语编程,由于外挂字库受到存储和速度的双重制约,难以应用于计算机软件系统,即使勉强容纳,也是以牺牲效率或者增加成本为代价。


    汉字数码将汉语编程指令统统代之以数字指令,计算机语言成了纯数字语言,不仅摆脱了汉字库这一累赘,而且超越了英文编程的效率。它变革、颠覆了现有PC架构,直接从最底层的机器语言方面入手,彻底解决了中文数字化问题。这是一场从计算机中央处理器展开的,亦即从信息技术的源头展开的革命,因而是最彻底、最深刻的革命。

    五.人机对话

    人机对话是人类进入工业文明时代后梦寐以求的崇高理想。几乎所有的世界级IT巨擘,如微软、英特尔、摩托罗拉、IBM,在语音识别领域都投入了数以百亿美元计的资金,仍然没有取得实质性突破,其根本原因在于他们没有找到一条让机器准确无误地听从人类口令的捷径。

    汉字数码将汉语语音转换为数字语音,使机器从需要识别千万个汉字字音到只需要识别十个数字语音。让机器准确无误地识别出十个数字声音,已不存在技术障碍。数字语音识别技术对计算机的性能和配置要求不高,不仅使语音产品的制造成本大幅度降低,而且使语音技术的应用领域大面积扩展,尤其适用于需要控制机器的重要领域。


    六.用户界面

    图形用户界面既可以建立在字符指令的基础上,也可以建立在数字指令的基础上。中文界面原是对英文界面的汉化,由于汉字数码的发明,中文界面则完全可以在数字指令的基础上独立地发展起来。以数字指令作为底层语言,可生成并且兼容现有各种用户界面,而不侵犯别国的知识产权。

    在数字指令的基础上,还可以发展出数字用户界面,从而实现数字键控和数字声控。数字操作系统以数字键盘代替字母键盘,以数字和声音代替字符和图形,使人类摆脱鼠标、显示器、乃至键盘的束缚,以一种无处不在的计算模式和无时不有的交互模式来操控范围更广、种类更多、数量更大的数字化产品。

第四章 高效率算法

    汉字数码是一种高效率算法。

    将汉字信息转换为数字信息之后,只要对这些数字信息实施某种算法或者建立某种规则,就可以产生出许多非常有价值的汉字信息处理技术,并且提供中文信息处理一揽子解决方案。根据不同应用,将汉字数码或者按照一定规则组合而成的数字语言,通过数字键盘或者数字语音输入机器,由机器将汉字数码或者数字语言还原为汉字信息或者执行相应任务。这些完全规则的汉字数码或者数字语言,机器能够准确识别和正确理解。


    一.数码文件

    我们使用汉字数码将汉字文件转化为数码文件,这个转换结果是唯一的,所以数码文件就是汉字文件的另一种形式。例如,在“中国科学院”中,“中国”的数码是“929”,而“929”只对应“中国”,“科学院”的数码是“57883”,而“57883”只对应“科学院”。由此形成的数码文件“9290578830”,就是汉字信息的等效形式。

    由于数码文件的信息形态本身是数字,用不着转化为汉字内码。而在此之前,由于计算机不能直接处理汉字文件,必须在计算机内部通过编码将这些汉字转化为数字,这些数字编码就是汉字内码。这样一来,汉字数码可以代替汉字内码进行汉字信息传输、存储和处理了。

    通过汉字数码将中文文本转换为数码文件后,数码文件便具有了与拼音文字相同的结构形式。在中文信息处理中,我们就可以采用现代语言学的最新研究成果,引入西方文字处理的先进科学技术,中文信息处理便可与西方文字处理并驾齐驱了。


    二.统一内码

    现在全球的汉字内码并没有统一,中国大陆是一套,中国台湾是另一套,其它华人地区还有十几套。因此,我们从网上看到的台湾地区的网页都是些乱七八糟的符号,当然,台湾人民看到我们的网页也是这个样子。汉字数码为统一汉字内码提供了平台,将汉字数码作为汉字内码使用,统一全球汉字内码,实现全球汉字信息互联互通。


    三.消除乱码

    汉字数码代替汉字内码后,彻底消除了汉字乱码问题。访问网站时,网页上一片空白,或者是些堆乱七八糟、莫名其妙的符号,阅读电子邮件也会出现这种情况。这就是由于汉字乱码造成的。

    汉字乱码产生原因在于汉字内码与字母内码互不相容。字母内码是单字节的,而汉字内码则是双字节的。由于计算机不能有效地处理汉字和其它文字的混合转换问题,因而常常出现乱码或者白版现象。汉字数码代替汉字内码后,乱码现象完全消失了。这是由于汉字数码使用数字“0”作为词界,即使在存贮、传递过程中出现个别数字字符错误,也不会影响到其它字词数码,而不像汉字内码,只要丢失一个数字符号,后面的汉字内码将全部出错。

    例如,“中国科学院”的内码是“20013 22269 31185 23398 38498”。假设其中第3个数字在存取过程中丢失,就会使后面汉字内码重新组合,造成该数码所在字及后面汉字全部出错,变成“20132 22693 11852 33983 8498”,由于没有对应汉字,只能显示为白版。

    “中国科学院”的数码是“9290578830”。假设其中第3个数码在存取过程中丢失,只是该数码所在字词产生错误,不会产生连续错误,其数码“920578830”仍将对应着“中科学院”。


    四.中文分词

    英语词语之间是用空格分开的,而汉语是粘连语,词语之间就没有空格。我们在阅读汉语时,凭所积累的知识和经验,就能轻松地将这些词语分开,来理解这些词语组合成句子所表达的意思。但是,计算机没有这些知识和经验,它无法将这些汉字准确无误地分割成一个个词语。这样一来,计算机在处理汉语信息时就遇到了巨大困难。比如机器翻译,如果连词语都分不对,翻译出来的东西是个什么样子的,就可想而知了。再比如,上网查资料时,在输入查询内容后,经常出现大量我们并不需要的内容,令我们哭笑不得。

    一个小小分词问题,不知难倒了多少专家权威,更阻碍了我国汉语信息处理的技术进步。在外国文字都用词语来处理信息的时代,唯独我国文字还基本停留在字处理阶段,其间的差距是显而易见的。

    汉字数码非常巧妙地解决了这个问题。在使用汉字数码输入汉字时,每输完一个词语,就要按一下数字“0”键。这个数字“0”就是汉语词语之间的分隔符号,相当于英语词语之间的空格。

    例如,“中国科学院”分解为“中国”和“科学院”两个词语,它们的数码分别是“929”和“57883”。输入“中国科学院”时,用数字“0”作为确认符,输入的这串数字是“9290578830”。这些数字“0”又是词界符,它的存在将各个词语数码准确无误地分隔开了,从而巧妙地解决了中文分词的难题。毫无疑问,使用数字来表示词语之间的界限,较之使用空格来说,在技术上是个很大进步。

    五.信息压缩

    采用汉字内码,五个数字表示出一个汉字,而采用汉字数码,平均两个数字表示出一个汉字,汉字数码的数位仅为汉字内码的40%。由此推论,汉字数码的传递、存贮和处理效率是汉字内码的250%。


    从这个角度来看,同样内容的汉字信息,汉字数码所占用的存储空间只有汉字内码的40%,这就是说,原来需要存储在两张半光盘上的汉字信息,现在只需要一张光盘就够了,或者说,原来传递两个半小时的汉字信息,现在只需要一个小时。最重要的是,汉字信息处理效率因此提高了一倍以上!


    六.扩展性强

    汉字数码对编码位数没有限制,其编码空间趋于无穷,容纳得下全部汉字和词语。所以在增加字词编码时,用不着去改动原有编码,只需在原有编码的基础上不断添加就行了。

    汉字内码对编码位数有限制,具有确定不变的编码空间。一旦增加新的编码,原来的编码就会被打乱。当编码数量增加到一定限度时,再也容纳不下新的编码了。

    七.兼容性强

    随着词语量的增加,单字构成了词语,短词语构成了长词语。但原来的单字数码或者短词语数码仍然不变,复原效果也不会改变。

    例如,将“中国科学院”分解为“中”、“国”、“科学”、“院”时,它的数码文件是“920950578803840”,也转换为“中国科学院”,所不同的只是数码长度增加了。

    八.信息生成

    输入“中国科学院”5个汉字需击10次数字键,平均码长为2.0,而五笔字型的平均码长是2.5左右,这就意味着,在数字键盘上输入汉字比在字母键盘上还要快。


    汉字数码平均两个数字唯一地表示出了一个汉字,而一个汉字承载的信息相当于3.6个英文字母,即1个数字表示出了1.8个英文字母。所以,中文信息的生成、存贮、传递、检索的效率至少是英文信息的1.8倍。中文信息处理效率首次超越了英文,其意义重大而深远。例如,在战争状态下,哪怕信息的生成速度快10%,也能决定整个战争的走势。

    九.信息检索

    取汉字前4个数码作为检索码,平均每个数码只承载3个通用汉字。而采用汉语拼音检字,平均每个音节需承载近20个汉字。

    取海量汉字信息前6个数码作为检索码,99%以上的汉字信息一检必得。而采用汉语拼音前6个首字母来检索信息,仅有80%左右的汉字信息一检必得。

    十.信息加密

    由于数码文件是一堆数字,我们就可以对这堆数字实施数学运算,使其变成一堆破译难度巨大的乱数,这些乱数既可以存贮在计算机硬盘和光盘中,也可以通过网络公开传递,在防火墙、加密狗等信息隔离措施失效的情况下,仍然能够保证国家机密、军事秘密、商业秘密和个人隐私的安全。

    当然,汉字内码也可以做到这一点。但是,由于汉字内码存在乱码现象,对汉字内码实施数学运算并不能保证汉字信息存储和传递的安全性,反而会增加安全隐患。同时,由于人们掌握不了汉字内码,就不能使用汉字内码进行人工加密,不能随时改变加密方法,而只能借助于计算机软件的加密功能,而计算机软件加密功能是比较容易被破译的。

第五章 汉字数码编程

    一.计算机语言数字化

    计算机语言是一种形式化语言,汉字数码也是一种形式化语言。这是因为它们都有明确的规则,所表达的含义都是确定无二的。人类的自然语言不是形式化的语言,充满了不确定性。我们开发软件的过程,实际上就是把自然语言这种非形式化语言翻译为形式化语言的过程。例如:

    open ←→ 打开 ←→ 1256

    copy ←→ 复制 ←→ 5452

    dele ←→ 删除 ←→ 3238

    在计算机语言中,由于每个命令和运算符号都有单义性、唯一性,所以,只要程序编制是正确的,其结果都会准确无误。汉字数码的处理也是如此,由于每一字词对应着单一的、唯一的数码,只要处理方法是正确的,其输入输出的结果也是准确无误的。

汉字数码的特点决定了它可以作为计算机语言使用,只不过这种语言既不同于由0和1构成代码的机器语言,也不同于采用英文缩写构成指令的各种编程语言,而是由我们中国人发明的、适合于我们中国人使用的一种数字化计算机语言。计算机语言是整个软件业的核心技术,是实现人机对话的工具,掌握了属于自己的编程语言就意味着我们不再受制于人。


    二.打破语言垄断

    信息革命首先是从西方国家开始的。当美国人发明并制造了中央处理器(CPU)后,西方文化更是迅速地转化成了科技。西方信息革命之所以取得成功,主要原因在于西方文字能与中央处理器完全接合,使西方拼音文字能在计算机上进行高效率地处理,由此极大地推动了西方文明和科技文化的进步。

    计算机是美国人发明的,从计算机从诞生的那天起,自然就只懂英文。许多人习以为常了,以为英文是天然的计算机语言。其实,这是一种误解。熟悉编程的人都知道,计算机程序中绝大部分都是逻辑关系和数学表达式,与采用什么语言来描述并没有多大关系。

    虽然计算机编程可以使用任何语言,但是,不同语言编程的处理效率却有很大差别。在各种语言中,计算机处理数字语言的效率最高,其次是拼音文字,中文最低。低效率的中文编程决定了它永远取代不了英文编程。中文信息处理仍将建立在英文的基础上,无论中文信息处理怎么发展,始终比英文落后。我们只能跟在美国人屁股后面亦步亦趋,永不超越的机会。

    汉字数码编程打破了西方对计算机语言的垄断,使中国人拥有了完全自主知识产权的程序设计语言,仅就这一点来说,汉字数码就与五笔字型、汉字激光照排一样具有革命性意义。


    当我们使用汉字数码编程时,其效率比英文编程还要高。信息世界里以英文为主的一统天下的单一文化旧格局由此动摇,而以汉字为代表的信息数字化与以英文为代表的信息拉丁化共存的二元文化新格局就此形成。这为我国信息产业追赶和超越西方发达国家带来了空前的历史性大机遇。牢牢抓住这次机遇,花大力气,下大功夫来开发汉字数字化体系,进而开发多文种数字化体系,我国就能够参与甚至主导相关国际标准的制定,就不会处处受制于人,而且还能将祖宗留给我们的这份汉字文化基业发扬光大,对于提高我国科技硬实力和文化软实力具有划时代的伟大意义。

    三.计算机程序

    计算机界有个著名命题:

    计算机程序 = 数据结构 + 数据算法

    让我们举个例子来看看汉字数码指令是否构成了计算机程序。

    开启空调5小时30分的数字命令是:8956490530

    其中:

    89 ←→ 空调

    5649 ←→ 开启

    0530 ←→ 5小时30分钟

    此例中,三组数码为数据算法,其排列顺序及其位数规定为数据结构。

    四.市场前景分析

    在人类历史上,作为机器心脏的发动机,从来没有单独发挥过作用。蒸汽机、内燃机、电动机一出现,就立即成了机器的心脏,从此与机器不再分离。而作为机器大脑的计算机,在发明后很长一段时间内,只是作为数值计算或者处理具体事务的工具,并没有立即成为机器的大脑,这就偏离了计算机应用的主要方向。

    计算机是作为机器的大脑而存在的,而不是为了代替人类的大脑而存在的,更不是为了单纯处理某些事务而存在的。从这个意义上讲,嵌入式计算机才真正代表了计算机的发展方向。而个人计算机,将来会分解为打字机、上网机、游戏机、学习机、银行机、税控机、财务机,从而改变成为一种嵌入式计算机。


    近年来呈现出的数字化和网络化趋势,使电子设备的功能日益丰富多彩。以手机为例,单纯具有通话功能的手机已逐渐退出市场,取而代之的则是具有彩屏、MP3、摄像头、多媒体短信等功能的智能手机,将来的智能手机还可以观看小幅面的电视新闻、电影、MTV,欣赏各种在线音乐,玩各种新颖丰富的在线游戏等等。要让手机拥有这些花样不断翻新、令人爱不释手的功能,就需要强大的微处理器芯片和嵌入式操作系统的支持,计算机由此开始迈向嵌入式时代。

    在嵌入式时代,汉字数码编程面临着千载难逢的好机会。第一,个人计算机应用软件虽然非常丰富,却很难移植作为嵌入式软件;第二,嵌入式软件因其应用范围广泛、领域特色突出,谁也无力独吞这一市场;第三,我国的嵌入式软件产业,与发达国家的差距并不大,大家基本上处在同一起跑线上。这就为汉字数码编程进入嵌入式软件领域扫清了障碍、铺平了道路。

    没有汉字数码编程,我国在嵌入式软件领域里也会很快地落后于人。在我国,能够熟练掌握英语的人不多,能够熟练掌握计算机语言的人更少。很多中国人不是不想学习计算机编程,而是一看到满屏都是英文,他们就只好放弃了。世界信息软件业的许多发展机会就这样被西方人占了先,甚至被懂英语的印度人抢了先。另一方面,嵌入式软件本来就很小,还要外挂中文系统及其庞大的字库,即使勉强容纳,也是以牺牲效率或者增加成本为代价。因此,中文信息处理面临着更加严峻的局面。

    有了汉字数码编程,情形就大不一样了。一方面,更多的中国人掌握了汉字数码编程方法,能够开发设计出更多更好的数字化产品;另一方面,对于许多数字化产品来说,即使不外挂中文系统及其字库,中国人也能利用汉字数码来操控。由于汉字数码编程比英文编程的效率更高,因而对微处理器芯片的处理速度和存储空间要求更低,可以直接采用国产芯片生产,其制造成本将大幅度下降。采用汉字数码编程的数字化产品不仅体积更小,而且价格更便宜,操作更简单,有利于尽快实现数字化产品的国产化和平民化。

第六章 高度重视汉字研究

    一.语言文字的极端重要性

    无论我们做什么工作,都要使用语言文字。人类之间的交流是通过语言文字进行的,人类对机器的控制是依靠语言文字来实现的。电脑处理的大量数据,大都以文字符号的形式存在。离开了语言文字,电脑只是一堆废铜烂铁,人类只能像野兽一样生存。语言文字在我们的工作、生活和学习中所起的作用,不论怎么强调也不过分。


    语言文字是信息技术的处理内容,信息技术是语言文字的处理方式,信息技术必须服务和服从于语言文字,这是语言文字与信息技术的辩证关系,也是世界各国发展信息产业必须遵循的一项基本原则。美国通过发展信息产业,进一步强化和提高了英文的世界地位:世界上 90%以上的软件程序是用英文编写的、60%以上的网络内容是用英文传递的。与之形成鲜明对照的是,拥有世界上三分之一使用人口的汉字,却落到了只能用于翻译软件英文菜单的地步,以至于我国信息产业经过二十几年的发展,还必须用英文来发展自己的软件产业。

    按照这一趋势发展下去,除了继续为拉丁文字信息产业添砖加瓦外,中文信息产业的竞争力得不到任何实质性的提高,我国信息产业就很难在国际上争得一席之地。汉字是中华民族文化的根,也是我国发展信息产业的源。回顾一下我国信息产业的发展过程,像联想、方正这样的旗舰企业,无不是从发展汉字信息处理技术起家的;像汉字系统、编辑软件、汉字输入、字典软件、即时汉化、搜索引擎这样大紫大红的软件,无不根植于汉字文化的丰厚土壤。

    信息处理与其说是一种技术手段,不如说是一种文化整合。遗憾的是,我国信息产业过度追求技术手段的先进性,严重忽视了文化整合的迫切性,至今还没有充分地认识到汉字对我国经济文化的发展,尤其是对我国信息产业的发展具有至关重要的作用。在当今“国际化”、“一体化”的潮流中,我们似乎忘记了“只有民族的,才是世界的”,自觉或者不自觉地弱化了汉字的影响,以至于汉字信息处理技术得不到应有的重视和支持。


    不要忘了,我们手中捧着的汉字,正是祖宗留下的瑰宝。我们只有将汉字文化发扬光大的责任,没有将汉字文化推向深渊的权力。如果哪一天汉字及汉字文化不复存在了,我们中华民族在世界上还有什么地位可言。这不是一个民族感情问题,而是一个民族生存问题。现在该是我们认真对待的时候了。要想迎来中华民族的伟大复兴,要想在世界高科技领域占有一席之地,从现在起,我们必须像当年搞“两弹一氢”那样,高度重视汉字基础研究,花大力气搞好汉字信息化基本建设。

    二.破除现代信息迷信

    信息论为信息技术发展作了理论上的准备。美国在信息熵理论的基础上,不仅建立起了高效的英文信息处理系统,而且全面解决了英文数据管理的标准问题。我国在引入信息熵理论后,不仅没有在信息熵理论的基础上提出汉字信息处理的方法和标准,反而从理论上“证明”了汉字的信息熵远大于英文、法文、俄文等拼音文字,宣布了汉字是世界上最不适合信息处理的一种文字,只有面临着被替代或者被改造的命运。这一“证明”表面上逻辑严密、无懈可击,实际上却漏洞百出、经不住推敲。由于出自权威人士之口,这么多年来,很少有人对这一结论提出过质疑。


    我们曾经被这一结论震慑过,也为汉字不济的命运悲哀过。不过,在我们对汉字结构规律进行了深入地研究以后,尤其是在发现了汉字基因和发明了汉字数码之后,我们才真正找到了推翻该结论的理论依据和事实材料。

    原来英文、法文、俄文等拼音文字的字母数量一般都在30个左右,因此包含在每个字母中的信息熵就很小。而汉字有成千上万,其随机出现的不确定性比拼音文字字母出现的不确定性要大得多,每个汉字承载的信息量也远远超出了一个字母承载的信息量,因此包含在每一个汉字中的信息熵就很大。这种比较方法的出发点,是将每个汉字都看作是一个字母。如果真是这样的话,即使不用信息熵理论,直接将一个只拥有几十个字母的文字与一个拥有上万个字母的文字比较,孰优孰劣,已是再清楚不过了的事情了。

    不过,这种比较方法显然是违背文字学常识的、缺乏科学依据的,也是站不住脚的。首先,每个汉字都有着明确的意义,而绝大多数字母是没有明确意义的。其次,相当数量的汉字都是单字词,而由字母单独构成的词却是很少见。再次,世界上哪有上万个字母的文字,这个概念完全是强加给汉字的。我们研究发现,汉字确实是有字母的,不过既不是汉字本身,也不是能够拼出汉字读音的拼音字母,而是能够拼出汉字字形的拼形字母(也称为汉字笔形)。


    汉字需要编码,并不说明汉字落后。所有信息都需要编码和解码才能处理,包括英文、法文、俄文在内的拼音文字也不例外。当手持通讯设备和信息设备发展起来,只能用数字键盘上的数字键来处理文字信息的时候,拼音文字字母所具有的优势将丧失殆尽,与汉字一样,共同面临着数字化问题。我们发明了汉字数码,只用九个数字就将数以万计的汉字和数以十万计的词语唯一地表示出来。汉字的这种数字化程度,世界上其他文字无论如何也达不到。这充分说明了汉字是最适合现代信息技术处理的文字,汉字的信息熵在所有文字中是最低的。

    三.争夺标准制定权

    信息市场之争,实质上是信息标准之争。谁掌握了信息标准的制定权,谁就掌握了信息市场的制高点。问题是掌握了信息标准的制定权,如果制定不出符合规律的、普遍适用的、并且具有权威的信息标准,同样也会失去信息市场的主动权。汉字编码就是一个典型例子。虽然国家曾经组织过有关部门、专家、学者对现有的汉字编码方案进行过评审,也曾考虑过集中力量搞一个汉字编码标准方案,然而种种尝试和努力最终都没有了结果,至今仍是全民科研、万“码”奔腾。不仅浪费了大量的人力物力,而且占用了信息通讯设备的资源,还给人们一种汉字难以处理的不实感觉,将不少不懂汉语拼音的人挡在了信息高速公路之外。如果这个问题不解决,不让尽可能多的中国人接触信息科技,中国的信息化进程就会受到很大影响。
 
   
    汉字信息标准化的核心是汉字标准化。要实现汉字标准化,汉字拼形字母必须首先标准化。要在科学研究的基础上,对汉字拼形字母实行定性、定量和定位。所谓定性,就是对汉字拼形字母进行科学定义,建立统一规范的判别准则;所谓定量,就是保持汉字拼形字母数量的唯一性,不因研究者和使用者的不同而任意变化;所谓定位,就是汉字拼形字母在键盘的位置是固定的,不因设备和用途的不同而随意更改。 

    国家对汉字信息化的基本建设历来都是重视的。一系列汉字规范和标准的相继颁布实施,对实现汉字信息化和发展信息软件产业起到了非常重要的作用。然而,有两个关键性因素制约了汉字信息化的基本建设,以汉字信息为基础的我国信息软件产业因此没有达到应有的水平。 

    一是汉字基础研究严重滞后。随着我国综合国力的显著增强和国际地位的显著提高,国外正在掀起一股股“汉语热”、“汉字热”,与此形成强烈反差的是,在我国,汉字汉语及其承载的中华文化,其地位和影响却每况愈下。汉字基础理论的研究,由于不能够迅速带来成果和效益,很少有人问津。像发明汉字数码那样,研究人员静下心来,花费十几年时间来解决汉字某一基础理论问题和基础应用问题,实属少见。 

   
    二是汉字基础研究深度不够。发展我国信息软件产业,最缺的既不是资金,也不是政策,而是具有影响力和震撼力的原创性发明。只有拥有世界级的自主知识产权、核心技术和国际标准,我们中国人才有可能在信息技术领域里有所作为。而最富文化底蕴的、最具市场前景的、最易形成突破的,就是汉字信息处理技术。汉字信息技术的落后,根源在于汉字基础研究的薄弱。只有在汉字基础研究方面出现重大突破,才有可能引发汉字信息技术质的飞跃,才有可能迎来我国信息软件产业的跨越式发展。以发明汉字基因为开端的汉字数字化工程,涉及汉字信息处理的许多重要领域,以中国人的高度智慧,以数字化的特殊方式,提供了解决嵌入操作、语音控制、人工智能等诸多信息通讯领域尖端问题的简单方法和有效途径,由此产生的深远影响及其示范效应,使我们完全可以期待汉字基础研究百花齐放、硕果累累的那一天,期待汉字发挥出巨大威力、推动着中国经济和社会全面腾飞的那一天。 
   
    
第七章 历史性机遇

    一.历史的悲哀 

    有一种观点曾经非常流行,说汉字不如英文,要求废除汉字,要将中文改变为拼音文字。因为英文只有26个字母,而中文则有成千上万个汉字。在电脑上处理文字时,英文根本不需要编码,英文是由哪几个字母组成的,就敲哪几个字母键。只要会英文字母,就会电脑操作。

    无字母的汉字使我们中华民族不仅错过了一个打字机时代,还差点与现代高科技的精灵──电子计算机失之交臂。智慧的中国人发明了一个个汉字编码方案,终于使汉字顺利地进入了计算机运行。然而,正是由于没有发现汉字拼形字母体系,给我们中国人的社会生活造成了很大困难。两千年前我们中国人开始编字典,一百年前我们中国人开始拍电报,二十年前我们中国人开始用电脑,无不遇到很多麻烦。

    在文字拉丁化时代,无论我们的汉字编码方案有多么完善,较之不需编码、不经转换,只有二、三十个字母的英文、法文、俄文,还是落后一大截。我们一直无法彻底甩掉“汉字落后”的帽子,一直不能从根本上摆脱“汉字拉丁化”的命运。

    二.数字化来了

    好像上帝特别亲睐中国人似的,就在我们为了适应电脑的字母键盘,而不得不强迫自己去练习指法的时候,就在我们为了能在字母键盘上打字,而不得不强迫自己去死记字根的时候,手机出现了,机顶盒出现了,还有数不清的数字化产品,如电子笔记本、电话机、掌上电脑产品等。在这些场合,你不可能将26个字母的标准键盘摆到面前操作。这类小产品或手机的尺寸,一共就手掌这么大,无法设置一个标准键盘,人们只好摆脱26个字母键的束缚,利用电脑、向通讯设备上10个数字键处理文字信息。


    这回上帝又让我们使用最擅长的一只手了,确切地说是三个手指头。中国人吃饭用的是筷子,三根手指头操纵着两根小小木棍儿,上下运行,夹、挑、翻、拽,灵活自如,外国人想学都学不会。更有意思的是,外国人吃惊地发现,曾令他们骄傲的字母键盘早晚要让位于数字键盘,而在数字键盘上处理拼音文字,字母不再神气了,和汉字一样需要数字编码。

    三.汉字数字化

    信息技术的发展,尤其是互联网、移动通讯和数字电视的出现,迫切要求信息的第一大载体——文字数字化。汉字和其他文字又站到了同一起跑线上,共同面临着数字化问题。这给汉字信息处理带来了历史性大机遇。在信息的另两大载体——声音和图像的数字化领域里,我们已经落后了,追赶的难度很大。但在文字数字化领域里,如果汉字数字编码水平高于英文为代表的拼音文字,那么,我们中国人就有机会超越美国人,从而引领世界信息技术发展潮流。

    广义的汉字数字化有两层意思:第一层意思是指在机器内部使用数字0和1将汉字字符唯一地表示出来,涉及的是机器与机器之间的数字信息交换问题,这在电脑上已经实现了;第二层意思是指在机器外部使用十个数字将汉字信息唯一地表示出来,涉及的是人与机器之间的数字化信息交换问题,解决了信息沟通中最核心的问题,其意义更大、价值更大,因为人机交互方式的任何实质性突破,改变的将是整个人类的生产方式和生活方式。这里讲的汉字数字化指的是第二层意思。

    用阿拉伯数字来表示汉字,并不是一件困难的事情。关键问题是汉字编码必须具有唯一性、规律性和简洁性,否则就只能应用于查字和打字,派不上其他用场,更不用说成为信息核心技术了。但是,要非常简约地将汉字及其词语用数字唯一地表示出来,本身就不是件轻松的事情。在使用了几十个字母、数字和其它符号以及制定出一系列编码规则的条件下都还玩不转的汉字编码,要用几个数字来实现,而且还要不重码,规则要简单得人人都能轻松地掌握,这简直比登天还要困难。


    虽说现在的汉字数字编码方案如雨后春笋一样层出不穷,但它们设计者的初衷无不是仅仅为了解决在手机数字键盘上汉字输入问题,以至于一提起汉字编码,人们自然就认为是汉字输入法,没有人意识到汉字编码在汉字信息处理方面还有许许多多非常重要的应用领域,更没有人会想到,汉字数字编码原来是我国实现信息化和数字化的最核心技术。

    四.惊人的效果

    汉字形态各异、数以万计,词语、句子更是不计其数,仅靠经验判断和拼凑尝试,显然已经无法解决这一问题。通过大量字形分解、数理分析和模型构建,经过近千种方案的演变,耗时整整十多年,才发现了汉字基因及其构成汉字字形的九种笔形,进而发明了汉字数码。


    在文字数字化领域里,中国的汉字积淀了几千年的华夏文明成果,成为当今仍在为最多数人使用的最古老文字,其强大生命力足以说明汉字内部隐藏着一种无比的东西,其中之一就是汉字与数字之间的神秘关系。而我们这十年来所做的工作,只不过是首先发现了这种神秘关系而已。

    谁也想不到,只有9个笔形的汉字,比有26个字母的英文还要简约。用9个数字分别表示九个笔形,就将数以万计的常用汉字、数以十万计的常用词语和短句唯一地表示了出来,平均每两个数字就表示出了一个汉字。在数字键盘上输入汉字,就像在字母键盘上输入英文一样的简单,汉字由哪几种笔形组成,就击哪几个数字键。相比之下,英文这下可惨了,因为英文有26个字母,每个数字要对应2~4个字母,在数字键盘上输入英文,一下子就不那么灵光了。

    英文做到的,汉字能做到;英文做不到的,汉字也能做到。汉字数码将给人类文明带来天翻地覆变化,其实它本身并没有包含什么新内容,也没有创造什么新概念,横、竖、撇、捺也好,笔画、笔形也好,这些统统都是汉字固有的,都是老祖宗发明的,都是人们约定俗成的。与其它汉字编码所不同的是,汉字数码只是更加接近了汉字的真实,更加深入了汉字的本质。


    五.抓住机遇

    当代高新科技的核心是信息技术,信息技术的核心是数字化,在各类信息数字化之中,文字数字化起着统领作用,而汉字是世界上最多人口使用的文字,所以,汉字数字化就成了核心之核心。汉字数字化的实质是解决人与机器之间的数字沟通问题,从而实现信息传递最后一米的数字连接,这一连接具有划时代的意义。

    我们掌握的汉字数字化技术,在国内是独一无二的,在国际上是遥遥领先的。我们再也不能失去以汉字数字化作为我国信息产业腾飞的推动器这样一个千载难逢的机会了。我们必须在汉字数字化领域有所作为,拥有世界级的自主知识产权、核心技术和国际标准。否则,我们将愧对几千年光辉灿烂的中华文明,愧对我们的子孙后代。

    汉字数码代表了我国汉字编码技术所能达到的最高水平。其他文字还没有数字化,即使将来数字化了,也达不到汉字数字化的程度。这充分说明汉字是各种文字中最适合现代信息技术处理的文字,是文字信息的最优秀载体。一方面,汉字数码使汉字从在电脑大键盘上最难处理的文字一举成为在数字小键盘上最易处理的文字,另一方面,汉字数码使汉语成为世界上唯一能够被机器完全识别并且完全理解的语言。从此,汉字将彻底甩掉落后的帽子,从根本上摆脱了被拉丁化的命运。

    信息化,最关键的就是语言文字信息的高速高效处理。汉字信息处理的工程技术成为了我国顺利进入信息化社会的关键。汉字编码,这是中国人要与计算机交流所碰到的第一步操作环节,这是传统汉文字学所没有的内容。汉字数码使中国人实现了与计算机的和谐对话与交流。就像印刷技术曾促进了汉字的发展和汉字文化的传播一样,汉字数码技术将使汉字和汉文字学进步到一个更高级的层面。

    汉字数码技术是我国为数不多的具有世界最高水平、拥有自主知识产权、能够形成国际标准的核心信息技术。汉字数码的发明以及随之而来的汉字数字化浪潮,将以数字键盘代替字母键盘,以数字和声音代替字符和图形,使人类摆脱鼠标、显示器、甚至键盘的束缚,以一种无处不在的计算模式和无时不有的交互模式来操控范围更广、种类更多、数量更大的数字化产品,从而使人类的生产效率和生活质量再次产生质的飞跃。







'’'’








本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
文字数字化
高一年级信息科技2020空中课堂复习模块“变式练习”-第21课:信息编码实例(一)
计算机编码
ASCII码表基础知识大全
Matrix67: My Blog ? Blog Archive ? 一探汉语中的文字幻方
GB2312何时能够代替UTF-8?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服