聪明形码欢迎您
0
回主页
1
与其它优秀的输入法比较,聪明形码输入法的特点
2
聪明形码基本指标
3
第一章 概述
4
第二章 键盘及字根(部分略)
5
第三章 汉字录入方法(部分略)
6
第四章 聪明形码的简码
7
第五章 词组
8
第六章 形字根详释(部分略)
9
第七章 音形派生字根详释(部分略)
10
第八章 半成字字根 单笔字根 无理字根等解释(部分略)
11
“聪明形码”与“五笔字型”比较的异同
12
《汉字部件规范》的“交重不拆”等原则不合理,规范和评价输入法应从“优劣指标”开始
《汉字部件规范》的“交重不拆”等原则不合理
规范和评价输入法应从“优劣指标”开始
文字是人类文明的标志,自从有文字以来,人类进入了世界历史的新纪元。汉字是世界上最优秀的文字之一,它有着悠久的历史和丰富的内涵,是表形、表意和表声的有机结合体。汉字的结构复杂,是延横向和纵向展开的二维字体。这使得汉字在计算机输入编码方面面临着严峻的挑战。汉字输入成为中国计算机发展的瓶颈。人们想方设法使用多种设备,多种输入方法来输入汉字,其中大中型键盘输入由于手的活动范围过大,输入速度过慢、记忆的字根过多等问题已被淘汰。标准键盘的输入法如雨后春笋,越来越多。
虽然万码奔腾,但是它们都是依据汉字的音和形或者排列序号进行编码的。这些编码可以分为四类:一、音码;二、形码;三、音形码;四、序号码。序号码规律性小且难记,不再说明(如“区位码”、“电报码”等)
1、音码:根据汉字的音的规则进行的编码。这类编码易学规范,但是由于汉字同音字过多的特点,使得这种类型的输入法重码率高,不易快速输入。虽然随着计算机硬件及的提高,这类输入法加入了智能处理的功能,但是在普及和应用中,由于普通百姓的素质不高,及汉字,词组、句子之间的关系复杂,软件不够完善,所以也难以普及。
2、形码:依照汉字的字形来对汉字进行编码。它又可以分为基本笔画编码和部件编码。其中部件编码的编码规则比较复杂,基本部件较多,这就给学习和掌握带来为一定的困难。但是它的平均码长短,重码率低,输入效率高,实用性强,其优点是其它类型的输入法无法比的(如“五笔字型”、“郑码”、“聪明形码”等输入法)。同时也是《汉字部件规范》的重点“规范”对象,其原因是这类输入法最不“规范”。也是本文要重点商讨的“规范”问题。
3、音形码:在对汉字进行编码时既要考虑到汉字的读音,又要考虑到汉字的形状,这类编码将音码和形码相结合起来,扬长避短。它们在学习难度、效率等方面都介于音码和形码之间,重码率也很低,几乎可以与形码相媲美。但是由于在输入汉字时,既要观其形又要辨其声,因此大脑负担过重,长时间输入容易疲劳,也影响到汉字输入速度(如“自然码”、“钱码”等)。它的“规范”性,也介于音码和形码之间。
实际上,目前的“形码类”和“音形码类”的编码方案中存在许多的与《汉字部件规范》不相“规范”的编码,其原因很明显:这些“汉字编码在前”。《汉字部件规范》在后。而“规范”是标准,法式,是人们今后要照样去做的。
《汉字部件规范》的原则是首先必须符合汉字构型规律,其次必须在部件的信息量和系统性上符合信息处理需要。《汉字部件规范》的目的是:一、统一,制止混乱的局面。二、促进汉字编码的健康发展。
但是《汉字部件规范》中“交重不拆”等原则与“目的”的第二点相悖。
“相重”部件不拆有一定道理,因为容易造成学生对汉字书写笔画的误解。但是“相交”部件不拆的原则,弊大于利。
一、《汉字部件规范》中“交重不拆”的“相交不拆”等原则不符合实际
①、这样的“规范”容易引导“形码”回到“大中型”键盘的老路。
规范中汉字部件有 200多个成字部件,其中绝大多数是相交相重的,如果它们不可拆分,则需要 200多个键的键盘才能编出符合“规范”的输入法来。否则 200多个成字部件的输入要么用重码处理,要么违反“规范”再拆。因为 200多个不可拆的字用47键的键盘一码输入是不可能的。所以包括“表形码”、“郑码”在内的形码输入法在重新调整后只可能“贴近”“规范”,不可能“符合”“规范”。由此可见,《汉字部件规范》容易引导形码回到“大中型”键盘的老路,但是前面已经说过,实践已经证明大中型键盘是行不通的。
例如:表形码的独体字的取码:第一码取其部件代码,第二、三码连用K,最后一码取其声母的首字母。虽然它没有超出“规范”,但是它是以拆音为代价。
再例如:郑码中的“副根”多为两码根,从其两码根的记忆要点来看,也如同将“副根”(多数是独体部件)拆解,如“工”部件为“BI”码,记忆要点是“B”码为“二”、“I”码为“丨”。
以上的方法只能说是“贴近”“规范”,并且有一定的代价。
②、按《汉字部件规范》编码所需的汉字部件太多,大约 500个左右,否则无法构成所有的汉字
根据《汉字部件规范》来编码,除需要有上述 200多个成字部件外,还要加上其它 300多个相交的常用的不成字部件组成,所以致少有 500个部件才能构成所有汉字,其中有一部分是偏生的字根。象这样多的“部件”对普通用户来说,虽然“规范”,但是要记忆所有的这些部件及其对应键确实是很大的负担。
二、相交部件的可拆性客观存在
正如《谈从理与从形拆分原则》--兼论“相离可拆”与“交重不拆”的文章(见“计算机世界”报“技术专题”版的D4页)所述:少部分的现代汉字本为古字描写性的隶定字楷化而成,它们的构型与意、源本是一致的。例如“秉”原取“手握禾苗”之意,“禾”与“彐”(“又”的变体)是相交组合……客观上,除单笔画部件之外,其它所有“部件”都是可拆的。单笔画部件是构成字的最小单位。
三、盲目限制相交的部件(汉字)的拆分,有碍汉字编码的发展
由于汉字构成的历史性和复杂性,在拆解汉字时又出现了多样性及“混乱的局面”。但是过于草率的制订“交重可拆”等规则“在统一的原则下控制拆分下限”是不负责任、逃避矛盾的做法。《汉字部件规范》的研制组的成员们只看到“交重可拆”时的消极的一面。而其积极的一面则没有考虑到。
㈠、“相交可拆”的优越性
1、大大降低了编码部件的个数
采用“交重不拆”的编码,其部件个数少则 400个,多则 500多个,而且需要大中型键盘的支持。
采用“相交可拆”的编码,其部件个数可降至 150~300 个,而且不需要大中型键盘,只用标准键盘就够了。
2、大大降低了学习过程中的记忆难度
采用“交重不拆”的编码,其部件多,且有许多是偏生难记的部件,增加了学习难度和记忆难度。
采用“相交可拆”的编码,其部件个数相对较少,许多偏生难记的部件可以归并,或者可以省略,减少了学习难度而且容易记忆,有利于普及。
3、“相交可拆”的编码有助于学生学习汉字时对独体字结构的深层次理解
如果某小学生问你:中国的“中”字怎样写。你会这样说:一个“口”字,中间插一竖。而按照《汉字部件规范》你能怎样描述“中”字的写法呢?这时可能你只能这样说:“中”字就是“中”字这样写;而这样的说法等于不说。
㈡、盲目限制相交的部件的拆分的结果
由上述“相交可拆”的优越性可以想象,“相交不拆”时对“形码”和“音形码”的灾害。
①、部件数大大增多,有可能从导大中型键盘的旧履。
②、增加了学习难度,增加了记忆量。
③、使学生学习汉字时思想僵化。
除此之外,在汉字输入成为中国计算机发展的瓶颈的今天,“相交不拆”等的“规范”如同“瓶颈”上的“紧箍咒”,它将会严重地阻碍中国计算机的普及和发展。
四、解决“问题”方法的初探
人们在遇到“问题”时解决问题的做法一般有两种
①、逃避矛盾,回避问题。这样处理问题非常简单,但是其后果是不稳定的。
②、解决矛盾,解决问题。这样处理问题虽然工作量大,艰巨,辛苦;但是利在千秋。
打个比喻:某一片荒野,其间有一块不大不小的“桃园”,桃园中结满了鲜美可口的桃子,但是桃园里埋有许多的“地雷”,桃园外只有稀疏的树木野果,这时你如何安全地解决你们的吃饭问题?
第一种方法:将桃园封闭起来,不允许任何人进入,只准在外面摘一些野果子吃,这样饿不死,但是也饱不了。这样的做法就好比《汉字部件规范》中的:“相交不拆”等原则。
第二种方法:首先探雷,在有雷处插上有雷标志,再进行排雷。如此我们便可以拥桃园,并有又大又鲜美的桃子吃了。虽然开始有些危险和艰苦,但是成功后通过对桃园的维护,我们可以长年有桃子吃,利在千秋。本人赞同第二种方法。
由于构成汉字的历史性和复杂性,汉字的表音性、表意性和表形性,在拆分汉字(特别是独体汉字)时,又存在多样性,由此出现了“混乱的局面”。解决这一问题,不能用“相交不拆”的硬性方法,只能用制定相应规则的疏导的方法。简单的说,相交部件不可不拆,更不可乱拆,要有规矩有方法。在这一问题上,王永民“五笔字型”中的“能散不连,兼顾直观,能连不交,取大优先”的规则给我们一些启示,本人进行了较为深入的研究工作,其方法体现在本人发明的“聪明形码”(全称:音形派生键形码汉字输入法)中。由于较好地解决了上述问题,所以“聪明形码”不存在拆分独体汉字的多样性而产生的“容错码”,也不存在不符合编码规则而需要特殊记忆的“难字码”。下面介绍“聪明形码”:
⑴、“聪明形码”字根好学,易记
聪明形码精选了 250个左右的字根(部件),只用26个字母键,其最大特点之一是字根很容易记。其原因是除个别字根外,其它字根与对应键有直接的映射关系。可使得你视而不忘。它符合人的大脑记忆规律。
如“王”字根在“W”键,“W”是“王”字的汉语拼音(Wang)的声母对应键。聪明形码把这种按照字根读音规律定义的字根称为音字根。再如“阝”字根与英文字母“P”字形相似,于是“阝”字根在“P”键。聪明形码把这种按照字根的形与对应字母(大写或小写)的形相似规律定义的字根称为形字根。由“王”可以派生“玉、五”字根,也在“W”键。由“阝”派生的字根有“卩、耳”,于是“卩、耳”也在“P”键。聪明形码把这种由音字根或形字根“派生”而得的字根称为派生字根。
⑵、聪明形码规则严谨,较好地解决了汉字编码在拆解汉字(特别是独体汉字)的多样性的矛盾,聪明形码一般汉字的取码规则(成字字根的取码规则等略)如下:
㈠、按照书写笔画顺序,从左到右,从上到下,从外到内,从中间到两边(如“兆、水、函”等)进行取码。
㈡、以基本字根为单位取码。按照“少字根优先、照顾直观、能离不连、能连不交、顺笔优先、多笔画优先”的原则。其中“少字根优先”的优先级别最高,“照顾直观”次之,以下类推,“多笔画优先”优先级别最低。
㈢、按一、二、三、末字根取码,最多只取四码。
第一码:取汉字书写顺序第一笔所在字根码。
第二码:除去第一码字根后汉字书写顺序第一笔所在字根码。
第三码:除去第一、二码字根后汉字书写顺序第一笔所在字根码。如果第一、二码把汉字已经取完(称为两码字),则第三码取下右角识别码。
第四码:除去第一、二、三码字根后汉字书写顺序最后一笔所在字根码。按末笔取大的原则,如果第一、二、三码把汉字已经取完(称为三码字),则第四码取下右角识别码。 如果第三码已经取下右角识别码, 则第四码取字形识别码。
聪明形码以“少字根优先”为大前提,用最少的字根构成汉字。所以聪明形码编码效率很高,又能体现出汉字本身的结构特点。
聪明形码以“照顾直观”为第二前提,这是尊重历史,尊重客观的提法,特别是对独体字的拆分,有理据的根据理据进行拆分,同时还根据直观和历史已经普遍认可的习惯进行拆分。
采用上述规则得到的回报是汉字的编码效率大大提高,重码率大大降低,使用者在汉字输入时更多的关心的是字形,而对笔顺的思考相对减少,由于汉字在人脑中的“印象”是字形,而不是笔顺,所以聪明形码这样做又大大降低了大脑的负担,提高了录入速度。
由上述可以看出,聪明形码讲究效率,注重汉字的字形及结构。同时充分十分考虑到了汉字的历史性、复杂性及拆分交重部件时的多样性等的特点。通过严谨的规则,有效地控制了“混乱”的局面。
在这次“规范”风中,如果“五笔字型”也进行“规范”推广,这意味着有广泛群众基础的“五笔字型”和广大的“五笔字型”老用户也将要被“规范”,即这些人需要改变已经很熟悉的打字方式,这意味着广大“五笔字型”老用户的时间和精力的巨大浪费。所以“五笔字型”只有不对自己进行“规范”,才是对用户负责的态度。
五、规范和评价输入法应该从“优劣指标”开始
目前我国的输入法的现状是:易学的打不快,打得快的不易学。快速、易学、轻松的输入法一直是我们追求的目标。引用一句邓小平的老话:“不管白猫黑猫,只要抓住老鼠就是好猫”。对于输入法,应该也是“不管白码黑码,只要快速、易学、轻松就是好码”。其中轻松应该是这样理解:录入时直观、顺手,不用过多思考及计算,长时间录入对大脑的负担不重。
汉字编码的优劣指标是一个尚待完善、统一的问题,目前汉字编码方案已经达到近千种之多,并且都说自己的编码易学、输入速度快,人们只听广告等宣传的一面之词,致使许多人“盲目学习”,国家教委和一些团体都曾经有过向学生等用户推荐汉字输入法的事例,或许是因为没有统一的汉字编码优劣指标,各种推荐只是凭主观感受,缺乏科学依据,缺乏权威性的说服力。反而把问题搞得更加复杂。国家统一、编码者公开、用户看得懂的汉字编码优劣指标,有助于控制汉字编码的混乱局面,推动汉字编码的健康发展,下面是笔者对优劣指标的看法,供大家参考,以便抛砖引玉。
㈠、速度指标
1、重码及重码率
在对汉字进行编码时会出现若干汉字编码的码串相同的情况,这种现象称为重码。
重码率=(重码字数-重码组数)/编码集中汉字总数*100%
重码率是一项重要的速度指标,当进行汉字输入遇到重码时,需要根据屏幕提示选择出特定的汉字,如果多次如此选择,会大大增加眼力和脑力,影响情趣,严重影响打字速度。重码及重码率越少,录入速度越快。
2、码元及码元数
码元是汉字输入法中编码所用的字符键,空格键不算码元。
码元数是汉字编码所用码元个数。例如:只用26个字母进行编码,其码元数就是26。
历史上汉字输入曾经设计使用过大、中键盘,都惨遭失败,其原因是人的手指的活动范围有限,扩大活动范围必然会导致降低速度、增加出错率。由于26个字母键是最常用的键,同时也最顺手,对普通用户而言,超过这个范围手指的活动范围扩大,击键速度会明显降低。
3、码长与平均码长
输入一个汉字所需的击键次数(空格键不算)为码长。
平均码长=击键次数(空格键不算)/所输入汉字个数
平均码长越小录入同样字数的文字的击键数也就越少,输入速度越快。
4、输入速度
以指法熟练,并对所用输入法熟悉的人可达到的最高的每分钟输入的汉字字数为指标。
㈡、易学指标
以拼音方案最易学,但也因地域、因人而异。
对于形码或音形码的形的部分而言有下列指标
1、部件(字根)个数。越少越容易记忆。
2、部件(字根)在键盘上安排的规律性。规律性是强还是弱,是否能快速记忆和查询。部件(字根)与键盘上对应键的映射关系如何。
3、规则的严谨性与繁简
4、“难字”的多少
所谓“难字”是指其编码不符合规定的编码规则,需要专门记忆的字。有些输入法为避免出现重码,不得以而为之,这也增加了学习的难度。
5、规范性
以拼音输入法最为规范,衡量是否规范是以大家公认的标准为依据。目前制定的《汉字部件规范》,如果被大家公认,也可作为一项指标。
㈢、轻松指标
对于所用输入法熟悉的人,录入时直观、顺手,不用过多思考及计算,长时间录入大脑负担不重,这时感觉轻松。它与编码类型,编码规则及识别码方法,码元,重码率,词组及句子,智能性等有关。
1、编码类型
形码类型和音码类型的输入由于只需考虑汉字的形或者汉字的音,所以长时间录入时对大脑的负担不重,录入时比较轻松。
音形码类型的输入既要考虑汉字的形,又要分辨汉字的音,长时间录入对大脑的负担过重,所以录入时不够轻松。
2、编码规则及识别码的方法
在编码规则及识别码的方法中,是否有需要增加思考或者需要计算。这样的问题越多则越不轻松。
象“五笔字型”等的输入法,其识别码需要同时考虑末笔和字形,再计算出对应的区号和位号,这样增加大脑负担,减慢输入速度,不轻松。
3、重码率(解释略)重码率越高越不轻松。
4、码元(解释略)码元超出26个字母键越多,手的活动范围越大,输入汉字时越不轻松。
5、词组及句子
在重码率低的前提下,词组及句子越多,输入词组时的命中率越高,录入越轻松。
6、智能性
在重码率过高的情况下,通过智能调整,将经常使用的词组调到前面,其后再用到同样词组时可以较轻松录入。
㈣、适合对象
易学性好的,用户可以在较短的时间内掌握的输入法,适合于非专职录入人员。便于盲打,容易快速,并且录入轻松的输入法适合于专职录入人员。
《汉字部件规范》对“规范”输入法的力度是有限的,而“规范”作为“优劣指标”中的一个指标,与其它指标一起规范和评价输入法,其力度将是无限的。