筆畫檢字法改良芻議
原發: http://www.pkucn.com/viewthread.php?tid=263158
檢字法對中文辭書編篡至關重要。因在話題常用字統計中讀到幼師先生如下一段回復:
在四年级前后达到2400字的识字量。这时候读书每100字一个生字,到小学毕业大概是每1000个字有3-5个生字。这时候就需要一本高效的字典,四角号码字典是最佳选择。
由此憶起近來對檢字法的一些零星的設想。雖不成熟,若僥幸有所發明,倘遇明達,或可覬拋磚之效。
乃日:
四角號碼實在算不上是最佳選擇,我用它了十來年,到了現在,依然是取碼的時候遲疑半晌,又免不了經常取錯。
對學生而言,部首法用79版新辭海的取左取上法就很好。然而部首法即便再規則,對部首認知能力仍然有相當高的要求,又加上是兩步檢索,操作起來麻煩,檢錯了挫折感就會感很強烈。
新辭海的全筆畫數+首次筆畫形檢字也很不錯,簡錯的機率很低。缺陷是碼點太少,重碼太多。我想,只要稍稍改良一下,用來編萬字左右的學生字典就能起到得心應手的效果。
比如可以加一個横筆數,再加一個有無「貫」(縱横相交)「叉」(斜交)限定,重碼就會大大壓縮。
如「概」字, 總13筆,首一 次丨,有貫,有叉,横6(當然對字型應有嚴格的限制,如果遇着既作旣形就很麻煩)。
最終編碼可寫成「13一丨十乂[6]
」
表面上看起來還是很繁瑣,然而按步驟分解開來實際檢索的過程還是比較順暢的。
第一步,數筆畫總數,在引得或依本檢字法排序的字典中可以確定起點。(數筆畫的過程中,對字中各個筆畫亦可形成粗略印象。與後續步驟反複參覈,可以減少差錯)
第二步,取首次筆筆畫形(一二兩步與新辭海的筆畫查字法完全一致。還可以考慮增加次末和末筆碼,以期成倍地減少重碼)
第三步,以貫叉的有無,得出「田龱」「田乂」「十龱」「十乂」四種限定。有否貫叉在數筆畫的過程中稍加留意即可得出,因而對熟悉本檢字法的人而言,可以兩步併作一步。因横竪相交的筆形極為常見,也可以考慮不分貫叉,只按總的交叉串數編碼,如「鑺」字為「金」一串、「隹」一串,記作「2十」,「攫」字為「扌」一串、「隹」一串、「又」一串、記作「3十」--具體視統計結果而定。
[打開辭海筆畫檢字表稍一瀏覽就可以發現,每個筆數+首次筆的碼點所轄的字或多或寡非常不均勻。如果趕巧碰上的是轄字少的碼點,通過一、二、三步已經可以將欲查之字直接檢出。]
第四步,數横筆數,這個横指的不是書寫筆畫之横,而是所有水平的線段。如「力」中含有一横,「横」中含有「木1+𠥻2+由3=6横」。「提筆」也可以考慮視作横處理,這樣可以兼容多種字型。