原發: http://www.pkucn.com/viewthread.php?tid=270304
漢字的構字機理就是所謂六書。而實際上六書中只有象形、指事、會意、形聲這四書纔是真正的構字法。我的思路是以音領字和四書兩種理念的協和。
甚麼是以音領字?就是以一個字音(韻書中的小韻)統領讀成該音的若干字。
針對漢字中普遍存在一字(字形)多音的現象,引入一個字的異讀變體的概念。
就像古書中的點發:「其為人也教弟⌝、而好⌝犯上者⌜鮮矣!」--弟⌝、好⌝就是弟、好的去聲變體,同理,⌜鮮也就是鮮的上聲變體。請注意,隨着漢字的演化,早先的異讀變體後來可能會用不同的字形來表記,如此例中的「弟⌝」和「⌜鮮」,後來就常常寫成「悌」和「尟」。所以說,我這個變體的提法絕不是向壁虛構出來的,是符合漢字的特性的。
按六書的說法,象形、指事為文,會意、形聲則是字,字就是以文疊架而成。那麼接着上文推演,字可以有異讀變體(說文中的文、字通稱為「字」,下倣此),那麼字中之字呢?
Bingo!我們把字的異讀變體比附到合體字的sub-字上,就能推導出一個聲符異讀變體的概念!
比如,「支」字从手持半竹,按六書應界定為會意字,以音領字,我們就用支的讀音「章移切」領之(具體實作時採用甚麼音,北京話、廣府話、漢越音、廣韻音……無關宏旨,然而所選字音原則上是越精細越好,像只有二百來個音的日語的漢音、吳音就不太合適)。
從「支」的形聲字,常見的有「吱肢枝 歧 妓技 芰 翅 豉」,按廣韻分屬六個小韻,按北京話也是五個不同的字音。由支而歧、技,實在不合今音的直觀。更不用提「地、池、施、迆」這些差距更大的形聲字。然而如果抱持聲符異讀變體的觀念,則這些聲符與形聲字之間的讀音隔膜就可以消弭於無形。對於某個聲符而言,所生成的形聲字有多少個字音,它就有多少個異讀變體。
重申之,技的「渠綺切」,你不要把它看成是技的字音(當然,這確是它的字音無疑),而是要換一個角度,把它看成是搆成技的支字的「渠綺切」變體。「技、妓」用的都是這個變體。漢字的字形上體現不出所用的聲符是本體還是變體,是哪個變體,然而在字典中,某字某音確是標得一清二楚的。就像對古書的點發一樣,我們在編碼時把字形本身所未能呈現的確切的字音訊息也加了進去。
那麼,對同音的聲符又該如何區分呢?
對形聲字,將其編碼為 聲符變體 + 義符 的形式(義符通常為康熙部首)。 會意、象形、指事字皆看成是獨立的聲符(也是變體之一)。 聲符變體的編碼形式為 聲符變體讀音 + 區別符:有明確部首的用部首,其他用起始筆形。
如「礴」字的編碼為 「傍各切」 + 「石」 +「艹」,其中石為「礴」字的義符,「『傍各切』+『艹』」為「薄」的「傍各切」變體編碼。之所以把聲符變體的編碼拆開,把區別符放在整字編碼的末尾,是因為這個區別符對整字編碼的區分度的影響最小,只要 聲碼 + 義符碼 無重碼,這個區別符就可以略掉。
又如「薄」字的編碼為 「傍各切」 + 「艹」 + 「氵」,「溥」字為「滂古切」 + 「氵」+「寸」,「尃」字為「芳無切」+「寸」+「十(或者別的筆形碼,待定)」,「甫」字為「方矩切」+「筆形碼」--甫字本為从父、用的形聲字,然而從隸變後的字形上已經看不出這個結構,所以可以當成一般的獨體字來處理。
F君問:
可否將這一編碼方式表述為:聲旁的反切加部首?
答:
不是聲旁的反切,而是拿整個形聲字的字音加上表記聲旁字形特徵的區別符作聲符異讀變體的編碼。而形聲字的編碼則是聲符+義符。
以北京話為例。「個」字編碼為 「gè + 亻+ 囗」,「國」字編碼為「guó + 囗 + 戈」。其中,「gè+囗」是「固」字gè音變體的編碼,「guó+戈」是「或」字guó音變體的編碼。就拿前文舉例中的「支」字來說,即有①zhī(肢)、②qí(歧)、③jì(技)、④chì(翅)、⑤chǐ(豉),五種異讀變體。「枝」的編碼就是「支V① + 木」,「妓」的編碼就是「支V③ + 女」。只是在字形之外加上了V① V②的區別。
此法的實作形在形式上跟音加形的編碼相似,然而觀念上卻大相徑庭。後者的格局是 字音+形, 前者的格局是 聲符VN + 義符 。 不知說清楚了沒有 ;)