IDS數據
相關連接:
IDS說明書 IDS在線構字工具 [IDS變通連接符] http://www.pkucn.com/viewthread. ... age=1#pid1218152067 IDS部件檢索
在 bitbucket 上創建了一個專案。
包含了5萬字(unicode cjk 的全部(不包括韓國的兼容集)和 ext-a /ext-b 的部分)IDS構字式的數據表。 並製作了一個python的解析IDS的lib和幾個自動整理IDS相關數據的小工具。
本專案中IDS採用以拉丁字母充作構字符的變通格式,以方便操作並節省RAM空間。字母和構字符的對映如下:
⿰ | H | 左右 |
⿱ | Z | 上下 |
⿲ | W | 左中右 |
⿳ | E | 上中下 |
⿴ | O | 包圍 |
⿸ | P | 左上包圍 |
⿺ | L | 左下包圍 |
⿹ | Q | 右上包圍 |
⿵ | N | 下開口框包圍 |
⿷ | C | 右開口框包圍 |
⿶ | U | 上開口框包圍 |
〾 | V | 變體,如以「V臽」為「陥」右旁「臽」變體的表記 |
⿻ | D | 重疊 |
* | F | F(lipped) 水平翻轉 |
** | X | 裁切形,如「Q鳥X」為「梟」字木上的部件,X表示被裁掉的部件 |
對構字式而言:
不可拆分者稱作字元 - elements (沒有客觀標準,比如「鼠」字拆起來很麻煩,就視作一個字元,不拆), 各種帶V的變體部件和帶X的裁切部件也視作字元。
表現為拆分式的(如:H女口)稱作分析形 - compounds。
任何漢字的單字都看作構字式的綜合形 - characters - 即構字式的一種形態,如同物質四態中的一態。
構字式(無論是分析形的「式」還是綜合形的「字」)倘若其中的部件都是字元,則說該式處於最詳態(elaborated);若其表現為綜合形- 字的形態,則說它處於最簡態(synthesis)。字元字只有一個形態,其最詳態等同於最簡態。
下面是 ids lib 應用的實例
打開頁首給出的連接,按
下載源碼壓縮包:
├── count_elem.py 統計字元構字頻次
├── find_ids_duplicates.py 找出重複的構字式
├── gen_char2elements_map.py 生成字到字元序列的映射
├── get_basic_chars.sh 將純字元和變體部件合併到一個文檔
├── idsdata (數據)
│ ├── compounds.txt 非字元各字(合體字)的構字式
│ ├── elements.txt 純字元列表
│ └── ids2do.csv Unihan中尚未編輯構字式的字的列表
├── ids.py IDS 解析 python lib
├── ids.pyc
├── MyProject.kpf
├── output (自動生成的文檔)
│ ├── basic_chars.txt 純字元和變體
│ ├── char2elements_map.txt 字和字元序列的映射(這個可用來自動生成形碼輸入法碼表)
│ ├── elements_with_freq.txt 字元頻次
│ ├── ids_duplicates.txt 重複式
│ └── variants.txt 變體
└── sieve_variants.py 篩出變體