这些天一直在想怎么扩充ibus输入法的词库,虽然一般使用感觉还好。在网上找到sogou提供了一个“互联网词库”,里面是搜索引擎分析出来的15万多词语,本想拿来导入到ibus,先用python测试了一下有多少词语已经在ibus的默认词库中,最后发现15万流行词中只有200多不在默认词库中,ibus词库确实挺优秀。 程序输出:(测试代码见后) seached: 157200 times. 215 phrases not in the database, written in file 'notexist' 查看notexist文件,发现除了后半部分一大堆频度为1的成语之外,只有20多个大频率词没在默认词库: (- -|原来连“裸体”都没有?太和谐了!建议广滇驹推荐ibus为国家首选输入法) 乾坤 3561275 N, 乾隆 3088184 N, 乾净 1533219 夥伴 1052393 瞭望 984469 宏碁 979267 乾脆 953204 乾燥 624377 清乾隆 480337 乾隆皇帝 380252 N, 阿房宫 235461 乾隆年间 214986 定乾坤 210477 乾隆帝 149133 乾坤袋 143966 著色 111072 萧乾 84647 [...]
目前Linux下几个拼音输入法都处于初级的开发阶段,很难说哪个特别成熟,除了老牌的Fctix,基于SCIM平台有默认的智能、巨蟒、SunPinYin,当然还有我用的ibus。SunPinYin是Sun的OpenSolaris里面的一个项目,基于“统计语言模型”,技术刚刚的,据说反应极快,虽然目前功能欠缺,但真让人期待。 默认词库最大的似乎是巨蟒,据说用了sogou早期的词库,但是似乎词库处理上算法有点粗糙,而Fcitx的词库实在太小……ibus算中规中矩,词库不小,不算新,但也很容易让用户上手。 ibus当然也不完美,比如删词功能就经常不行(Ctrl + num),之前有hao的首选字突然变成了“号”,但明显“好”才更常用,郁闷了几天,安装了sqlitebrowser,打开用户词库,找到“号”把user_freq调回单位数(居然说我输入了几百次,晕!可能某次程序出错多循环了一会。) 盯着词库看挺好玩的,想到如果能导入搜狗词库多好(ibus比较却成语类的词),还顺手照书上例子试了下用Python读取ibus的数据库。没什么意义,当是数据库编程的Hello World吧。
Page optimized by WP Minify WordPress Plugin