'ibus' Tag

  • ibus数据库高频词错误修正脚本

    April 24, 2009

    使用ibus时间长了,常常突然发现有些本来常驻的首选或者常用字词突然掉到后面,甚至到了第二页,并不是被其他词挤掉,而是可能ibus的用户数据库出现错乱了。 不知道这是ibus程序的bug,还是ibus所用的SQLite数据库系统本身的问题,本来当用户输入一个拼音,ibus从用户数据库里面提出对应字的用户输入频数,决定字词的位置;如果用户第一次选择输入某个字,那么该字的记录就添加到用户数据库中,下次输入时便以此记录来提前该字的位置。理论上,在用户数据库里面一个词条的记录最多只能出现一次(多音字算多个字),然而,在实际的使用中,有时不知什么原因,某个本来常用的字被当作第一次输入再次加入到数据库当中,下次输入时,该字便作为低频字来排序,导致位置变得很后,带来不少不便。 这个Python脚本就是把这样的词条找出来,并把后来加入的记录删掉,把词条频数还原。 脚本下载:http://code.google.com/p/ptcoding/source/browse/trunk/ibus_fix (svn目录内的ibux_db_fix.py,其他的两个是测试脚本) 程序功能: 自动备份用户词库 检出用户数据库中出现了两次,但不是多音字词的词条 将后加入的词条删除 检出错词的SQL: SELECT * FROM py_phrase WHERE phrase IN (SELECT phrase FROM py_phrase GROUP BY phrase HAVING COUNT(*) = 2) 尚存缺陷: 如果同一个词条的记录出现了3次或以上,程序不能鉴别(极少可能出现,可修改脚本内的SQL语句来查询出来) 如果一个字本身是多音字,其中一个音节出现了上述情况,程序不能鉴别(貌似概率也挺低的) 如果两个记录中的用户输入频数相同,两条记录都会被删掉(倒不是坏事,影响不大) Python源码:

  • 测试ibus输入法默认词库的流行词覆盖度

    April 1, 2009

    这些天一直在想怎么扩充ibus输入法的词库,虽然一般使用感觉还好。在网上找到sogou提供了一个“互联网词库”,里面是搜索引擎分析出来的15万多词语,本想拿来导入到ibus,先用python测试了一下有多少词语已经在ibus的默认词库中,最后发现15万流行词中只有200多不在默认词库中,ibus词库确实挺优秀。 程序输出:(测试代码见后) seached: 157200 times. 215 phrases not in the database, written in file 'notexist' 查看notexist文件,发现除了后半部分一大堆频度为1的成语之外,只有20多个大频率词没在默认词库: (- -|原来连“裸体”都没有?太和谐了!建议广滇驹推荐ibus为国家首选输入法) 乾坤 3561275 N, 乾隆 3088184 N, 乾净 1533219 夥伴 1052393 瞭望 984469 宏碁 979267 乾脆 953204 乾燥 624377 清乾隆 480337 乾隆皇帝 380252 N, 阿房宫 235461 乾隆年间 214986 定乾坤 210477 乾隆帝 149133 乾坤袋 143966 著色 111072 萧乾 84647 [...]

  • 关于ibus输入法词库

    March 30, 2009

    目前Linux下几个拼音输入法都处于初级的开发阶段,很难说哪个特别成熟,除了老牌的Fctix,基于SCIM平台有默认的智能、巨蟒、SunPinYin,当然还有我用的ibus。SunPinYin是Sun的OpenSolaris里面的一个项目,基于“统计语言模型”,技术刚刚的,据说反应极快,虽然目前功能欠缺,但真让人期待。 默认词库最大的似乎是巨蟒,据说用了sogou早期的词库,但是似乎词库处理上算法有点粗糙,而Fcitx的词库实在太小……ibus算中规中矩,词库不小,不算新,但也很容易让用户上手。 ibus当然也不完美,比如删词功能就经常不行(Ctrl + num),之前有hao的首选字突然变成了“号”,但明显“好”才更常用,郁闷了几天,安装了sqlitebrowser,打开用户词库,找到“号”把user_freq调回单位数(居然说我输入了几百次,晕!可能某次程序出错多循环了一会。) 盯着词库看挺好玩的,想到如果能导入搜狗词库多好(ibus比较却成语类的词),还顺手照书上例子试了下用Python读取ibus的数据库。没什么意义,当是数据库编程的Hello World吧。

Page optimized by WP Minify WordPress Plugin

 
Powered by Wordpress and MySQL. Theme by Shlomi Noach, openark.org