博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
输入法之核心词典构建
阅读量:5775 次
发布时间:2019-06-18

本文共 479 字,大约阅读时间需要 1 分钟。

拼音输入法输出的候选分成两个部分,系统词以及短句(智能组词),智能组词是通过model以及解码弄出来的,兴许再说。

系统词就是那些经常使用的词(词组)收录到词典中,用户的输入和词典中的词match时,直接吐出来,而不须要解码获得。
系统词以及相应的rank(score)对输入法的体验非常大,毕竟大多数用户还是继续短词输入。
系统词包括几个部分:
1.基础词
2.高频短串
3.细胞词库
当中基础词的比較复杂,也没有统一的方法。

一般的做法是:

1.对训练语料进行分词,然后取top 20-50w的词作为基础词,假设有知识库等分类的词典,能够依照类别。比方电商等能够引入一些词
2.获取第三方的核心词典。将大家都有的,或者基于一定的规范。选择出来。作为核心词典。
这个非常重要,可是基本上高频的都能被cover住,而中低频的就看产品需求了。
针对高频短串。比方“去哪里”等等,没有必要通过智能组词来解决。智能组词毕竟是有错误率的。
同一时候。加到核心词库里面后。在展现上比較方便控制。

毕竟智能组词一版智能选一个最好的。而系统词能够有多个。“去哪里”去那里“

转载地址:http://bzeux.baihongyu.com/

你可能感兴趣的文章
java里调用构造器会不会一定产生新对象
查看>>
Elasticsearch
查看>>
引用计数算法
查看>>
Java 复习 —— 守护线程以及线程监测工具
查看>>
MAVEN私服搭建
查看>>
GIT win cmd 中文乱码
查看>>
const在c和c++中的区别,案例说明
查看>>
x86/x86_64的一些基本概念
查看>>
给 Android 开发者的 RxJava 详解
查看>>
jdk11 HttpClient 爬虫
查看>>
数据结构与算法_Index
查看>>
12.13 angular 指令与控制器交互
查看>>
关键字 using ....for ...
查看>>
一些小技巧。
查看>>
mac 下安装imagemagick和PHP扩展Rmagick
查看>>
PHP利用公钥私钥进行高强度加密
查看>>
SpringMVC4+hibernate遇到 readOnly问题FlushMode.MANUAL
查看>>
深入浅出OOP(三): 多态和继承(动态绑定/运行时多态)
查看>>
学习spring必须java基础知识-注解(annotation)
查看>>
怎么给ChemDraw反应式添加分数系数
查看>>