关于 youBBS 的 golang 结巴分词接口

By youbbs at 2019-11-20 21:04 • 193次点击
youbbs

结巴分词是目前比较好的中文分词库,有几个比较好的 golang 实现。下面做一下比较分析

jiebago https://github.com/wangbin/jiebago 1

纯go,很久没更新,项目不够成熟

gojieba https://github.com/yanyiwu/gojieba 5

cgo,核心算法底层由C++实现,项目比较成熟稳定,性能最好,但不支持跨平台编译,如果嫌切换开发环境和编译环境麻烦就推荐用下面的库

gse https://github.com/go-ego/gse 4

纯go,用结巴词库,新兴的项目,最近还比较活跃,值得关注。

考虑到性能、轻便问题,没有把分词系统放到 goYouBBS 公共项目,官方使用 gojieba 作分词服务。

使用分词功能最耗资源的是内存(相对于小VPS),载入词库后内存暴涨。比如 goYouBBS 使用 gojieba ,载入一个 9MB 的词库,占用 240MB 内存,而不用分词,只用 10MB 。

原来使用新浪 SAE 分词接口,有些不理想:

http 协议容易被监听
词库好像很久没更新
不支持繁体字分词

为了改善上面的不足,把推荐分词接口改为

https://www.youbbs.org/api/fenci

golang, youBBS, 分词, 结巴, 接口


其实 新浪的分词支持https的~

waiducom at 2019-11-22 07:46
1

@waiducom https 另收费😫

youbbs at 2019-11-22 07:48
2

@youbbs

为什么 我现在线上使用 没有收费呢?

waiducom at 2019-11-22 22:00
3

@waiducom 我信息滞后了😂

youbbs at 2019-11-22 22:16
4
登录 后发表评论