当前位置: 首页 > news >正文

golang调用scws实现简易中文分词

1、安装 scws

官网以及文档
https://github.com/hightman/scws

wget -q -O - http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2 | tar xjf -cd scws-1.2.3
./configure --prefix=/usr/local/scws --enable-shared
make && make installLibraries have been installed in: /usr/local/scws/libcli客户端
/usr/local/scws/bin/scws -hwget 下载并解压词典,或从主页下载然后自行解压再将 *.xdb 放入 /usr/local/scws/etc 目录中。
cd /usr/local/scws/etc
wget http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2
wget http://www.xunsearch.com/scws/down/scws-dict-chs-gbk.tar.bz2
tar xjf scws-dict-chs-utf8.tar.bz2
tar xjf scws-dict-chs-gbk.tar.bz2
2、golang调用scws

go get github.com/jk0011/goscws

package mainimport ("log""github.com/jk0011/goscws"
)func main() {gs := goscws.NewScws()gs.SetCharset("utf8")err := gs.SetDict("/usr/local/scws/etc/dict.utf8.xdb", goscws.SCWS_XDICT_MEM)if err != nil {log.Println(err)}err = gs.SetRule("/usr/local/scws/etc/rules.utf8.ini")if err != nil {log.Println(err)}err = gs.SetIgnore(0)if err != nil {log.Println(err)}text := []byte(`陈凯歌并不是《无极》的唯一著作权人,一部电影的整体版权归电影制片厂所有。`)gs.SendText(text, len(text))for res := gs.GetResult(); res != nil; res = gs.GetResult() {log.Println(string(res.Word), res.Idf, string(res.Attr))}gs.DeleteScws()
}

go run goscws.go

报错:error while loading shared libraries: libscws.so.1: cannot open shared object file: No such file or directory
解决:cp /usr/local/scws/lib/*scws* /usr/lib/

> go run goscws.go2023/10/12 11:47:46 陈凯歌 11.87 nr
2023/10/12 11:47:46 并 0 c
2023/10/12 11:47:46 不是 4.74 v
2023/10/12 11:47:46 《 0 un
2023/10/12 11:47:46 无极 10.02 ns
2023/10/12 11:47:46 》 0 un
2023/10/12 11:47:46 的 0 uj
2023/10/12 11:47:46 唯一 4.9 b
2023/10/12 11:47:46 著作权人 6.07 n
2023/10/12 11:47:46 , 0 un
2023/10/12 11:47:46 一 0 m
2023/10/12 11:47:46 部 0 n
2023/10/12 11:47:46 电影 4.17 n
2023/10/12 11:47:46 的 0 uj
2023/10/12 11:47:46 整体 4.93 n
2023/10/12 11:47:46 版权 4.92 n
2023/10/12 11:47:46 归 0 v
2023/10/12 11:47:46 电影 4.17 n
2023/10/12 11:47:46 制片厂 8.38 n
2023/10/12 11:47:46 所有 4.72 v
2023/10/12 11:47:46 。 0 un
http://www.lryc.cn/news/189704.html

相关文章:

  • Excel 中使用数据透视图进行数据可视化
  • 在SIP 语音呼叫中出现单通时要怎么解决?
  • 【师兄啊师兄2】公布,李长寿成功渡劫,敖乙叛变,又一美女登场
  • 视频倒着播放,原来是这么实现的
  • # 02 初识Verilog HDL
  • 使用 Eziriz .NET Reactor 对c#程序加密
  • Restclient-cpp库介绍和实际应用:爬取www.sohu.com
  • 提升市场调研和竞品分析效率:利用Appium实现App数据爬取
  • 【Git笔记】之Git重命名详解
  • 201、RabbitMQ 之 Exchange 典型应用模型 之 工作队列(Work Queue)
  • 了解三层架构:表示层、业务逻辑层、数据访问层
  • 三相空气开关
  • uniapp 单位rpx ,设计稿尺寸px处理方式
  • @所有燃气企业,城燃企业数字化转型重点抓住的八个关键点
  • 大数据学习(4)-hive表操作
  • 第二证券:汇金增持有望催化银行板块 白酒企稳信号凸显
  • Kubernetes使用OkHttp客户端进行网络负载均衡
  • oracle设置自增ID
  • ubuntu22.04设置中文
  • Java中 创建不可变集合
  • options.css 内容优化2 --chatPGT
  • MS4344:24bit、192kHz 双通道数模转换电路
  • Talk | ACL‘23 杰出论文,MultiIntruct:通过多模态指令集微调提升VLM的零样本学习
  • PLC编程速成(二)
  • 【萌新向】Sql Server保姆级安装教程-图文详解手把手教你安sql
  • LLVM(5)ORC实例分析
  • jvm内存使用测试
  • Web1.0——Web2.0时代——Web3.0
  • 【深蓝学院】手写VIO第7章--VINS初始化和VIO系统--笔记
  • 大开眼界:Netbios 上古时代如何用一个参数实现一个世界 负面典型