中文词性标注工具pkuseg例子(运行结果,不太好)
pkuseg_demo.md
pkuseg
预训练模型
预训练模型science
安装
pip3 install pkuseg
cd /rot/pkuseg_home/model/wget https://github.com/lancopku/pkuseg-python/releases/download/v0.0.25/science.zip
uzip science.zip -d ./science/
ls /rot/pkuseg_home/model/science/ #weights.npz features.pkl
例子参考
pkuseg_demo.py
运行
python3 pkuseg_demo.py
#报错:Downloading: "https://github.com/lancopku/pkuseg-python/releases/download/v0.0.16/postag.zip" to /home/z/.pkuseg/postag.zip
#解决:(手工下载)
cd /home/z/.pkuseg/
HTTP_PROXY=westGW:7890 HTTS_PROXY=westGW:7890 axel -n 10 https://github.com/lancopku/pkuseg-python/releases/download/v0.0.16/postag.zip python3 pkuseg_demo.py
#FileNotFoundError: [Errno 2] No such file or directory: '/home/z/.pkuseg/postag/featureIndex.txt_0'
#报错解决:
mkdir /home/z/.pkuseg/postag/
unzip ostag.zip -d /home/z/.pkuseg/postag/
ls /home/z/.pkuseg/postag/ #features.pkl weights.npz
python3 pkuseg_demo.py
的运行结果:
[('设', 'v'),('常数', 'n'),('t>', 'n'),('2', 'm'),('.', 'w'),('在', 'p'),('平面', 'n'),('直角', 'n'),('坐标系', 'n'),('xOy', 'n'),('中', 'f'),(',', 'w'),('已', 'd'),('知点', 'v'),('F', 'n'),('(', 'w'),('2', 'm'),(',', 'w'),('0', 'm'),(')', 'w'),(',', 'w'),('直线', 'd'),('l', 'v'),(':', 'w'),('x=t', 'i'),(',', 'w'),('曲线', 'n'),('Γ', 'v'),(':', 'w'),('y', 'v'),('2', 'm'),('=', 'q'),('8', 'm'),('x', 'q'),('(', 'w'),('0', 'm'),('≤', 'q'),('x≤t', 'n'),(',', 'w'),('y≥', 'v'),('0', 'm'),(')', 'w'),('.l', 'n'),('与', 'p'),('x', 'n'),('轴交', 'v'),('于', 'p'),('点', 'n'),('A', 'n'),('、', 'w'),('与', 'p'),('Γ', 'n'),('交于', 'v'),('点', 'n'),('B.P', 'n'),('、', 'w'),('Q', 'n'),('分别', 'd'),('是', 'v'),('曲线', 'n'),('Γ', 'n'),('与', 'p'),('线段', 'n'),('AB', 'v'),('上', 'v'),('的', 'u'),('动点', 'n'),('.', 'w'),('(', 'w'),('1', 'm'),(')', 'w'),('用', 'p'),('t', 'n'),('表示', 'v'),('点', 'q'),('B', 'n'),('到', 'v'),('点', 'n'),('F', 'n'),('的', 'u'),('距离', 'n'),(';', 'w'),('(', 'w'),('2', 'm'),(')', 'w'),('设', 'v'),('t=', 'n'),('3', 'm'),(',', 'w'),('|', 'v'),('FQ', 'v'),('|=', 'v'),('2', 'm'),(',', 'w'),('线段', 'n'),('OQ', 'v'),('的', 'u'),('中点', 'n'),('在', 'p'),('直线', 'n'),('FP', 'v'),('上', 'v'),(',', 'w'),('求△', 'v'),('AQP', 'v'),('的', 'u'),('面积', 'n'),(';', 'w')]
pkuseg_demo.py
#-*- coding: utf-8 -*-import pkusegmath_text="""设常数 t>2.在平面直角坐标系 xOy 中,已知点 F(2,0),直线 l:x=t,
曲线 Γ:y2=8x(0≤x≤t,y≥0).l 与 x 轴交于点 A、与 Γ 交于点 B.P、Q 分别是曲线 Γ 与
线段 AB 上的动点.
(1)用 t 表示点 B 到点 F 的距离;
(2)设 t=3,|FQ|=2,线段 OQ 的中点在直线 FP 上,求△AQP 的面积;"""seg = pkuseg.pkuseg(model_name='/rot/pkuseg_home/model/science/', postag=True) # 程序会自动下载所对应的细领域模型
text = seg.cut(math_text) # 进行分词
print(text)