当前位置: 首页 > news >正文

华为OD机试真题-中文分词模拟器-2023年OD统一考试(C卷)

题目描述:

给定一个连续不包含空格字符串,该字符串仅包含英文小写字母及英文文标点符号(逗号、分号、句号),同时给定词库,对该字符串进行精确分词。
说明:
1.精确分词: 字符串分词后,不会出现重叠。即“ilovechina” ,不同词库可分割为 “i,love,china” “ilove,china”,不能分割出现重叠的"i,ilove,china",i重叠出现
2.标点符号不成词,仅用于断句
3.词库:根据外部知识库统计出来的常用词汇例:dictionary=["i","love","china","lovechina","ilove"], 
4.分词原则:采用分词顺序优先且最长匹配原则
“ilovechina”,假设分词结果  [ i,ilove,lo,love,ch,china,lovechina ] 则输出 [ilove,china] 
 错误输出:[i,lovechina],            原因:"ilove ">优先于 "lovechina"成词
 错误输出:[i,love,china]            原因:"ilove" >"i"  遵循最长匹配原则

输入描述:

字符串长度限制:0<length<256
词库长度限制:  1<length<100000
第一行输入待分词语句 "ilovechina"
第二行输入中文词库   "

http://www.lryc.cn/news/268467.html

相关文章:

  • 【并发设计模式】聊聊 基于Copy-on-Write模式下的CopyOnWriteArrayList
  • OpenCV中使用Mask R-CNN实现图像分割的原理与技术实现方案
  • 论文阅读《Rethinking Efficient Lane Detection via Curve Modeling》
  • Leetcode—2660.保龄球游戏的获胜者【简单】
  • ubuntu服务器上安装KVM虚拟化
  • SpreadJS 集成使用案例
  • 单挑力扣(LeetCode)SQL题:534. 游戏玩法分析 III(难度:中等)
  • 【OpenCV】告别人工目检:深度学习技术引领工业品缺陷检测新时代
  • VR全景图片制作时有哪些技巧,VR全景图片能带来哪些好处
  • 【VUE】Flask+vue-element-admin前后端分离项目发布到linux服务器操作指南
  • django的gunicorn的异步任务执行
  • KEPServerEX 6 之【外篇-2】PTC-ThingWorx服务端软件安装 PostgreSQL本地安装
  • websocket 介绍
  • 【IoT网络层】STM32 + ESP8266 +MQTT + 阿里云物联网平台 |开源,附资料|
  • 数据分析工具 Top 8
  • AI 换脸的新时代:没有显卡也可以使用的AI换脸工具
  • 3.Python中的循环结构
  • 机器学习之BP神经网络精讲(Backpropagation Neural Network(附案例代码))
  • 安全生产人员定位系统助企业实现智能化管理,提高生产安全性和效率
  • 动态规划 多源路径 字典树 LeetCode2977:转换字符串的最小成本
  • Hadoop集群找不到native-hadoop
  • 解决阿里云远程连接yum无法安装问题(Ubuntu 22.04)
  • springboot 查询
  • 【分布式链路追踪技术】sleuth+zipkin
  • Windows 源码编译 MariaDB
  • 【动画视频生成】
  • 《Spring Cloud学习笔记:微服务保护Sentinel》
  • 解密负载均衡:如何平衡系统负载(下)
  • go 源码解读 - sync.Mutex
  • 机器学习系列--R语言随机森林进行生存分析(1)