当前位置: 首页 > news >正文

ElasticSearch easy-es 聚合函数 group by 混合写法求Top N 词云 分词

1.将用户访问记录表数据同步到ES,并且分词,获取用户访问最多前十条词语。

Elasticsearch、Easy-es 快速入门 SearchAfterPage分页 若依前后端分离 Ruoyi-Vue SpringBoot

使用结巴分词器

        <!-- 分词器--><dependency><groupId>com.huaban</groupId><artifactId>jieba-analysis</artifactId><version>1.0.2</version></dependency>

初始化数据

public void createAndInitToES() {// 1.初始化-> 创建索引(相当于mysql中的表)esTzLyViewCountMapper.deleteIndex("tz_ly_view_count");esTzLyViewCountMapper.createIndex();esTzLyViewCountWordFrequencyMapper.deleteIndex("tz_ly_view_count_word");esTzLyViewCountWordFrequencyMapper.createIndex();MPJLambdaWrapper<TzLyViewCount> tzLyViewCountWrapper = JoinWrappers.lambda(TzLyViewCount.class).selectAll(TzLyViewCount.class).selectAs("lyUser", TzLyUser::getGender, TzLyViewCount::getGender).selectAs("lyUser", TzLyUser::getEthnicity, TzLyViewCount::getEthnicity).selectAs("lyUser", TzLyUser::getPoliticalStatus, TzLyViewCount::getPoliticalStatus).selectAs("lyUser", TzLyUser::getDomain, TzLyViewCount::getDomain).selectAs("lyUser", TzLyUser::getAreaCode, TzLyViewCount::getAreaCode).leftJoin(TzLyUser.class, "lyUser", on -> on.eq(TzLyViewCount::getViewUserId, TzLyUser::getId));//本地限制数据大小tzLyViewCountWrapper.between(TzLyViewCount::getCreatedDate, DateUtil.parse("2024-01-01 00:00:00"), DateUtil.parse("2024-02-01 00:00:00"));int currentPage = 1;int pageSize = 1000;while (true) {PageUtils.startPage(currentPage, pageSize);List<TzLyViewCount> list = tzLyViewCountMapper.selectList(tzLyViewCountWrapper);// 如果当前页没有数据,说明查询结束if (CollectionUtil.isEmpty(list)) {break;}EsTzLyViewCount esTzLyViewCount = null;List<EsTzLyViewCount> esTzLyViewCountList = new ArrayList<>(list.size() * 2);for (TzLyViewCount viewCount : list) {esTzLyViewCount = new EsTzLyViewCount();BeanUtils.copyBeanProp(esTzLyViewCount, viewCount);esTzLyViewCountList.add(esTzLyViewCount);}splitWordAndInsertEs(esTzLyViewCountList);// 准备查询下一页currentPage++;}}public void splitWordAndInsertEs(List<EsTzLyViewCount> esTzLyViewCountList) {JiebaSegmenter js = new JiebaSegmenter();EsTzLyViewCountWord esTzLyViewCountWord = null;List<EsTzLyViewCountWord> esTzLyViewCountWordList = new ArrayList<>();for (EsTzLyViewCount esTzLyViewCount : esTzLyViewCountList) {if (StringUtils.isNotBlank(esTzLyViewCount.getViewTitle())) {List<String> wordList = js.sentenceProcess(esTzLyViewCount.getViewTitle());for (String word : wordList) {if (word.length() >= 2) {esTzLyViewCountWord = new EsTzLyViewCountWord();BeanUtils.copyBeanProp(esTzLyViewCountWord, esTzLyViewCount);esTzLyViewCountWord.setViewTitleWord(word);esTzLyViewCountWordList.add(esTzLyViewCountWord);}}}}esTzLyViewCountWordFrequencyMapper.insertBatch(esTzLyViewCountWordList);esTzLyViewCountMapper.insertBatch(esTzLyViewCountList);}
easy-es 聚合函数 混合写法
 /*** 访问信息关键词*/public List<HashMap<String, Long>> accessInformationKeyword(StatisticsDateQueryVo statisticsDateQueryVo) {LambdaEsQueryWrapper<EsTzLyViewCountWord> wrapper = new LambdaEsQueryWrapper<>();//不返回任何文档wrapper.size(0);//限制文档聚合范围if (ObjectUtils.isNotEmpty(statisticsDateQueryVo.getBgnTimestamp()) && StringUtils.isNotNull(statisticsDateQueryVo.getEndTimestamp())) {Date bgnTimestamp = new Date(statisticsDateQueryVo.getBgnTimestamp().getTime());Date endTimestamp = new Date(statisticsDateQueryVo.getEndTimestamp().getTime());wrapper.between(EsTzLyViewCountWord::getCreatedDate, bgnTimestamp, endTimestamp);} else {// 获取当前年份(假设 statisticsDateQueryVo.getQueryTimestamp() 返回的是Date类型)Date queryDate = statisticsDateQueryVo.getQueryTimestamp();Calendar calendar = Calendar.getInstance();calendar.setTime(queryDate);int currentYear = calendar.get(Calendar.YEAR);// 获取当前年份的第一天(使用Calendar来设置日期部分)calendar.set(Calendar.YEAR, currentYear);calendar.set(Calendar.MONTH, Calendar.JANUARY);calendar.set(Calendar.DAY_OF_MONTH, 1);calendar.set(Calendar.HOUR_OF_DAY, 0);calendar.set(Calendar.MINUTE, 0);calendar.set(Calendar.SECOND, 0);calendar.set(Calendar.MILLISECOND, 0);Date firstDayOfYear = calendar.getTime();// 获取当前年份的最后一天(使用Calendar来设置日期部分)calendar.set(Calendar.YEAR, currentYear);calendar.set(Calendar.MONTH, Calendar.DECEMBER);calendar.set(Calendar.DAY_OF_MONTH, 31);calendar.set(Calendar.HOUR_OF_DAY, 23);calendar.set(Calendar.MINUTE, 59);calendar.set(Calendar.SECOND, 59);calendar.set(Calendar.MILLISECOND, 999);Date lastDayOfYear = calendar.getTime();// 设置查询条件(这里的wrapper类似前面示例中的查询条件包装类,需根据实际调整)wrapper.between(EsTzLyViewCountWord::getCreatedDate, firstDayOfYear, lastDayOfYear);}AggregationBuilder aggregation = AggregationBuilders.terms("viewTitleWordAgg")// 自定义聚合名.field("viewTitleWord") //聚合字段
//                .order() 排序,默认降序.size(10); //要十条记录SearchSourceBuilder searchSourceBuilder = esTzLyViewCountWordFrequencyMapper.getSearchSourceBuilder(wrapper);searchSourceBuilder.aggregation(aggregation);wrapper.setSearchSourceBuilder(searchSourceBuilder);SearchResponse searchResponse = esTzLyViewCountWordFrequencyMapper.search(wrapper);List<HashMap<String, Long>> list = new ArrayList<>();Aggregation viewTitleWordAgg = searchResponse.getAggregations().getAsMap().get("viewTitleWordAgg");for (int i = 0; i < ((Terms) viewTitleWordAgg).getBuckets().size(); i++) {Terms.Bucket bucket = ((Terms) viewTitleWordAgg).getBuckets().get(i);HashMap<String, Long> hashMap = new HashMap<>();hashMap.put(bucket.getKeyAsString(), bucket.getDocCount());list.add(hashMap);}return list;}
http://www.lryc.cn/news/497530.html

相关文章:

  • 在 ASP.NET C# Web API 中实现 Serilog 以增强请求和响应的日志记录
  • 2024年顶级小型语言模型前15名
  • 精通 Python 网络安全(一)
  • 【python自动化二】pytest集成allure生成测试报告
  • 网络版本的通讯录青春版(protobuf)
  • 开源模型应用落地-安全合规篇-用户输入价值观判断(三)
  • 神经网络入门实战:(十四)pytorch 官网内置的 CIFAR10 数据集,及其网络模型
  • 【Rust在WASM中实现pdf文件的生成】
  • 在MySQL中执行sum case when报错:SUM does not exist
  • 【openssl】相关指令
  • 实例分割详解
  • D87【python 接口自动化学习】- pytest基础用法
  • 浅谈MySQL路由
  • matlab中disp,fprintf,sprintf,display,dlmwrite输出函数之间的区别
  • 30.100ASK_T113-PRO 用QT编写视频播放器(一)
  • Linux-GPIO应用编程
  • opencvocr识别手机摄像头拍摄的指定区域文字,文字符合规则就语音报警
  • 微服务即时通讯系统(5)用户管理子服务,网关子服务
  • postgreSQL安装后启动有The application server could not be contacted问题
  • 架构05-架构安全性
  • 虚幻引擎---材质篇
  • NPM镜像详解
  • 从智能合约到去中心化AI:Web3的技术蓝图
  • STM32进阶 定时器3 通用定时器 案例1:LED呼吸灯——PWM脉冲
  • 开源即时通讯与闭源即时通讯该怎么选择,其优势是什么?
  • 930[water]
  • 2024论文翻译 | Multi-Review Fusion-in-Context
  • (78)MPSK基带调制通信系统瑞利平坦衰落信道传输性能的MATLAB仿真
  • 【机器学习】机器学习的基本分类-监督学习-决策树-CART(Classification and Regression Tree)
  • 【金猿CIO展】复旦大学附属中山医院计算机网络中心副主任张俊钦:推进数据安全风险评估,防范化解数据安全风险,筑牢医疗数据安全防线...