当前位置: 首页 > news >正文

大模型Java编码能力评估

大模型如火如荼发展,不能只看热闹,也需要躬身入局。要想评估大模型的能力,必须有一个评估方法和评估数据集。下面就梳理下当前大模型是如何评估代码能力的

权威评估

  1. opencompass: https://opencompass.org.cn/
  2. datalearner: https://www.datalearner.com/ai-models/llm-coding-evaluation
  3. llm-leaderboard:https://huggingface.co/spaces/ludwigstumpp/llm-leaderboard

评估指标

OpenAI 提出的 pass@k 作为评价指标来计算

编码能力评估

  1. humaneval-x:主要是类似 LeetCode 的编程题。
    https://huggingface.co/datasets/THUDM/humaneval-x
  2. humaneval:一个手写的问题解决数据集,要求根据给定的问题和代码模板,生成正确的代码片段。这个数据集包含了164个高质量的问题,涵盖了五种编程语言:Python, C++, Java, Go, 和 JavaScript。这些问题涉及了不同的编程概念,如控制流、数据结构、算法、输入输出等。https://github.com/openai/human-eval
  3. MBPP (Mostly Basic Python Programming):由大约 1,000 个众包的 Python 编程问题组成,旨在由入门级程序员解决,涵盖编程基础知识、标准库功能等。 每个问题都包含任务描述、代码解决方案和 3 个自动化测试用例。

总结

从数据集来看,目前大模型支持更多还是函数级别。涉及不到类层面。因此,Java 语言的评估模型是不是需要优化?

参考

1、Large Language Model Evaluation in 2023: 5 Methods (aimultiple.com)
https://research.aimultiple.com/large-language-model-evaluation/
2、Evaluating the Code Quality of AI-Assisted Code Generation Tools: An Empirical Study on GitHub Copilot, Amazon CodeWhisperer, and ChatGPT
https://arxiv.org/pdf/2304.10778.pdf
3. HumanEval Benchmark (Code Generation) | Papers With Code
4. Evaluating Large Language Models Trained on Code
5. THUDM/CodeGeeX2: CodeGeeX2: A More Powerful Multilingual Code Generation Model (github.com)
6. 常见大模型数据集

http://www.lryc.cn/news/183726.html

相关文章:

  • javascript选择框和选择文本的创建与增加以及设置选中项
  • 汽车驾驶任务的隐马尔可夫模型识别方法研究
  • Java编程题(完数)
  • 国庆day6
  • 力扣 -- 873. 最长的斐波那契子序列的长度
  • 【程序员必看】计算机网络,快速了解网络层次、常用协议和物理设备!
  • 1.软件测试基础
  • 综合布线系统概述
  • Labview 实战 99乘法表
  • 需求变化频繁的情况下,如何实施自动化测试
  • C++设计模式-桥接(Bridge)
  • Springboot+vue的开放性实验室管理系统(有报告)。Javaee项目,springboot vue前后端分离项目。
  • 1.9.C++项目:仿muduo库实现并发服务器之Connection模块的设计
  • Iphone文件传到电脑用什么软件,看这里
  • JS进阶-原型对象prototype
  • 【Unity】两种方式实现弹跳平台/反弹玩家(玩家触发与物体自身触发事件实现蹦床的物理效果)
  • python开发幸运水果抽奖大转盘
  • 【CMU15-445 Part-16】Concurrency Control Theory
  • 软件设计模式系列之二十五——访问者模式
  • 国庆看坚如磐石
  • 代码随想录Day59 | 647. 回文子串 | 516. 最长回文子序列
  • 为什么InnoDB选择B+树而不是红黑树作为索引结构?
  • 【c++_containers】10分钟带你学会list
  • LeetCode 0714. 买卖股票的最佳时机含手续费
  • cartographer-(0)-ubuntu(20.04)-环境安装
  • MIT 6.S081学习笔记(第二章)
  • L958. 二叉树的完全性检验 java
  • 阿里云对象存储OSS SDK的使用
  • 二、互联网技术——网络协议
  • 初赛错题集