当前位置: 首页 > news >正文

ChatGPT生成文本检测器算法挑战大赛

ChatGPT生成文本检测器算法挑战大

比赛链接:2023 iFLYTEK A.I.开发者大赛-讯飞开放平台 (xfyun.cn)

1、数据加载和预处理

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_predict
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import classification_report
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV# 加载数据
train_data = pd.read_csv('ChatGPT生成文本检测器公开数据-更新/train.csv')
test_data = pd.read_csv('ChatGPT生成文本检测器公开数据-更新/test.csv')# 数据预处理
train_data['content'] = train_data['content'].apply(lambda x: x[1:-1])
test_data['content'] = test_data['content'].apply(lambda x: x[1:-1])

2、训练集和验证集划分

# 划分训练集和验证集
train_text, valid_text, train_label, valid_label = train_test_split(train_data['content'], train_data['label'], test_size=0.2, random_state=42
)

3、Pipeline构建

使用Pipeline构建了一个包含TF-IDF向量化和逻辑回归模型的流水线。

# 使用Pipeline进行流水线构建
pipeline = Pipeline([('tfidf', TfidfVectorizer(token_pattern=r'\w{1,}', max_features=5000, ngram_range=(1, 2))),('model', LogisticRegression(max_iter=1000))
])

4、网格搜索参数

定义了要进行网格搜索的参数范围,其中包括TF-IDF的最大特征数和逻辑回归的正则化参数C。

# 网格搜索参数
param_grid = {'tfidf__max_features': [2000, 5000],'model__C': [0.1, 1, 10]
}

5、网格搜索交叉验证

使用GridSearchCV在训练集上执行网格搜索交叉验证,寻找最佳参数组合。

# 在训练集上进行网格搜索交叉验证
grid_search = GridSearchCV(pipeline, param_grid, cv=3, scoring='f1_macro')
grid_search.fit(train_text, train_label)

6、最佳模型获取

从网格搜索结果中选择出最佳模型。

# 最佳模型
best_model = grid_search.best_estimator_

7、预测和评估

使用最佳模型预测验证集的标签,并通过classification_report打印验证集的分类报告。

# 打印最佳参数
print("Best Parameters:", grid_search.best_params_)# 预测验证集
valid_predictions = best_model.predict(valid_text)# 打印验证集的分类报告
print("Validation Set Classification Report:")
print(classification_report(valid_label, valid_predictions))

8、测试集预测和保存

使用最佳模型对测试集进行预测,并将预测结果保存到CSV文件中。

# 使用最佳模型进行测试集预测
test_predictions = best_model.predict(test_data['content'])
test_data['label'] = test_predictions# 保存预测结果
test_data[['name', 'label']].to_csv('tfidf_predictions.csv', index=None)

http://www.lryc.cn/news/117561.html

相关文章:

  • O2OA开发平台实施入门指南
  • 服装行业多模态算法个性化产品定制方案 | 京东云技术团队
  • MySQL表空间结构与页、区、段的定义
  • RaabitMQ(三) - RabbitMQ队列类型、死信消息与死信队列、懒队列、集群模式、MQ常见消息问题
  • Unity3D GPU Selector/Picker
  • 灰度非线性变换之c++实现(qt + 不调包)
  • 轻量级Web框架Flask
  • 【gridsample】地平线如何支持gridsample算子
  • JPA实现存储实体类型信息
  • 阿里云快速部署开发环境 (Apache + Mysql8.0+Redis7.0.x)
  • 语音秘书:让录音转文字识别软件成为你的智能工作助手
  • 【腾讯云 Cloud Studio 实战训练营】用于编写、运行和调试代码的云 IDE泰裤辣
  • [C#] 简单的俄罗斯方块实现
  • postman官网下载安装登录详细教程
  • (贪心) 剑指 Offer 14- I. 剪绳子 ——【Leetcode每日一题】
  • 如何将Linux上的cpolar内网穿透设置成 - > 开机自启动
  • 50.两数之和(力扣)
  • k8s基础
  • 【自然语言处理】大模型高效微调:PEFT 使用案例
  • FFmpeg将编码后数据保存成mp4
  • 设置VsCode 将打开的多个文件分行(栏)排列,实现全部显示
  • Vue.js2+Cesium1.103.0 六、标绘与测量
  • 【redis 延时队列】使用go-redis的list做异步,生产消费者模式
  • 激光焊接塑料多点测试全画面穿透率测试仪
  • 用 Uno 当烧录器给 atmega328 烧录 bootloader
  • spring boot策略模式实用: 告警模块为例
  • Camunda 7.x 系列【10】使用 Rest API 运行流程实例
  • Python-OpenCV中的图像处理-边缘检测
  • 一文了解Java序列化和反序列化:对象的存储与传输
  • react-codemirror2 编辑器需点击一下或者延时才显示数据的问题