当前位置：首页 > news >正文

基于文本提示和语义分割的快速抠图

news 2025/9/13 21:49:58

基于文本提示和语义分割的快速抠图

- 1. 介绍
- 2. 效果展示
- 3. 安装模型
- 4. 命令行调用
- 5. 代码调用
- - 5.1 模型加载
  - 5.2 可视化函数定义
  - 5.3 图像语义分割
- 6. 参考资料
- 7. 结语
- 服务

1. 介绍

传统的图像语义分割模型通常固定类别进行分割，而基于文本提示的语义分割模型则具有更高的灵活性。本文介绍的模型允许用户通过输入文本标签来手动控制分割的类别信息，从而实现快速抠图的需求。

2. 效果展示

通过控制文本标签，模型能够快速、精准地抠出特定物体，以下是部分抠图效果展示：

在这里插入图片描述

3. 安装模型

使用 PaddleHub 可以便捷地安装该语义分割模型：

!pip install --upgrade paddlenlp
!hub install lseg

4. 命令行调用

通过简单的命令行指令即可快速调用模型进行抠图：

!hub run lseg \--input_path "images/cat.jpeg" \--labels 'cat' 'other' \--output_dir "lseg_output"

文本标签支持中英文，模型会自动翻译至英文输入。

5. 代码调用

5.1 模型加载

import paddlehub as hubmodule = hub.Module(name="lseg")

5.2 可视化函数定义

import cv2
import numpy as np
from PIL import Imagedef vis(results):result = np.concatenate([results['color'], results['mix']], 1)return Image.fromarray(result[:, :, ::-1])

5.3 图像语义分割

# 定义图像路径 / 类别 / 保存路径
image_path = 'images/cat.jpeg'
labels = ['plant', 'grass', 'cat', 'stone', 'other']
output_dir = 'lseg_output'# 图像分割
results = module.segment(image=image_path,labels=labels,visualization=True,output_dir=output_dir
)# 可视化
vis(results)

或者直接使用 numpy.ndarray BGR 格式的图像：

# 定义图像路径 / 类别 / 保存路径
image_path = 'images/cat.jpeg'
labels = ['plant', 'grass', 'cat', 'stone', 'other']
output_dir = 'lseg_output'# 图像分割
results = module.segment(image=cv2.imread(image_path),labels=labels,visualization=True,output_dir=output_dir
)# 可视化
vis(results)

6. 参考资料

论文：Language-driven Semantic Segmentation
官方实现：isl-org/lang-seg
AIStudio 介绍：Lang-Seg：文本驱动的图像语义分割

7. 结语

以上是基于文本提示的语义分割快速抠图模型的介绍与实践。希望本文能够对您有所帮助，若有任何疑问或建议，欢迎留言交流！

服务

🛠 博主提供一站式解决方案，让您的工作变得更加轻松、高效！以下是我们提供的服务：

代部署

🚀 为您提供快速、稳定的部署方案。无论是您的应用程序、网站还是其他软件项目，我们都可以帮助您将其部署到适当的平台上。
课程设计选题

📚 为您量身定制符合课程要求和学生需求的选题方案。无论是基础课程还是高级课程，我们都能够为您提供专业的建议和支持。
线上辅导

💻 提供线上辅导服务，为您提供个性化的指导和支持，帮助您解决在学习、工作或研究中遇到的各种问题和困难。
如有需求，请随时私信

http://www.lryc.cn/news/306224.html

相关文章：

什么是媒体发稿？发稿媒体分类及发稿流程

安全测试自学手册之软件安全测试基础

【LeetCode】升级打怪之路 Day 04：链表 part 2

JAVA编程题系列——涵盖几乎所有java内容

【Android12】Monkey压力测试源码执行流程分析

Java架构师之路八、安全技术：Web安全、网络安全、系统安全、数据安全等

Codeforces Round 240 (Div. 1) C. Mashmokh and Reverse Operation（分治+逆序对）

SpringBoot源码解读与原理分析(三十二)SpringBoot整合JDBC(一)JDBC组件的自动装配

petalinux_zynq7 驱动DAC以及ADC模块之五：nodejs+vue3实现web网页波形显示

Android java中内部类的使用

llm的inference(二)

pytorch -- torch.nn.Module

Microsoft Edge 越用越慢、超级卡顿？网页B站播放卡顿？

XGB-9: 分类数据

FreeRTOS学习第8篇--同步和互斥操作引子

c++STL容器的使用（vector, list, map, set等），c++STL算法的理解与使用（sort, find, binary_search等）

选择VR全景行业，需要了解哪些内容？

H5 个人引导页官网型源码

【Linux】部署前后端分离项目---(Nginx自启，负载均衡）

WPF Style样式设置

【STM32】软件SPI读写W25Q64芯片

普通中小学校管理信息系统V1.1

中国水果采摘机器人行业市场研究及发展趋势分析报告

Linux多进程与信号

Self-attention与Word2Vec

【Flutter/Android】运行到安卓手机上一直卡在 Running Gradle task ‘assembleDebug‘... 的终极解决办法

医疗实施-客户需求分析

调度服务看门狗配置

AI时代编程高手的秘密武器：世界顶级大学推荐的计算机教材