当前位置: 首页 > news >正文

使用 Ruby 或 Python 在文件中查找

对于经常使用爬虫的我来说,在大多数文本编辑器都会有“在文件中查找”功能,主要是方便快捷的查找自己说需要的内容,那我有咩有可能用Ruby 或 Python实现类似的查找功能?这些功能又能怎么实现?

在这里插入图片描述

问题背景

许多流行的文本编辑器都具有“在文件中查找”功能,该功能可以在一个对话框中打开,其中包含以下选项:

  • 查找: 指定要查找的文本。
  • 文件筛选器: 指定要搜索的文件类型。
  • 开始位置: 指定要开始搜索的目录。
  • 报告: 指定要显示的结果类型,例如文件名、文件计数或两者兼有。
  • 方法: 指定要使用的搜索方法,例如正则表达式或纯文本搜索。

有人希望使用 Python 或 Ruby 类来实现类似的功能,以便可以在任何支持 Python 或 Ruby 的平台上从脚本运行此操作。

解决方案

Python

以下代码提供了在指定目录中搜索特定文本的 Python 脚本示例:

import os
import redef find_in_files(search_text, file_filter, start_dir, report_filenames, regex_search):results = []if regex_search:p = re.compile(search_text)for dir, subdirs, subfiles in os.walk(start_dir):for name in fnmatch.filter(subfiles, file_filter):fn = os.path.join(dir, name)with open(fn, 'r') as f:if regex_search:results += [(fn, lineno) for lineno, line in enumerate(f) if p.search(line)]else:results += [(fn, lineno) for lineno, line in enumerate(f) if line.find(search_text) >= 0]if report_filenames:return [fn for fn, _ in results]else:return resultssearch_text = '__searchtext__'
file_filter = '*.txt; *.htm'
start_dir = 'c:/docs/2009'
report_filenames = False
regex_search = Falseresults = find_in_files(search_text, file_filter, start_dir, report_filenames, regex_search)for result in results:print(result)

Ruby

以下代码提供了在指定目录中搜索特定文本的 Ruby 脚本示例:

require 'find'
require 'rexml/document'def find_in_files(search_text, file_filter, start_dir, report_filenames, regex_search)results = []if regex_searchregex = Regexp.new(search_text)endFind.find(start_dir) do |path|if File.file?(path) && file_filter.match(path)file = File.open(path, 'r')file.each_line do |line|if regex_searchresults << path if line =~ regexelseresults << path if line.include?(search_text)endendfile.closeendendif report_filenamesreturn results.uniqelsereturn resultsend
endsearch_text = '__searchtext__'
file_filter = '*.txt; *.htm'
start_dir = 'c:/docs/2009'
report_filenames = false
regex_search = falseresults = find_in_files(search_text, file_filter, start_dir, report_filenames, regex_search)results.each do |result|puts result
end

上述脚本可以接受以下参数:

  • searchtext:要查找的文本。
  • file_filter:要搜索的文件类型。
  • start_dir:要开始搜索的目录。
  • report_filenames:指定是只报告文件名还是同时报告文件内容。
  • regex_search:指定是否使用正则表达式进行搜索。

脚本将返回一个包含所有匹配文件的文件名列表,或者如果指定了报告文件名选项,则返回一个包含所有匹配文件的文件名和行号的列表。

上面就是两种语实现在文件中查找的具体代码,其实看着也不算太复杂,只要好好的去琢磨,遇到的问题也都轻而易举的解决,如果在使用中有任何问题,可以留言讨论。

http://www.lryc.cn/news/316655.html

相关文章:

  • python实现冒泡排序
  • 大数据开发(HBase面试真题-卷二)
  • 基于springboot+vue的线上教育系统(源码+论文)
  • 01-shell的自学课-基础变量学习
  • 鸿蒙Harmony应用开发—ArkTS声明式开发(基础手势:Span)
  • 前端框架的演进之路:从静态网页到现代交互体验的探索
  • 在Linux/Ubuntu/Debian中设置字体
  • Python 常用内置函数,及实例演示
  • C++标准输入输出和名字空间
  • hive逗号分割行列转换
  • Jenkins插件Parameterized Scheduler用法
  • 西门子S7.NET通信库【读】操作详解
  • Qt/C++音视频开发69-保存监控pcm音频数据到mp4文件/监控录像/录像存储和回放/264/265/aac/pcm等
  • 闲聊Swift的枚举关联值
  • 抓取Instagram数据:Fizzler库带您进入C#爬虫程序的世界
  • Codeforces Round 933 (Div. 3) A~D
  • 《vtk9 book》 官方web版 第3章 - 计算机图形基础 (3 / 5)
  • pytorch 函数整理
  • docker实战之制作filebeat镜像
  • 【DAY11 软考中级备考笔记】数据结构 查找和排序
  • 华为机考:HJ102 字符统计
  • 安装配置HBase
  • 【更新】数字金融与企业ESG表现:效应、机制与“漂绿”检验数据集(2011-2022年)
  • 手写简易操作系统(五)--获得物理内存容量
  • 机器学习之DeepSequence软件使用学习3-预测突变效应
  • Linux文件与文件系统的压缩
  • ubuntu 中进入python 编辑如何退出到命令行
  • 2024.3.12 C++
  • 飞塔防火墙开局百篇——002.FortiGate上网配置——透明模式配置(Transparent)
  • 代码随想录算法训练营第52天|300.最长递增子序列 674.最长连续递增序列 718.最长重复子数组