Python海量数据处理脚本大集合:pyWhat

news2025/1/9 1:12:29

pyWhat:精简海联数据,直达数据弱点要害- 精选真开源,释放新价值。

image

概览

pyWhat是Github社区上一款比较实用的开源Python脚本工具。它能够快速提取信息中的 IP 地址、邮箱、信用卡、数字货币钱包地址、YouTube 视频等内容。当你遇到了一串莫名其妙的文本,比如说“5f4dcc3b5aa765d61d8327deb882cf99”,而你又一头雾水的时候,你该怎么办?在pyWhat的帮助下,我们只需要询问what “5f4dcc3b5aa765d61d8327deb882cf99”,那么pyWhat就会告诉你你想知道的一切!pyWhat的任务就是帮助你识别目标数据,无论你提供的是文件还是文本,甚至是十六进制参数!不仅如此,pyWhat 还可对文件和目录进行扫描,通过递归搜索,快速获取核心信息,并对结果进行筛选、过滤、排序、导出等操作


主要功能

  • Pcap文件快速分析

假设你在一次网络攻击活动中获取到了一个.pcap文件,那么pyWhat将可以快速帮助你识别下列信息:

所有的哈希信用卡卡号加密货币地址
社保号码

只需几秒钟,pyWhat就可以快速帮助你识别目标文件中的关键数据。

image

  • 如何使用

    $ pip3 install pywhat

    installs optional dependencies that may improve the speed

    $ pip3 install pywhat[optimize]

    $ brew install pywhat

  • 漏洞赏金

你可以使用 PyWhat 来扫描一些可以通过漏洞赏金计划赚钱的东西,例如:API 密钥、Webhook、证书

和更多的事务。使用以下命令运行 PyWhat:

pywhat --include "Bug Bounty" TEXT

示例:GitHub 存储库 API 密钥泄露

  1. 下载组织的所有 GitHub 存储库;

  2. 搜索任何可以作为赏金提交的内容,例如 API 密钥;

    Download all repositories

    GHUSER=CHANGEME; curl “https://api.github.com/users/$GHUSER/repos?per_page=1000” | grep -o ‘git@[^"]*’ | xargs -L1 git clone

    Will print when it finds things.

    Loops over all files in current directory.

    find . -type f -execdir pywhat --include ‘Bug Bounty’ {} ;

示例: 扫描所有网页以寻找赏金

# Recursively download all web pages of a site
wget -r -np -k https://skerritt.blog

# Will print when it finds things.
# Loops over all files in current directory.
find . -type f -execdir pywhat --include 'Bug Bounty' {} \;
  • 排序、导出

排序:可以使用pyWhat对输出进行排序,使用what --help获取更多信息。

what -k rarity --reverse TEXT

导出:可以使用pyWhat导出为 json what --json,并且可以使用 将结果直接发送到文件what --json > file.json。

无边界模式:pyWhat具有一种特殊模式,用于匹配字符串中的可识别信息。默认情况下,它在 CLI 中启用,但在 API 中禁用。使用what --help或参考API文档https://github.com/bee-san/pyWhat/wiki/API了解更多信息。

  • 性能比较与优化

在性能比较与优化方面,PyWhat库在文本解析任务中展现了出色的效率。以下是一些性能测试和优化建议,以帮助开发者更好地了解和提升PyWhat库的性能。

import time
from pywhat import what

# 生成一个包含大量文本的列表
texts = ["文本内容" + str(i) for i in range(100000)]

# 记录解析开始时间
start_time = time.time()

# 在大量文本上执行解析操作
for text in texts:
    result = what(text)

# 记录解析结束时间
end_time = time.time()

# 计算解析时间
elapsed_time = end_time - start_time
print(f"解析 {len(texts)} 个文本的总时间: 0.0545 秒")
  • 多语言支持

PyWhat库支持多种语言,使其更具国际化的特性。用户可以选择在文本解析中使用的语言,以确保对不同语种的支持。以下是一个使用语言选择的示例:

from pywhat import what

text = "明天天气如何?"
result = what(text, lang="zh")  # 选择中文语言解析

print(result)
  • 自定义规则

PyWhat库允许用户定义自己的规则,以适应特定的文本解析需求。这对于处理特殊格式或特定领域的文本非常有用。以下是一个自定义规则的示例:

from pywhat import what, Rule

text = "根据自定义规则解析文本"
rule = Rule("自定义规则", ["自定义", "解析"])
result = what(text, custom_rules=[rule])

print(result)

信息

截至发稿概况如下:

  • 软件地址:https://github.com/bee-san/pyWhat

  • 软件协议: MIT license

  • 编程语言

语言占比
Python99.7%
Dockerfile0.3%
  • 收藏数量:6.4K

pyWhat是一款强大的开源Python工具,它在信息识别与数据分析领域展示了高度的灵活性与实用性。该工具能够智能解析文本或文件中的各种关键信息,比如IP地址、电子邮件、信用卡号乃至加密货币钱包地址等,显著提升了从复杂数据中提取价值的效率。对于安全研究人员而言,其快速分析Pcap文件的能力,以及在漏洞赏金狩猎场景中的应用尤为突出,能够帮助用户自动化发现API密钥、Webhook配置等敏感信息,有效促进网络安全的维护。

随着数据量的爆炸性增长,如何进一步优化像pyWhat这类工具的性能,使其在保持高速解析能力的同时,又能兼顾资源消耗与跨平台兼容性?此外,用户自定义规则的潜力如何被充分挖掘,以应对日新月异的互联网信息格式与安全挑战,也是值得深入探讨的话题。

各位在使用 PyWhat 的过程中是否发现了什么问题?热烈欢迎各位在评论区分享交流心得与见解!!!


声明:本文为辣码甄源原创,转载请标注"辣码甄源原创首发"并附带原文链接。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1884518.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Python实战因果推断】13_线性回归的不合理效果3

目录 Regression Theory Single Variable Linear Regression Multivariate Linear Regression Frisch-Waugh-Lovell Theorem and Orthogonalization Regression Theory 我不打算太深入地探讨线性回归是如何构建和估计的。不过,一点点理论知识将有助于解释线性回归…

申请一张含100个域名的证书-免费SSL证书

挑战一下,申请一张包含100个域名的证书 首先,我们访问来此加密网站,进入登录页面,输入我的账号密码。 登录后,咱们就可以开始申请证书,首先说一下,咱账号是SVIP哦,只有SVIP才可以申…

拍摄的vlog视频画质模糊怎么办?视频画质高清修复

在短视频逐渐成为主流的今天,许多朋友都会通过vlog的形式记录下自己的生活。但我们会发现,自己拍摄的视频与专业博主拍摄的视频,在画质上就会有所差别,拍摄的vlog视频画质模糊不清晰怎么办? 拍摄的vlog视频画质模糊怎么…

Linux-网络安全私房菜

文章目录 前言入门基本指令篇章字符集设置cdlsdatemkdirtouch-d-m 修改主机名rmshredrename重命名mv移动tar打包与压缩打包但是不压缩打包且压缩更新包文件解压对应的包 zip压缩文件命令cat查看显示行号交互写入(追加)显示空行 more和lesshead和tailhead…

虚拟环境管理

虚拟环境 在使用 Python 时我们一般使用“pip install 第三方包名”来安装第三方包,但是由于pip的特性,系统只能安装每个包的一个版本。而在实际开发中,可能同时开发多个项目,如:上图有三个项目;每个项目需…

【笔记】通过shell脚本自动部署项目(未完成)

然后将gitee仓库上的代码克隆至linux上 如果不知道gitee仓库怎么上传代码移步【笔记】如何在gitee仓库上传idea代码-CSDN博客 写到一半不想写了自己去复习p138-139吧

【QT】输入类控件

目录 Line Edit 核心属性 核心信号 正则表达式 示例:使用正则表达式验证输入框内容 示例:切换输入框密码模式下的显示状态 Text Edit 核心属性 核心信号 示例:获取多行输入框的内容同步显示到label 示例:获取文本的选…

微信小程序template模板引入

如图:temp.wxml是template引入的模板 在two.wxml中: import:是引入temp的页面让template中的内容显示出来在two页面中; include:是显示temp页面内容不在template包裹,template以外的view标签文字和不在view的文字让…

独家首发 | Matlab实现SVM-Transformer多变量回归预测

独家首发 | Matlab实现SVM-Transformer多变量回归预测 目录 独家首发 | Matlab实现SVM-Transformer多变量回归预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab实现SVM-Transformer多变量回归预测,SVM递归特征消除Transformer多输入单输出回归预测…

GOM引擎源码 完整可编译 带微端 附带基础附件

GOM引擎源码 完整可编译 带微端 附带基础附件 时间紧迫,无暇顾及,无意中得到即公布GameOfMir源码未测试,专业人事自行编译测试!非诚勿扰!源码下载:极速云

已解决org.omg.CORBA.portable.RemarshalException:在CORBA中需要重新编组的正确解决方法,亲测有效!!!

已解决org.omg.CORBA.portable.RemarshalException:在CORBA中需要重新编组的正确解决方法,亲测有效!!! 目录 问题分析 出现问题的场景 服务器端代码 客户端代码 报错原因 解决思路 解决方法 1. 检查网络连接 …

递归----计算P函数

注意运算中的符号不能少&#xff01;&#xff01;&#xff01;&#xff01; * 必须体现出&#xff01;&#xff01;&#xff01;&#xff01; #include <stdio.h>double P( int n, double x );int main() {int n;double x;scanf("%d %lf", &n, &x);pri…

MMM高可用性部署

MMM高可用性部署 MMM概述MMMMMM架构 MMM部署实验环境实验拓扑图 数据库安装时间同步搭建 MySQL 多主多从模式修改MySQL配置文件配置主主复制Master1Master2配置复制 配置主从复制 安装配置 MySQL-MMM安装 MySQL-MMM对 MySQL-MMM 进行配置修改代理配置文件修改监控配置文件授权代…

软件著作权申请:开发者的重要保障与助力

一、引言 随着信息技术的飞速发展&#xff0c;软件产业已成为推动经济增长的重要动力。然而&#xff0c;在软件开发过程中&#xff0c;保护创作者的权益、防止抄袭和侵权行为显得尤为重要。软件著作权作为保护软件开发者权益的重要法律工具&#xff0c;其申请和登记流程对于软…

typescript学习回顾(五)

今天来分享一下ts的泛型&#xff0c;最后来做一个练习 泛型 有时候&#xff0c;我们在书写某些函数的时候&#xff0c;会丢失一些类型信息&#xff0c;比如我下面有一个例子&#xff0c;我想提取一个数组的某个索引之前的所有数据 function getArraySomeData(newArr, n:numb…

AI系统:未来科技的驱动力

引言 人工智能&#xff08;Artificial Intelligence, AI&#xff09;是一门研究如何使计算机模拟、延伸和扩展人类智能的学科。自20世纪50年代起&#xff0c;人工智能作为一项科学研究领域开始兴起。早期的AI系统主要集中在简单的任务&#xff0c;如棋类游戏和数学证明。随着计…

NLP篇1

场景&#xff1a;假设给你一篇文章。 目标&#xff1a;说白了&#xff0c;就是数学的分类。但是如何实现分类呢。下面将逐步一 一 分析与拆解。先把目标定好了和整体框架定好了。而不是只见树木而不见森林。 情感分类&#xff08;好评、差评&#xff0c;中性&#xff09; 整体…

Windows 安装 Terraform

Windows 安装 Terraform 下载 Terraform 压缩文件安装 Terraform测试 Terraform 下载 Terraform 压缩文件 访问 https://developer.hashicorp.com/terraform/install&#xff0c;下载 Windows 版安装文件&#xff0c; 安装 Terraform 解压下载 zip 包&#xff0c;然后将解压的…

使用gitlab的CI/CD实现logseq笔记自动发布为单页应用

使用gitlab的CI/CD实现logseq笔记自动发布为单页应用 使用gitlab的CI/CD实现logseq笔记自动发布为单页应用如何实现将logseq的笔记发布成网站使用 logseq-publish-docker 实现手动发布使用gitlab的CI/CD实现自动发布过程中的问题及解决参考资料 使用gitlab的CI/CD实现logseq笔记…

2.IOC

IOC介绍 控制反转&#xff0c;把对象的创建和调用的过程&#xff0c;交给spring进行管理。 使用IOC目的&#xff1a;为了耦合度降低。 IOC底层原理 1&#xff09;xml解析 2&#xff09;工厂模式 3&#xff09;反射 IOC思想基于IOC容器完成&#xff0c;IOC容器底层就是对…