安卓恶意应用识别(三)(批量反编译与属性值提取)

news2024/11/20 12:26:30

前言

上篇说到对安卓APK反编译,本篇实现批量反编译和批量特征提取及计算,主要就是通过python代码与cmd进行批量化交互,我在写文章之前,尝试批量下载了安卓apk(大约10来个),发现现在这个应用软件不是一般的大啊,无奈电脑内存不太够,现仅将已下载10个apk作为示例展示。

1. 批量反编译

思路是这样:
第一步:调用cmd,读取指定路径下的文件,path+benign+k(k=1,2…n),进行反编译
第二步:结果就自动放到该文件夹目录下
出现的问题是os.system调用了cmd后立马又关闭,无法持续执行命令,看到文章windows系统如何使用python执行多条命令行命令
代码如下(我的cmd命令在pycharm中设定的就是malware_identification下):

def oper_cmd(apk):
    cmd_str = "cd ../restore & "+"apktool.bat d -f " + apk
    print(cmd_str)
    return subprocess.Popen(cmd_str, shell=True, stdout=None, stderr=None).wait()
for i in range(1,11):
    apk = "benign" + str(i) + ".apk"
    oper_cmd(apk)

执行如下图,开始批量反编译:
在这里插入图片描述
批量反编译成功!
在这里插入图片描述

2. 单文件特征提取

看到xml标签项和属性值,假设我们需要提取的特征就是属性值的最后一个字符串。
在这里插入图片描述
直接上提取代码,这里用到了xml.dom和正则表达式:

# 获取xml文件当中某个标签的属性值
import re
from xml.dom.minidom import parse

from character_handle.frequency_order import config_file

xmldom = parse(config_file) # 加载XML


for element in xmldom.getElementsByTagName("uses-permission"):
    a = element.getAttribute("android:name")
    b = re.findall(r'\w{1,}', a)[-1]
    print(b)

成功取出,同理,更改TagName也可以获取其他标签的属性值。
在这里插入图片描述
多做一步,计算特征属性值出现的频次:

# 获取xml文件当中某个标签的属性值
import re
from collections import Counter
from xml.dom.minidom import parse

from character_handle.frequency_order import sample_get
def counter(arr):
    return Counter(arr)
xmldom = parse(sample_get.get_file("benign1")) # 加载XML
# 多做一步,将每个特征存储为一个list,然后count
list_uses_permission = []
for element in xmldom.getElementsByTagName("uses-permission"):
    a = element.getAttribute("android:name")
    b = re.findall(r'\w{1,}', a)[-1]
    list_uses_permission.append(b)
c = counter(list_uses_permission)
print(c)

在这里插入图片描述

3. 批量文件特征提取

# 批量获取多个文件夹中xml当中某个标签的属性值
import re
from collections import Counter
from xml.dom.minidom import parse

from character_handle.frequency_order import sample_get
def counter(arr):
    return Counter(arr)
list_uses_permission = []
# 批量加载XML,并提取属性值
for i in range(1,11):
    xmldom = parse(sample_get.get_file("benign%d"%i))

    for element in xmldom.getElementsByTagName("uses-permission"):
        a = element.getAttribute("android:name")
        b = re.findall(r'\w{1,}', a)[-1]
        list_uses_permission.append(b)
c = counter(list_uses_permission)
print(c)

在这里插入图片描述
可以看到count函数已经帮助我们将频次顺序也归纳好了,这时候我们可以根据自己的需求去使用这些属性,end!
下一篇学习一下如何将这些属性值转化为特征值和特征向量进行处理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1017478.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于SSM的珠宝首饰交易平台

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:采用JSP技术开发 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目&#x…

GMAC PHY介绍

1.1PHY接口发展 (1)MII支持10M/100Mbps,一个接口由14根线组成,它的支持还是比较灵活的,但是有一个缺点是因为它一个端口用的信号线太多。参考芯片:DP83848 、DM900A(该芯片内部集成了MAC和PHY接…

义乌购yiwugo根据ID取商品详情 API 接口系列,可测试

义乌购是义乌市场官方网站,以义乌市场为核心,覆盖全国小商品产业带优质供应商,提供一手货源,品类丰富,在线商品达500万,涉及玩具、饰品、工艺品、日用百货等26个大类。同时提供线上线下对应,交易…

线上论坛之性能测试

使用loadrunner进行简单性能测试:针对用户登录、发布帖子、点赞帖子、修改帖子内容、修改用户名、退出等功能进行简单的性能测试。 然后在实现的过程中,插入集合点以及事务等,并通过设置来实现用户的并发操作。 创建Vuser脚本。在自动化脚本中…

FIR数字滤波器设计及MATLAB实现

摘要:FIR数字滤波器是数字信号处理中得重要组成部分。本文主要介绍了利用MATLAB软件采用窗函数法设计符合指标的FIR数字滤波器。该方法也是窗函数法设计FIR数字滤波器的一般方法。 一、设计目的 MATLAB是一款功能强大的软件,它将数值分析、矩阵计算、科…

使用python实现短线选股

经常做短线的朋友都知道,选股是个较为复杂的工作,尤其是像我们这种非职业选手,下面就分享一些通过python实现选股的思路。 股票信息获取 炒短线离不开龙虎榜,我们先来通过龙虎榜来进行股票选择 url https://applhb.longhuvip…

深入网络底层,了解Linux系统收发网络数据包的过程、原理、流程,附图文说明

深入网络底层,了解Linux系统收发网络数据包的过程、原理、流程,附图文说明。 Linux 服务器收到网络数据包,需要经过哪些处理,一步步将数据传给应用进程的呢?应用进程发送数据包时,Linux 又是如何操作将数据…

【Rust日报】2023-09-15 RustRover:JetBrains单行版Rust IDE

RustRover:JetBrains单行版Rust IDE 深入了解 RustRover 的公共预览版,这是我们专为 Rust 开发人员设计的新 IDE!体验其先进功能,并根据您的反馈帮助塑造其未来。现在就成为第一批探索它的人吧! X post: https://x.com…

智能家居产品公司网站源码,自适应布局设计,带完整演示数据

适合各类智能家居电子产品使用的网站源码,深色大气设计,自适应布局设计,pc手机均可完美适配,带完整演示数据。 独家原创资源。源码是asp开发的,数据库是access,主流的虚拟主机空间都支持asp,直…

2.数据分析报告制作

文章目录 2. 数据分析报告制作2.1 产品基础信息2.2 产品生命周期2.4 产品发展情况2.4 核心业务逻辑【重点】2.5潜在运营可能2.6 用戶决策流程2.7 典型用户场景 2. 数据分析报告制作 2.1 产品基础信息 产品介绍 今日头条是一款基于用户和信息数据挖掘的…

多输入多输出 | MATLAB实现CNN-BiGRU卷积双向门控循环单元多输入多输出

多输入多输出 | MATLAB实现CNN-BiGRU卷积双向门控循环单元多输入多输出 目录 多输入多输出 | MATLAB实现CNN-BiGRU卷积双向门控循环单元多输入多输出预测效果基本介绍程序设计往期精彩参考资料 预测效果 基本介绍 MATLAB实现CNN-BiGRU卷积双向门控循环单元多输入多输出&#xf…

Truenas scale 配置 TrueChart zerotier

起源 Official zerotier 总是在系统重启或者服务重启后,会丢失之前配置的IP等信息,使用,转投 TrueChart zerotier 步骤 TrueChart 官方步骤,按这个配置完还是不能使用,需要后续设置。 添加TrueChart步骤到应用库的步…

pickle反序列化RCE分析

pickle反序列化 一. pickle模块1.1 什么是pickle模块1.2 常用函数1.3 魔术方法 二. 例题[[BUUOJ]HFCTF 2021 Final]2.1 题目分析2.2 payload 三. opcode编写3.1 为什么要用到opcode3.2 什么是opcode3.3 常见的指令符3.4 opcode执行原理3.5 R指令被禁绕过3.6 构造示例3.7 一些ti…

can‘t sync to target.

飞翔仿真器 无法 与S12单片机 建立联系,仿真时显示 cant sync to target. 但是使用仿真器与其他板子连接仿真是没问题的。 首先怀疑硬件问题:没发现问题; 然后,勇敢的点击菜单中 设置速度,根据自己晶振和建议设置如…

看完这篇 教你玩转渗透测试靶机Vulnhub——Grotesque:2

Vulnhub靶机Grotesque:1.0.1渗透测试详解 Vulnhub靶机介绍:Vulnhub靶机下载:Vulnhub靶机安装:①:信息收集:②:暴力破解:③:SSH登入:④:提权&#…

Java中double类型保留小数点后两位的方法

1.String类的format方法 package com.yushifu.problem; //java中double保留两位小数的方法 import java.util.Scanner; public class Demo01 {public static void main(String[] args) {//Practice:键盘输入数据,以保留小数点后两位的格式输出键盘输入的数据。doub…

Linux CentOS7 history命令

linux查看历史命令可以使用history命令,该命令可以列出所有已键入的命令。 这个命令的作用可以让用户或其他有权限人员,进行审计,查看已录入的命令。 用户所键入的命令作为应保存的信息将记录在文件中,这个文件保存就是家目录中…

ApplicationContext版本的快速入门

ApplicationContext快速入门 ApplicationContext称为Spring容器,内部封装了BeanFactory,比BeanFactory功能更加丰富和强大,使用ApplicationContext进行开发时,xml配置文件的名称习惯写成applicationContext.xml。 BeanFactory和…

上海交通大学生存手册

强烈建议去看看《上海交通大学生存手册》,内容可能有点长,但讲得很好,说出了大学教育的本质。如果几年前我能看到它,也许我的大学生活可能会不一样。 只是,没有如果。 那么我把这本手册推荐给正在上大学或者是将要上…

网络协议学习地图分享

最近在回顾网络知识点的时候,发现华为数通有关报文格式及网络协议地图神仙网站,这里涵盖了各个协议层及每个协议层对应的协议内容,最人性的化的一点是点击每个单独的协议可以跳转到该协议详细报文格式页面,有对应的说明和解释&…