ANR原理篇 - ANR原理总览

news2024/11/26 10:22:47

系列文章目录

提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加
例如:第一章 Python 机器学习入门之pandas的使用


文章目录

  • 系列文章目录
  • 前言
  • ANR流程概览
  • ANR触发机制
  • 一、service超时机制
  • 二、broadcast超时机制
  • 三、provider超时机制
  • 四、input超时机制
  • ANR信息收集
  • Question


前言

不论从事安卓应用开发,还是安卓系统研发,应该都遇到应用无响应(ANR,Application Not Responding)问题,当应用程序一段时间无法及时响应,则会弹出ANR对话框,让用户选择继续等待,还是强制关闭。

那么哪些场景会造成ANR呢?
Service Timeout:比如前台服务在20s内未执行完成;
BroadcastQueue Timeout:比如前台广播在10s内未执行完成
ContentProvider Timeout:内容提供者,在publish过超时10s;
InputDispatching Timeout: 输入事件分发超时5s,包括按键和触摸事件。

ANR流程概览

我们通过一张流程图来了解整个ANR的流程:
在这里插入图片描述
无论是哪种类型的ANR,哪怕是native层的ANR,最终也会通知到AnrHelper类的appNotResponding方法。所以,我们从这个方法开始了解整个ANR的流程。我们用来区分ANR的四种不同类型,其实也就是appNotResponding这个方法中的annotation不同而已,而ANR本身是不去分类型的。

  1. appNotResponding方法中,主要是生成AnrRecord对象,加入到mAnrRecords集合中。然后调用startAnrConsumerIfNeeded方法。
  2. startAnrConsumerIfNeeded方法主要是通过cas进行判断,避免两个ANR线程同时执行。如果没有冲突的话,则开启AnrConsumerThread线程,对mAnrRecords中的对象进行消费。
  3. AnrConsumerThread的run方法中,就是从mAnrRecords中取出对象,这些对象第一条中添加的。通过AnrRecord自身的appNotResponding方法进行消费。
  4. appNotResponding方法就是整个ANR流程的核心执行逻辑了。总结一下,其实主要分为两大块:
    • 生成ANR的相关log以及日志并打印或保存
    • 触发ANR超时机制,弹出应用无响应的框

ANR日志生成可查看ANR原理篇 - ANR信息收集过程
下面篇章,主要看下ANR触发机制。

ANR触发机制

ANR是一套监控Android应用响应是否及时的机制,可以把发生ANR比作是引爆炸弹,整个流程包含三部分组成:
1.埋定时炸弹:中控系统(system_server进程)启动倒计时,在规定时间内如果目标(应用进程)没有干完所有的活,则中控系统会定向炸毁(杀进程)目标。
2.拆炸弹:在规定的时间内干完工地的所有活,并及时向中控系统报告完成,请求解除定时炸弹,则幸免于难。
3.引爆炸弹:中控系统立即封装现场,抓取快照,搜集目标执行慢的罪证(traces),便于后续的案件侦破(调试分析),最后是炸毁目标。
常见的ANR有service、broadcast、provider以及input。
更多细节详见下面两篇:
ANR原理篇 - service/broadcast/provider超时机制
ANR原理篇 - Input超时机制

一、service超时机制

下面来看看埋炸弹与拆炸弹在整个服务启动(startService)过程所处的环节:
在这里插入图片描述
图解:

  1. 客户端(App进程)向中控系统(system_server进程)发起启动服务的请求
  2. 中控系统派出一名空闲的通信员(binder_1线程)接收该请求,紧接着向组件管家(ActivityManager线程)发送消息,埋下定时炸弹
  3. 通讯员1号(binder_1)通知工地(service所在进程)的通信员准备开始干活
  4. 通讯员3号(binder_3)收到任务后转交给包工头(main主线程),加入包工头的任务队列(MessageQueue)
  5. 包工头经过一番努力干完活(完成service启动的生命周期),然后等待SharedPreferences(简称SP)的持久化;
  6. 包工头在SP执行完成后,立刻向中控系统汇报工作已完成
  7. 中控系统的通讯员2号(binder_2)收到包工头的完工汇报后,立刻拆除炸弹。如果在炸弹倒计时结束前拆除炸弹则相安无事,否则会引发爆炸(触发ANR)

更多细节详见startService启动过程分析。

二、broadcast超时机制

broadcast跟service超时机制大抵相同,如下图所示。
在这里插入图片描述
图解:

  1. 客户端(App进程)向中控系统(system_server进程)发起发送广播的请求
  2. 中控系统派出一名空闲的通信员(binder_1)接收该请求转交给组件管家(ActivityManager线程)
  3. 组件管家执行任务(processNextBroadcast方法)的过程埋下定时炸弹
  4. 组件管家通知工地(receiver所在进程)的通信员准备开始干活
  5. 通讯员3号(binder_3)收到任务后转交给包工头(main主线程),加入包工头的任务队列(MessageQueue)
  6. 包工头经过一番努力干完活(完成receiver启动的生命周期),然后等待SP工人完成SP数据的持久化工作,便可以向中控系统汇报工作完成
  7. 中控系统的通讯员2号(binder_2)收到包工头的完工汇报后,立刻拆除炸弹。如果在倒计时结束前拆除炸弹则相安无事,否则会引发爆炸(触发ANR)

对于静态注册的广播在超时检测过程,还多一个步骤:需要检测SP,位于第6步和第7步之间。
SP的apply将修改的数据项更新到内存,然后再异步同步数据到磁盘文件,因此很多地方会推荐在主线程调用采用apply方式,避免阻塞主线程,但静态广播超时检测过程需要SP全部持久化到磁盘,如果过度使用apply会增大应用ANR的概率,更多细节详见系统SharedPreferences工作过程。

Google这样设计的初衷是针对静态广播的场景下,保障进程被杀之前一定能完成SP的数据持久化。因为在向中控系统汇报广播接收者工作执行完成前,该进程的优先级为Foreground级别,高优先级下进程不但不会被杀,而且能分配到更多的CPU时间片,加速完成SP持久化。更多细节详见Android Broadcast广播机制。

三、provider超时机制

provider的超时是在provider进程首次启动的时候才会检测,当provider进程已启动的场景,再次请求provider并不会触发provider超时。
在这里插入图片描述
图解:

  1. 客户端(App进程)向中控系统(system_server进程)发起获取内容提供者的请求
  2. 中控系统派出一名空闲的通信员(binder_1)接收该请求,检测到内容提供者尚未启动,则先通过zygote孵化新进程
  3. 新孵化的provider进程向中控系统注册自己的存在
  4. 中控系统的通信员2号接收到该信息后,向组件管家(ActivityManager线程)发送消息,埋下炸弹
  5. 通信员2号通知工地(provider进程)的通信员准备开始干活
  6. 通讯员4号(binder_4)收到任务后转交给包工头(main主线程),加入包工头的任务队列(MessageQueue)
  7. 包工头经过一番努力干完活(完成provider的安装工作)后向中控系统汇报工作已完成
  8. 中控系统的通讯员3号(binder_3)收到包工头的完工汇报后,立刻拆除炸弹。如果在倒计时结束前拆除炸弹则相安无事,否则会引发爆炸(触发ANR)

更多细节详见理解ContentProvider原理。

四、input超时机制

input的超时检测机制跟service、broadcast、provider截然不同,
为了更好的理解input过程先来介绍两个重要线程的相关工作:

  • InputReader线程负责通过EventHub(监听目录/dev/input)读取输入事件,一旦监听到输入事件则放入到InputDispatcher的mInBoundQueue队列,并通知其处理该事件;
  • InputDispatcher线程负责将接收到的输入事件分发给目标应用窗口,分发过程使用到3个事件队列:
    • mInBoundQueue用于记录InputReader发送过来的输入事件;
    • outBoundQueue用于记录即将分发给目标应用窗口的输入事件;
    • waitQueue用于记录已分发给目标应用,且应用尚未处理完成的输入事件;

input的超时机制并非时间到了一定就会爆炸,而是处理后续上报事件的过程才会去检测是否该爆炸,所以更像是扫雷的过程,具体如下图所示:
在这里插入图片描述

图解:

  1. InputReader线程通过EventHub监听底层上报的输入事件,一旦收到输入事件则将其放至mInBoundQueue队列,并唤醒InputDispatcher线程
  2. InputDispatcher开始分发输入事件,设置埋雷的起点时间。先检测是否有正在处理的事件(mPendingEvent),如果没有则取出mInBoundQueue队头的事件,并将其赋值给mPendingEvent,且重置ANR的timeout;否则不会从mInBoundQueue中取出事件,也不会重置timeout。然后检查窗口是否就绪(checkWindowReadyForMoreInputLocked),满足以下任一情况,则会进入扫雷状态(检测前一个正在处理的事件是否超时),终止本轮事件分发,否则继续执行步骤3。
    • 对于按键类型的输入事件,则outboundQueue或者waitQueue不为空,
    • 对于非按键的输入事件,则waitQueue不为空,且等待队头时间超时500ms
  3. 当应用窗口准备就绪,则将mPendingEvent转移到outBoundQueue队列
  4. 当outBoundQueue不为空,且应用管道对端连接状态正常,则将数据从outboundQueue中取出事件,放入waitQueue队列
  5. InputDispatcher通过socket告知目标应用所在进程可以准备开始干活
  6. App在初始化时默认已创建跟中控系统双向通信的socketpair,此时App的包工头(main线程)收到输入事件后,会层层转发到目标窗口来处理
  7. 包工头完成工作后,会通过socket向中控系统汇报工作完成,则中控系统会将该事件从waitQueue队列中移除。

input超时机制为什么是扫雷,而非定时爆炸呢?
是由于对于input来说即便某次事件执行时间超过timeout时长,只要用户后续在没有再生成输入事件,则不会触发ANR。 这里的扫雷是指当前输入系统中正在处理着某个耗时事件的前提下,后续的每一次input事件都会检测前一个正在处理的事件是否超时(进入扫雷状态),检测当前的时间距离上次输入事件分发时间点是否超过timeout时长。如果完成前一个输入事件,则会重置ANR的timeout,从而不会爆炸。

ANR信息收集

对于service、broadcast、provider、input发生ANR后,中控系统会马上去抓取现场的信息,用于调试分析。收集的信息包括如下:

  1. 将am_anr信息输出到EventLog,也就是说ANR触发的时间点最接近的就是EventLog中输出的am_anr信息
  2. 收集以下重要进程的各个线程调用栈trace信息,保存在data/anr/traces.txt文件
    • 当前发生ANR的进程,system_server进程以及所有persistent进程
    • audioserver, cameraserver, mediaserver, surfaceflinger等重要的native进程
    • CPU使用率排名前5的进程
  3. 将发生ANR的reason以及CPU使用情况信息输出到main log
  4. 将traces文件和CPU使用情况信息保存到dropbox,即data/system/dropbox目录
  5. 对用户可感知的进程则弹出ANR对话框告知用户,对用户不可感知的进程发生ANR则直接杀掉

整个ANR信息收集过程比较耗时,其中抓取进程的trace信息,每抓取一个等待200ms,可见persistent越多,等待时间越长。

关于抓取trace命令,对于Java进程可通过在adb shell环境下执行kill -3 [pid]可抓取相应pid的调用栈;
对于Native进程在adb shell环境下执行debuggerd -b [pid]可抓取相应pid的调用栈。
对于ANR问题发生后的蛛丝马迹(trace)在traces.txt和dropbox目录中保存记录。
更多细节详见理解Android ANR的信息收集过程

有了现场信息,可以调试分析,先定位发生ANR时间点,然后查看trace信息,接着分析是否有耗时的message、binder调用,锁的竞争,CPU资源的抢占,以及结合具体场景的上下文来分析,调试手段就需要针对前面说到的message、binder、锁等资源从系统角度细化更多debug信息,这里不再展开,后续再以ANR案例来讲解。

作为应用开发者应让主线程尽量只做UI相关的操作,避免耗时操作,比如过度复杂的UI绘制,网络操作,文件IO操作;避免主线程跟工作线程发生锁的竞争,减少系统耗时binder的调用,谨慎使用sharePreference,注意主线程执行provider query操作。简而言之,尽可能减少主线程的负载,让其空闲待命,以期可随时响应用户的操作。

Question

有哪些路径会引发ANR?
答案是从埋下定时炸弹到拆炸弹之间的任何一个或多个路径执行慢都会导致ANR(以service为例),可以是service的生命周期的回调方法(比如onStartCommand)执行慢,可以是主线程的消息队列存在其他耗时消息让service回调方法迟迟得不到执行,可以是SP操作执行慢,可以是system_server进程的binder线程繁忙而导致没有及时收到拆炸弹的指令。另外ActivityManager线程也可能阻塞,出现的现象就是前台服务执行时间有可能超过10s,但并不会出现ANR。

发生ANR时从trace来看主线程却处于空闲状态或者停留在非耗时代码的原因有哪些?
可以是抓取trace过于耗时而错过现场,可以是主线程消息队列堆积大量消息而最后抓取快照一刻只是瞬时状态,可以是广播的“queued-work-looper”一直在处理SP操作。


致谢:
理解Android ANR的触发原理
http://gityuan.com/2016/07/02/android-anr/
ANR信息收集过程
http://gityuan.com/2016/12/02/app-not-response/
Intpu原理分析
http://gityuan.com/2017/01/01/input-anr/
彻底理解安卓应用无响应机制
http://gityuan.com/2019/04/06/android-anr/
ANR显示和日志生成原理讲解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/534059.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

支付系统设计四:支付核心设计01-总览

文章目录 前言一、应用架构二、开发框架三、逻辑架构四、分层架构1. 松散分层架构2. 分层职责 总结 前言 在《支付系统设计一:支付系统产品化》文章中,我们知道支付核心对应于平台产品层,主要具有以下功能: 为公司各业务线提供丰…

LangChain实现自主代理(Autonomous Agents)

LangChain实现自主代理(Autonomous Agents) LangChain实现自主代理(Autonomous Agents)简介核心技术让 AI 使用工具的案例使用搜索引擎使用知识库 Here’s the table of contents: LangChain实现自主代理(Autonomous …

【A*算法——清晰解析 算法逻辑——算法可以应用到哪些题目】例题1.第K短路 例题2.

A*算法 A*算法是什么例题1. 第K短路题意解析 例题2. 八数码 欢迎观看我的博客,如有问题交流,欢迎评论区留言,一定尽快回复!(大家可以去看我的专栏,是所有文章的目录)   文章字体风格&#xff1…

初识Linux:第四篇

初识Linux:第四篇 初识Linux:第四篇1.配置自己的公网ip2.时间相关的指令3.cal指令4.find指令5.grep指令6.zip/unzip指令7.tar指令8.bc命令9.uname -r指令10.一些其他热键11.关机12.shell命令以及运行原理 总结 初识Linux:第四篇 &#x1f449…

华为OD机试真题 Java 实现【最佳对手】【2023Q1 200分】

一、题目描述 游戏里面,队伍通过匹配实力相近的对手进行对战。但是如果匹配的队伍实力相差太大,对于双方游戏体验都不会太好。 给定 n 个队伍的实力值,对其进行两两实力匹配,两支队伍实例差距在允许的最大差距 d内,则…

深度学习之迁移学习

数据增强 数据太少可能会过拟合。 # data_transforms中指定了所有图像预处理(变换)操作(图像数据增强) data_transforms {train: transforms.Compose([transforms.RandomRotation(45), # 随机旋转,-45到45度之间随…

本地测试使用自签名证书以开启网站https(例子说明:Nginx、Tomcat)

文章目录 数字证书简介工作原理证书链获取SSL证书和自签名证书前提条件创建根 CA 证书1.生成 RSA 私钥2.生成根证书签名请求(CSR)3.生成自签根证书 创建服务器证书1.创建服务器 RSA 私钥2.创建 CSR(证书签名请求)3.使用 CSR 和私钥…

Requestly工具快速提升前端开发与测试的效率

痛点 前端测试 在进行前端页面开发或者测试的时候,我们会遇到这一类场景: 在开发阶段,前端想通过调用真实的接口返回响应在开发或者生产阶段需要验证前端页面的一些 异常场景 或者 临界值 时在测试阶段,想直接通过修改接口响应来…

字节跳动的网络工程师,是什么神仙存在?

大家好,我是老杨。 要是说起网络工程师的待遇天花板,你觉得会是什么样的? 在2022年,互联网大厂虽然裁了很多人,但却刺激了更多人想要进入大厂,一探究竟。 就从网工这个岗位来说,你说大小厂的…

Linux文本三剑客之awk)

Linux文本三剑客之awk 一、awk的简介二、awk的工作原理三、命令格式四、实例1、按行输出文本2、BEGIN模式和END模式3、按字段输出文本4、通过管道,双引号调用shell命令5、date的用法6、getline的用法7、awk数组 一、awk的简介 awk是一种处理文本文件的语言&#xf…

C++STL——哈希

哈希 unordered系列关联式容器unordered_set与unordered_mapset VS unordered_set 底层结构哈希概念与哈希冲突哈希冲突的解决闭散列——开放定址法开散列——哈希桶 模拟实现unordered_set与unordered_map其他哈希函数哈希的应用哈希切割(面试题)位图位…

如何把容器变成物理机

如何把容器变成物理机 本文的主题是把容器变成物理机,根据所学的知识。以及通过各种搜索引擎。他们都告诉我们,这是不可能的。这真的是不可能的吗?我不信,那我就要创造奇迹。请继续往下看。本文将教你如何把容器变成物理机。 这…

java多线程_01

文章目录 1. 线程的概念1. 程序2. 进程3. 线程4. Java程序的运行原理5. 并发与并行概念1. 并发2. 并行3. 并发编程和并行编程 2. Java中的Thread线程类1. Thread类构造方法2. Thread类普通方法3. Thread类静态方法4. Thread类特殊方法 3.线程的创建方式1. 继承Thread类2. 实现R…

C++ 仿函数(一)

目录 一、仿函数是什么? 二、仿函数的特点 1.仿函数在使用时,可以像普通函数那样调用, 可以有参数,可以有返回值 2.仿函数超出普通函数的概念,可以有自己的状态 ​编辑3.仿函数可以作为参数传递。 三、谓词 一元谓词示例&a…

38【源码】数据可视化:基于 Echarts + Python 动态实时大屏 - 全国图书零售监测数据

效果图展示 1.动态效果演示 2.静态切片效果图 一、确定需求方案 1.确定产品上线部署的屏幕LED分辨率 本案例基于16:9 屏宽比,F11全屏显示。 2.部署方式 浏览器打开播放,Chrome浏览器、360浏览器等。 二、整体架构设计 前端基于 Echarts开源库设计…

leetcode27.移除元素

个人主页:平行线也会相交 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 平行线也会相交 原创 收录于专栏【LeetCode】 🍓希望我们一起努力、成长,共同进步。 👉题目链接 题目描述 给你一个数组 nums 和一个…

从0开始学习数据库(持续更新)

一个数据库最重要的部分是什么? 关系型数据库mysql有着四大特性,原子性,隔离性,一致性,持久性。 kv数据库有着原子性,持久性,弱一致性。 可见,不管数据库的存储引擎是什么&#xff0…

LeetCode_递归_中等_138.复制带随机指针的链表

目录 1.题目2.思路3.代码实现(Java) 1.题目 给你一个长度为 n 的链表,每个节点包含一个额外增加的随机指针 random,该指针可以指向链表中的任何节点或空节点。 构造这个链表的深拷贝。 深拷贝应该正好由 n 个全新节点组成&#…

vector源码解析及扩容优化

一、vector源码解析 没有任何一个东西可以在原地扩充,因为要了一块内存后,后面这块内存有可能被使用了,或者能不能用也不知道。链表可以保留原有节点,再将指针指向别处开辟的新内存,但这个也不算原地扩充。 对于vecto…

不需要等待列表,也不用魔法上网的Claude,能否比肩ChatGPT?

近期,国外Anthropic公司发布了Claude聊天机器人,堪比ChatGPT的最大竞争对手。一经推出,市场上就经常拿它俩来对比,因为推出Claude产品的Anthropic 公司是由多位前OpenAI前员工组成,两家公司,以及他们推出的…