Astronomaly:利用 CNN 和主动学习识别 400 万张星系图像中的异常

news2024/11/18 6:29:46

星系中的异常现象是我们了解宇宙的关键。然而,随着天文观测技术的发展,天文数据正以指数级别增长,超出了天文工作者的分析能力。
尽管志愿者可以在线上参与对天文数据的处理,但他们只能进行一些简单的分类,还可能会遗漏一些关键数据。
为此,研究者基于卷积神经网络和无监督学习开发了 Astronomaly 算法。近日,西开普大学的研究人员首次将 Astronomaly
用于大规模的数据分析,尝试从 400 万张星系照片中探寻宇宙的异常。

作者 | 雪菜
编辑 | 三羊、铁塔

星系中的异常现象 (Anomaly) 是我们了解宇宙的关键。通过对巡天望远镜 (Survey Telescope) 记录到的图像进行分析,研究人员能够找出星系中的异常现象,进而对宇宙的起源和演化做出推断。

然而,这一过程正面临着严峻的挑战,因为天文观测数据量正以指数级别在增长。以即将投入使用的薇拉·鲁宾天文台为例,这一天文台有着世界上最大的数码相机,预计每晚将记录 20 TB 的数据,十年间记录 60 PB 的数据,对约 200 亿个星系进行 32 万亿次观察,远超研究人员人力所能分析的极限。
在这里插入图片描述

图 1:正在建设的薇拉·鲁宾天文台

2007 年 7 月,一些研究者启动了 Galaxy Zoo 项目,通过线上招募志愿者的方式推进天文观测图像分类。这一项目吸引了约 15 万名志愿者,共对斯隆数字巡天项目 (SDSS) 记录到的 100 万个星系图像进行了超过 4,000 万次分类。

在这里插入图片描述

图 2:Galaxy Zoo 项目首页

但志愿者只能做一些基础的工作,而且很容易忽视掉图像中的细节。而机器学习长于图像分析和数据归类,在天文分析中大有可为。监督学习已被广泛用于天文数据分析,但这些算法需要大量的训练数据和预定义,在寻找异常现象中表现不佳

为此,2021 年研究人员基于卷积神经网络 (CNN) 开发了无监督机器学习算法 Astronomaly,并在不同任务中有着优异的表现。近日,西开普大学的研究者利用 Astronomaly 对约 400 万张星系图像进行分析,首次将这一算法应用于大规模的数据分析,并找到了之前为人忽视的异常现象。这一成果已在 arXiv 发表预印版。

在这里插入图片描述

这一成果已发表于 arXiv

论文链接:

https://arxiv.org/abs/2309.08660

实验过程

数据集:暗能量巡天相机

本研究的数据集主要为暗能量巡天相机 (DECaLS) 的第八批公开数据 (DR8) 中 g、r、z 波段中记录的图像。

随后,对数据集中的图像进行筛选。去除被伪迹和恒星遮盖的图像,同时排除与标准星系模型不符的图像,最后留下了 3,884,404 张星系图像。

特征提取:CNN + PCA

为了提高 Astronomaly 的计算效率,需要对高维的图像进行特征提取,将其转变为低维向量。

本研究通过预训练的 CNN 对图像进行特征提取。CNN 的每一层会对输入图像进行不同变换,生成一个可以代表图像特征的向量。

CNN 最终输出了包含 1,280 个图像特征的向量。随后,研究人员利用主成分分析 (PCA) 进一步降低数据维度。PCA 是一种常用的统计方法,能够基于数据的方差将一组相关的变量转换为不相关的主成分。通过 PCA,图像的维度进一步降低至 26,提高了 Astronomaly 的处理效率。

异常监测:iForest + 主动学习

Astronomaly 结合孤立森林 (iForest) 和局部离群因子 (LOF) 算法进行异常监测。在数据测试中,LOF 算法很难应用于大规模的数据,而 iForest 算法能够通过决策树迅速找到图像中的异常。因此,在后续分析中均使用 iForest 算法。

随后, Astronomaly 通过 K-近邻算法 (NS) 和直接回归算法 (DR) 进行主动学习,不断更新数据集中图像的异常评分。

NS 算法可以基于少量人工标注的评分,通过随机森林回归算法预测用户对所有图像的评分。而 DR 算法会直接尝试「模拟」用户对图像的评分。

最终,两种算法的评分结果将与人工标注的数据进行结果对比,进行评估。

在这里插入图片描述

图 3:部分被标注的图像。Label 0 结果中自左向右分别为伪迹、遮罩和低信噪比。

Label 5 结果自左向右分别对应星系融合、引力透镜和尚未归类。

引力透镜是指强引力天体使得附近的光不再沿直线传播的效应,与透镜对光线的折射作用类似。

对比验证:Recall 曲线 + UMAP

研究人员利用 iForest、NS 和 DR 算法对验证集中的数据进行了预测。评价集包含 184 个异常现象。iForest 算法在 500 个异常评分最高的图像中仅发现了 15 处异常,而 DR 和 NS 算法均找到了 84 处异常。

在这里插入图片描述

图 4:不同算法的预测结果

进一步,研究人员将 iForest 和 NS 算法的预测结果按照伪迹、引力透镜和星系融合进行了分类,发现了 iForest 算法表现不佳的原因。
在这里插入图片描述

图 5:iForest(虚线)和 NS(实线)算法的结果归类

如图所示,iForest 算法发现的异常大多是伪迹。这些技术异常虽然也是异常,但没有什么科学价值。上述结果说明,NS 和 DR 算法可以帮助 Astronomaly 迅速排除伪迹的干扰,找到宇宙中的异常现象。

同时,研究人员利用统一流形逼近投影法 (UMAP, Uniform Manifold Approximation and Projection) 对验证集中的图像进行了分类。

在这里插入图片描述

图 6:评估集的 UMAP 结果
UMAP 根据图像的异常分数进行分类。1 分的图像为普通的星系图像,即没有任何特殊情况的星系。各类图像周围均存在大量的 1 分普通图像,为 iForest 算法的预测提供了障碍。

可以看到,0 分的伪迹和 5 分的异常现象在图中被分为紧密的团簇,说明两类图像都有很明显的特征。但同时,两类图像的分布很近,很容易让 iForest 算法产生误判。

大规模应用:标注与探索

在对不同算法的性能进行评估后,研究人员将 NS 算法用于整个数据集中。

图中可以看到,当不对数据进行任何标注时,即无主动学习的 iForest 算法,结果中几乎看不到曲线,因为 iForest 算法在 2,000 个异常评分最高数据中只找到了一处异常。

在这里插入图片描述

图 7:NS 算法在不同标注数量下的预测结果

然而,对数据集中 2,000 个数据进行标注后,Astronomaly 能够通过主动学习迅速找到图像中的异常。当标注数为 4,000 时,Astronomaly 新找到的异常现象最多,随后开始下降,说明此时不需要额外的标注,可以增大数据集。

后续调查:1635/2000

在对数据集中所有图像进行分析后, Astronomaly 从异常评分最高的 2,000 张图像中找到了 1,635 处异常,其中 8 处引力透镜、18 处未被归类的现象、1609 处星系融合。
在这里插入图片描述

图 8:Astronomaly 发现的引力透镜

在这里插入图片描述

图 9:Astronomaly 发现的未被归类的异常

在这里插入图片描述

图 10:Astronomaly 发现的星系融合
# 迈向宇宙的 AI 随着天文观测数据量不断增加,善于数据分析的 AI 在天文学中的地位也逐渐提高。**早在 2020 年,英国华威大学的研究者就利用 AI 从 NASA 的旧数据中找到了 50 个新行星。**

同时,被称为「中国天眼」的 500 米口径球面射电望远镜 (FAST) 也面临着数据量过大的问题,而 AI 为他们提供了解决方案。2021 年,FAST 与腾讯优图实验室合作,对 FAST 数据进行分析,很快就找到了 5 颗脉冲星。

AI 在其他方面也发挥着自己的作用。2019 年,视界面望远镜 (ETH) 团队发布了世界上第一张黑洞照片。四年后,美国的研究人员利用 AI 对这张照片进行了图像处理,得到了更高清的黑洞照片,为黑洞「美颜」。

在这里插入图片描述

图 11:原始黑洞照片(左)和处理后的黑洞照片(右)
也许同人类一样,AI 也有着星辰大海的雄心。如今它将步伐迈向了宇宙,在浩如烟海的数据中寻找宇宙演化的蛛丝马迹。从新的行星,到新的脉冲星,再到新的宇宙异常现象,AI 正在开启天文学新的未来。

参考链接:

[1]https://zoo4.galaxyzoo.org/?lang=zh_cn#/classify

[2]https://www.cas.cn/kj/202009/t20200901_4757754.shtml

[3]https://www.thepaper.cn/newsDetail_

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1076626.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数字孪生与GIS数据为何高度互补?二者融合后能达到什么样的效果?

山海鲸可视化作为一款数字孪生软件,在GIS的融合方面处于业内领先水平,那么为什么一款数字孪生软件要花费巨大的精力,去实现GIS的融合,实现后又能达到什么样的效果呢?下面就让我们来一探究竟。 一、为什么数字孪生需要…

OpenCV级联分类器识别车辆实践笔记

1. OpenCV 级联分类器的基本原理 基于Haar特征的级联分类器的目标检测是Paul Viola和Michael Jones在2001年的论文中提出的一种有效的目标检测方法。这是一种基于机器学习的方法,从大量的正面和负面图像中训练级联函数。然后用它来检测其他图像中的物体。 Haar特征…

终于找到了!多种类型的电子期刊模板在这里!

经过我不懈的努力和搜寻,终于找到了一个提供多种类型电子期刊模板的网站。这个网站拥有丰富多样的模板,可以满足各种不同的需求,无论是学术研究、商业报告还是个人兴趣爱好,都能在这里找到心仪的模板。 一、网站介绍 这个网站叫做…

弧形进度条,弧形百分比

要帮助同事写一个弧度的进度条&#xff0c;进度条顶部有一个小圆&#xff0c;具体如下 需要指出的是&#xff0c;我们canvas的绘制是需要弧度&#xff0c;所以我们代码中使用角度&#xff0c;等待绘制的时候再砖话为弧度值 <!DOCTYPE html> <html lang"en"…

【MATLAB源码-第45期】基于matlab的16APSK调制解调仿真,使用卷积编码软判决。

操作环境&#xff1a; MATLAB 2022a 1、算法描述 1. 16APSK调制解调 16APSK (16-ary Amplitude Phase Shift Keying) 是一种相位调制技术&#xff0c;其基本思想是在恒定幅度的条件下&#xff0c;改变信号的相位&#xff0c;从而传送信息。 - 调制&#xff1a;在16APSK中&am…

【angular】TodoList小项目(已开源)

参考&#xff1a;https://segmentfault.com/a/1190000013519099 文章目录 准备工作headerTodo、Doing、Done样式&#xff08;HTMLCSS&#xff09;功能&#xff08;TS&#xff09;将输入框内容加入todoList&#xff08;addTodo&#xff09;将todo事件改到doing 服务 参考 效果&a…

C语言基础 C++

C语言基础 C 嘿&#xff0c;你想起点C基础知识&#xff0c;这是一个很好的开始&#xff01;C是一种通用的编程语言&#xff0c;被广泛用于开发各种应用程序&#xff0c;从简单的控制台程序到复杂的桌面应用和游戏开发。现在让我带你进入C的奇妙世界&#xff0c;看看它有什么特…

OBIA:900+ 患者、193w+ 影像,中科院基因组所发布我国首个生物影像共享数据库

看病就医&#xff0c;拍片已是常例。CT、核磁、X 光等影像资料可以用非侵入式手段透过人体&#xff0c;使内部器官、组织状况清晰可见&#xff0c;为临床诊断和疾病治疗提供可靠依据。 随着医学影像技术广泛发展&#xff0c;影像资料已占据国内医疗数据的 80% 以上&#xff0c…

Android平台GB28181设备接入侧如何实现SIP校时

规范解读 GB/T28181-2016规范里面&#xff0c;9.10.1章节&#xff0c;关于校时基本要求&#xff1a; 联网内设备支持基于SIP方式或 NTP方式的网络校时功能&#xff0c;标准时间为北京时间。 SIP方式校时见本节具体描述&#xff1b;NTP(见IETFRFC2030)协议的网络统一校时服务…

【通信系列 2 -- 射频电路介绍】

文章目录 1.1 射频电路介绍1.1.1 射频电路的原理1.1.2 射频电路组成和特点 1.1 射频电路介绍 射频&#xff08;RF&#xff09;是Radio Frequency的缩写&#xff0c;表示可以辐射到空间的电磁波频率&#xff0c;频率范围从300kHz&#xff5e;300GHz之间。射频就是射频电流&…

美瞳小程序经营配送商城的作用是什么

美瞳是不少小姑娘喜爱的产品&#xff0c;线上线下需求都比较旺盛&#xff0c;尤其是新款或极其漂亮的产品往往会成为疯抢的对象&#xff0c;当然市场高需求的同时商家也面临着一些难题。 通过【雨科】平台搭建美瞳商城小程序&#xff0c;将所有产品线上售卖&#xff0c;摆脱第三…

复亚智能广东智慧应急项目案例:构建“空地一体化”

近日&#xff0c;广东某区深入探索“智慧应急”发展模式&#xff0c;将无人机作为赋能应急处突与“智慧应急”的重要手段&#xff0c;利用复亚智能无人机全自动飞行系统做到“平时巡查巡检、急时辅助处突”&#xff0c;实现全面监管快速响应&#xff0c;无人机自动巡检结合多样…

Web API 基础 (Web Workers API)

Web Workers API 1、指南 1.1 使用Web Workers Web Workers是一种让Web内容在后台线程中运行脚本的简单方法。工作线程可以在不干扰用户界面的情况下执行任务。此外&#xff0c;它们还可以使用XMLHttpRequest(尽管responseXML和channel属性总是为空)或fetch(没有此类限制)执…

XPS测试仪器-科学指南针

在做 X 射线光电子能谱(XPS)测试时&#xff0c;科学指南针检测平台工作人员在与很多同学沟通中了解到&#xff0c;好多同学仅仅是通过文献或者师兄师姐的推荐对XPS测试有了解&#xff0c;但是对于其测试仪器还属于小白阶段&#xff0c;针对此&#xff0c;科学指南针检测平台团队…

ant design form数组修改 关联展示

根据form 数组项修改关联其他选项 如图&#xff0c;在项目开发中&#xff0c;每个form中有多个产品&#xff0c;提货方式不同&#xff0c;有一个需要邮寄展示收货地址&#xff0c;否则不用展示 // An highlighted block <Card title"产品信息" bordered{false}&g…

VulnHub narak

一、信息收集 1.nmap扫描开发端口 2.扫描目录 利用dirb扫描目录 3.发现 /webdav目录 访问 WebDAV 基于 HTTP 协议的通信协议&#xff0c;在GET、POST、HEAD等几个HTTP标准方法以外添加了一些新的方法&#xff0c;使应用程序可对Web Server直接读写&#xff0c;并支持写文件锁…

vue3源码解析

vue3源码解析与前端网络安全 VUE 3 拓展 vue3 对比 vue2 响应式数据 vue2 的响应式数据是通过 Object.defineProperty 进行数据劫持&#xff0c;其存在一些缺点&#xff1a; 必须要预知劫持的 key 是什么&#xff0c;并不能很好的监听到对象属性的添加、删除&#xff1b;初…

家政服务行业怎么做微信小程序开发

随着科技的不断发展&#xff0c;微信小程序已经成为了人们生活中不可或缺的一部分。在家政服务领域&#xff0c;微信小程序也发挥出了重要的作用。本文将探讨家政服务在微信小程序上可以实现的功能。 一、展示家政服务信息 微信小程序可以作为一个展示家政服务的平台&#xff…

XML外部实体注入攻击XXE

xml是扩展性标记语言&#xff0c;来标记数据、定义数据类型&#xff0c;是一种允许用户对自己的标记语言进行定义的源语言。XML文档结构包括XML声明、DTD文档类型定义&#xff08;可选&#xff09;、文档元素&#xff0c;一般无法直接打开&#xff0c;可以选择用excl或记事本打…

虚拟桌宠模拟器:VPet-Simulator,一个开源的桌宠软件, 可以内置到任何WPF应用程序

虚拟桌宠模拟器&#xff1a;VPet-Simulator&#xff0c;一个开源的桌宠软件, 可以内置到任何WPF应用程序 虚拟桌宠模拟器 一个开源的桌宠软件, 可以内置到任何WPF应用程序 获取虚拟桌宠模拟器 OnSteam(免费) 或 通过[Nuget]内置到你的WPF应用程序 1.虚拟桌宠模拟器 详细介绍 …