rWCVP:世界维管植物名录的R包
- 介绍
- 1. 参照github安装与简单例子
- 1.1 安装rWCVP
- 1.2 安装rWCVPdata
- 1.3 github的例子
- 2. rWCVP原始文献阅读
- 2.1 前言(背景)
- 2.2 功能概要
- 2.2.1 名称匹配(wcvp_match_names(), wcvp_match_exact(), wcvp _match_fuzzy())
- 2.2.2 匹配后名称解析
- 2.2.3 空间整合和分布映射(wcvp_distribution(), wcvp_distribution_map() and wgsrpd3)
- 2.2.4 在级别之间映射地理位置(get_wgsprd3_codes() and get_area_name())
- 2.2.5 摘要表(wcvp_summary () and wcvp_summary_gt())
- 2.2.6 发现记录矩阵(wcvp_occ_mat())
- 2.2.7 生成checklist(wcvp_checklist())
- 2.3 rWCVP应用
介绍
借用文献中的摘要来介绍一下这个包:*世界维管植物名录(World Checklist of Vascular Plants, WCVP)是非常优质的数据库资源,为植物科学、植物保护、生态和进化等领域提供了坚实基础。但是,掌握处理如此庞大复杂的数据库对许多用户来说是一项挑战。 所以,作者们推出了rWCVP,方便用户通过此开源R包对WCVP进行数据清洗等多种常用处理。这些功能包括分类名称修正、地理空间集成、映射以及以数据和报告格式生成多个不同的WCVP摘要。
1. 参照github安装与简单例子
1.1 安装rWCVP
运行下行即可
devtools::install_github("matildabrown/rWCVP")
或者
install.packages(“rWCVP”)
亦或者是
在RStudio中通过Tools的Install Packages完成下载安装
1.2 安装rWCVPdata
在运行示例时,显示rWCVPdata是必须要安装的。文献中提到了不用安装rWCVPdata的替代方法。但我还是建议将它安装下来,多学一点总是没错的。
运行下行即可
devtools::install_github("matildabrown/rWCVPdata")
1.3 github的例子
https://github.com/matildabrown/rWCVP
rWCVP 可以轻松地获取植物物种的已知分布区并绘图:
library(rWCVP)
distribution = wcvp_distribution("Myrcia guianensis", taxon_rank="species")
# global map
wcvp_distribution_map(distribution)
# zoomed-in map
wcvp_distribution_map(distribution, crop_map=TRUE)
结果:
2. rWCVP原始文献阅读
通过阅读原始文献,我们更能理解作者推行该包的初衷,功能实现的原理和流程,为使用提供指导。相较于第3节将从阅读用户手册来了解rWCVP,本节从逻辑层面而不是操作层面为你呈现。
2.1 前言(背景)
WCVP是享誉全球的维管植物名录,该数据库持续更新。它连通的是全球植物名录(IPNI)。**最新版本中,WCVP还包含了所有物种的分布数据(精度为记录植物分布的世界地理计划的第三级)。**可以使用名称匹配来整合其他数据,并在分类学、空间学和形态学上进行分析——WCVP 还包括超过 75% 物种的生命形式数据。
WCVP中保存的分类和分布数据对于植物科学和生物多样性研究的应用很有用,但需要处理,过滤或汇总以产生有意义的输出。数据集的大小本身就限制了可用于分析它的工具 - 在 290 万行(当名称和分布组合时),WCVP 无法通过 Microsoft Excel 完全打开,因此即使是简单的过滤操作也需要一些编程技能。
该包的功能有:
2.2 功能概要
2.2.1 名称匹配(wcvp_match_names(), wcvp_match_exact(), wcvp _match_fuzzy())
实际上,实现名称匹配,仅需要调用wcvp_match_names()即可,而wcvp_match_exact()和wcvp _match_fuzzy() 虽然也可以直接调用,但并没有必要。因为 wcvp_match_names() 的内部流程就是调用其他两个函数的一套流程:
2.2.2 匹配后名称解析
名称匹配是各种分析的基础步骤,因此没有一种通用的方法来解决 RWCVP 中名称匹配函数的输出。对于某些研究,可以手动检查和策划所有模糊和多个匹配,而对于其他研究,这必须通过算法完成。
为了简化此过程,RWCVP 在从“wcvp_match_names”返回的数据集中提供了其他信息。
可用于解决多个匹配项的一种方法是:
(1) 如果只接受一个名称,则保留该名称并丢弃另一个名称。
(2)如果不接受任何名称,并且只有一个是同义词(相反
到非法/无效),保留一个并丢弃另一个。
(3)保留作者最相似的姓名(使用“author_edit_distance”或“author_lcs”)
但是,并非所有这些步骤都适用于任何数据集。特别是,在名称解析过程中应仔细考虑同义词的处理。
名称匹配后同义词的处理将取决于数据集和名称匹配的目的。例如,考虑一个物种名称,该名称已简化为同义词(即以前区分为两个不同物种的材料现在被视为同种)。
2.2.3 空间整合和分布映射(wcvp_distribution(), wcvp_distribution_map() and wgsrpd3)
rWCVP 包提供了从 WCVP 检索和绘制植物物种分布的功能。这些分布以简单的特征格式返回为WGSRPD 3级植物国家(WCVP的基本分布单位)的空间向量或多边形。请注意,尽管这些地区经常被称为“植物学国家”,但它们通常是次国家单位或与政治边界不同。WGSRPD 级别 3 区域的多边形作为对象 ‘wgsrpd3’ 包含在 rWCVPDATA 包中。
“wcvp_distribution”函数检索分类单元的分布,然后可以使用“wcvp_distribution_map”绘制为范围图或用于其他分析
“wcvp_distribution_map”功能包括包括或排除每种类型(原生、引入、灭绝和可疑存在)的选项,并生成与 POWO Web 界面在美学上一致的图,其中发生类型用颜色表示。“crop_map”参数可用于缩放到分布范围。
2.2.4 在级别之间映射地理位置(get_wgsprd3_codes() and get_area_name())
rWCVP 中的许多功能旨在与多个 WGSRPD 植物国家/地区配合使用,但手动识别构成更广泛地理位置的三个字母代码是一项繁琐且容易出错的任务。
为了解决这个问题,我们加入了函数“get_wgsrpd3_codes”,它提取构成命名地理的一组 3 级代码。 支持的命名地理包括:WGSRPD 3 级植物国家名称(例如“塔斯马尼亚”)、2 级区域名称(例如“加勒比海”)、1 级大陆名称(例如“欧洲”)、半球(例如“南半球”)、国家(例如“南非”)和“全球”。完整的受支持地理位置集包含在数据对象“wgsrpd3_mapping”中。
调用此函数时,将显示一条消息,通知用户输入地理匹配的级别 - 某些地理位置既是国家又是地区(例如“巴西”)。如果输入地理是半球,则用户可以使用“include_equatorial”参数选择包括或排除跨越赤道的 3 级区域 - 如果未指定,则包含这些区域,并显示一条消息通知用户此行为。我们还包含了此函数的反转函数,即获取一组区号并返回地理名称的函数 - “get_area_name”。此功能可用于自动生成标题、文件名或信息性绘图标签。例子参考R语言实践——rWCVP入门。
2.2.5 摘要表(wcvp_summary () and wcvp_summary_gt())
**WCVP经常用于快速,清晰,简洁地探索和描述植物国家水平的物种丰富度。**我们在“wcvp_summary”中实现了此功能以执行适当的数据操作,并在“wcvp_summary_gt”中使用“GT”R包格式化此表。此函数可以按分类和地理方式过滤 WCVP,并可以提供以各种方式分组的汇总统计信息。
例如,我们可能想要确定在澳大利亚每个州发现了多少种禾本科植物,包括本地,地方,引进和灭绝物种的细分:
2.2.6 发现记录矩阵(wcvp_occ_mat())
发现记录矩阵,其中每行是一个分类单元,每一列是一个地点/位置,对于提供物种分布摘要、生成多样性和物种丰富度指标以及分析共生模式非常有用。在 rWCVP 中,可以使用
generate_occurrence_matrix() 函数。 此函数将返回一个数据框,其中接受的物种构成行,WGSRPD 植物国家代码构成列。存在(即发现记录)用 1 表示,缺席用 0 表示。
调用函数时,用户可以限制矩阵的分类和地理范围,并且可以选择包括或排除每种出现类型(本地、引入、灭绝和可疑),但请注意,发现类型在输出中组合在一起。有关包括生成和格式化出现矩阵的示例工作流,请参阅rWCVP生成可发表级别的物种发现记录矩阵
2.2.7 生成checklist(wcvp_checklist())
某些目的需要比简单的汇总表或发生矩阵更多的信息。例如,标本可能标有较旧的名称,因此能够查找同义词并快速识别当前接受的名称非常有用。同样,完整的WCVP数据集很笨拙,因此我们设计了函数 “wcvp_checklist” 。此功能和输出格式基于构建
来自世界植物门户网站的清单工具
与其他功能一样,要包含在清单中的名称可以按分类学进行过滤(按物种、属、科、目或
更高分类)、地理(按植物学国家代码或使用get_wgsrpd3_codes命名地理)和分类地位(所有名称,或仅接受的名称)。 设置“render_report = TRUE”将生成格式化的 html 报告,便于打印和/或离线使用。该报告包括信息丰富的前沿内容,包括输入地理地图,植物国家代码和引文信息的关键。
清单本身可以用以下两种方式之一进行构建);可以使用“report_type”参数按字母顺序(按家族分组)或按分类状态(即同义词出现在其接受的名称下方)排列名称。
清单也可以自定义(例如,使用其他过滤器),例如使用 rWCVP 生成自定义清单
2.3 rWCVP应用
我们在上面详细介绍了 RWCVP 中特定函数的一些用法,但有很多方法可以将它们组合为更大工作流程的一部分。 汇总功能对于确定候选群体或可行性研究或保护特别有用(“使用 RWCVP 生成可发表的出现矩阵”中给出了一个例子,我们根据物种数量确定了一个属作为示例)。
RWCVP最直接和最可能影响的应用之一是确定植物多样性的重要区域,然后可以优先保护这些区域。 由于缺乏权威的、可访问的数据,植物经常被排除在保护优先计划中。具有讽刺意味的是,大量的数字可用数据现在给专注于特定国家的植物学家带来了一个问题,因为许多可用的标本数据缺乏地理参考,一些最重要的数据集甚至缺乏植物采集国的信息。