在windows中使用parLapply函数执行并行计算

1-lapply()函数介绍：

例子1：

例子2：

例子3：

2-在Windows使用并行计算，使用parLapply()函数

2.1-并行计算的准备阶段：

2.2-parLapply()函数介绍

2.3-使用parLapply()函数编写执行并行计算

2.4-对parLapply(cl,x,fun)中需要的R对象，通过clusterExport(cl, varlist )传递需要的变量，通过clusterEvalQ(cl, library(MASS))传递需要的包

2.5-如果parLapply(cl,x,fun)中的fun如何编写成功？

2.6-parLapply(cl, x, fun)中的fun不要出现print()函数

3-在非Windows中使用mclapply()函数

在介绍执行并行计算的parLapply()函数之前，先介绍与其函数使用高度相似的lapply()函数。可以说，lapply()函数是并行函数parLapply()对应的非并行版本函数。在使用时，parLapply()函数的参数与lapply()函数参数一样，只不过在第一个参数是设置集群即cl=makeCluster(20)。

1-lapply()函数介绍：

为什么介绍这个函数呢？因为在windows中使用parLapply()函数和lapply()的结构和用法是非常相似的，我们只需要将原本用lapply(x, fun)迭代函数直接改写成 parLapply(makeCluster(c1), x, fun)即可，这里的直接改写是非常简单的，只需要设置使用计算机的核数，后面的参数直接挪到parLapply()中。

lapply() ：线性数据迭代

lapply是list(列表)和apply(应用)的组合，函数的作用：对一个列表型或者向量型数据应用一个函数，返回值不区分处理对象，皆是列表结构。这个函数开头的第一个字母“l”表明这个函数的返回类型为列表。

返回值的元素个数与处理对象中的元素个数相同。

该函数的语法结构为：

lapply(X, FUN...)

其中

X代表需要执行运算的列表或者向量；
FUN代表需要运行的函数，这个参数的自定义范围非常广，用户可以将几百行代码封装为要给function(函数)来设置该参数；
三个点表示FUN中的相应参数设置。

例子1：

使用均值函数mean来分别计算向量x、y和z的平均值，最后结果会以列表的形式现实在console中。

> x <- 1:10
> y <- 1:10
> z <- 1:10
> lapply(list(x,y,z), mean)
[[1]]
[1] 5.5

[[2]]
[1] 5.5

[[3]]
[1] 5.5

例子2：

> x <- c(1:10, NA)
> y <- c(1:10, NA)
> z <- c(1:10, NA)
> lapply(list(x,y,z), function(x) {mean(x, na.rm =T)})
[[1]]
[1] 5.5

[[2]]
[1] 5.5

[[3]]
[1] 5.5

例子3：

lapply函数等价于for循环，循环4次，每次花费时间5秒钟。总共预期花费时间为20秒=4*5秒

> for(i in 1:4){Sys.sleep(5)}
> lapply(1:4, function(i) Sys.sleep(5))
[[1]]
NULL

[[2]]
NULL

[[3]]
NULL

2-在Windows使用并行计算，使用parLapply()函数

2.1-并行计算的准备阶段：

只要开始执行并行，需要设置使用计算机的核数，以及关闭执行并行。

流程：设置并行计算的核数-->执行并行计算-->关闭并行计算的集群。

无论使使用哪种并行计算包，都是基于上述三个步骤，1-设置并行计算的核数；2 执行并行计算 3 关闭并行计算的集群。

library(parallel)

#Step1 设置并行计算使用的核数

num_cores <- detectCores(logical=FALSE) #返回的是计算机的物理核数
cl <- makeCluster(num_cores)# 设置并行计算的核心数，这里num_cores是整数，合理即可

# Step2: 执行并行计算的任务
result <- parLapply(cl, x, fun)

# Step3: 关闭并行计算的集群
stopCluster(cl)

其中：detectCores()#这个函数中参数logical默认取值为TRUE，该函数返回的是计算机的线程数，如果设置logical=FALSE,返回的是物理核数/CPU。

例如计算机是12核24线程，

logical=TRUE，返回的是逻辑核数24线程；
logical=FALSE，返回的是物理核数12核。

2.2-parLapply()函数介绍

parLapply()函数，顾名思义，parallel+lapply即前者是并行的英文，选取了其前三个字母，后面是lapply函数，提示我们这个函数返回的是一个list列表对象，函数的用法与lapply是一样的，或者说是高度相似的。

在Windows 系统中使用parLapply()函数替换lapply函数，进行并行计算，只不过多了一个参数即设置集群makeCluster()。

也就是说，parLapply( )和lapply( )函数是相似的，在执行并行运算的时候，只需要把之前用lapply()函数写的部分

lappy(x, fun)

改写成

parLapply(makeCluster(4), x, fun)

其中makeCluster(4) 设置并行计算的核数为4.

2.3-使用parLapply()函数编写执行并行计算

对上面的例子3，在windows系统中使用parLapply()函数执行并行计算：

> system.time(for(i in 1:4){Sys.sleep(5)})
 用户  系统  流逝 
 0.00  0.00 20.02


> system.time(lapply(1:4,function(i)Sys.sleep(5)))
 用户  系统  流逝 
 0.02  0.00 20.02


system.time(parLapply(makeCluster(4),1:4, function(i) Sys.sleep(5)))
用户 系统 流逝 
0.04 0.01 5.97

2.4-对parLapply(cl,x,fun)中需要的R对象，通过clusterExport(cl, varlist )传递需要的变量，通过clusterEvalQ(cl, library(MASS))传递需要的包

执行并行运算parLapply(cl, x, fun)中的fun只加载BaseR中的函数和对象，对于其他的对象，需要我们通过clusterExport(cl,varlist)传递给这个fun。相当于整个fun是一个独立的自定义函数，一个脚本，整个脚本中但凡出现没有给值得变量，就会报错，提示你要加入哪些变量，整个过程需要不断地得调试，不断地的根据程序的报错提示，进行添加相关的变量。

其中varlist传递parLapply(cl,x,fun)中需要的R对象，这些R对象一般是全局变量，如自定义函数、各种数据、各种变量..

例子

#setup cluster using 5 cores

#load packages, export required data and variables

cl <- makeCluster(5)

clusterEvalQ(cl, {source("cluster_inc.R")}, c(library(RSNNS), library(MASS) ))

clusterExport(cl, c("tuning", "use.train.x", "use.train.y","use.test.x", "use.test.y"))

stopCluster(cl)

来源：Deep Learing with R for Beginners.

总结：clusterExport(cl, varlist)中的varlist需要放哪些R对象？当我们需要运行的代码中含有很多的自定义函数以及R对象的时候，不妨通过不断地根据consloe的报错信息向clusterExport中添加需要的变量。这个过程是调试！上述parLapply()函数中的fun包含的R代码非常多的时候，一定是要调试的，自己根据前后程序添加R对象，效率是低的。

2.5-如果parLapply(cl,x,fun)中的fun如何编写成功？

这里的fun，一般我们用的时候，通常是自定义函数，也就是说这个fun通常是我们自己编写的R函数，那么如何确保这个fun编写正确？需要不断地进行调试，即先不进行并行运算，单独运行fun_my(para1, para2, para3)，其中假设这里的fun函数名为fun_my，含有三个参数para1， para2, para3，给这个函数实参，直接运行fun_my(para1, para2, para3)。

如果fun_my(para1, para2, para3)这个函数中还含有其他的自定义函数，这个时候，其他的自定义函数使用的R对象一定是fun_my()函数内部的产生的R对象，对于在fun_my()函数内部的某些R对象，但是当其他的自定义函数使用这些R对象的时候，一定要通过参数的形式将这些R对象传递进来。

例如：

#---------------------------------------------------------------
### necessary function ####
#---------------------------------------------------------------

h <- function(){
  x1 + x2
}


#---------------------------------------------------------------
### main function ####
#---------------------------------------------------------------

fun_my <- function(x){
  x2 <- 5

  h()
 ....other code ...
}


#----------------------------------------------------------------
# run 
#----------------------------------------------------------------
x1 <- 1:3
fun_my(x1)

[1] Error in h() : 找不到对象'x2'

这个例子中fun_my中的变量x2，没有通过参数传递给h()中，所有会报错，提示h()函数找不到x2对象，这个时候，我们需要把x2对象添加到h()函数的参数中，这就是调试的过程，修改后，为下面的结果：

#---------------------------------------------------------------
### necessary function ####
#---------------------------------------------------------------

h <- function(x1, x2){
  x1 + x2
}


#---------------------------------------------------------------
### main function ####
#---------------------------------------------------------------

fun_my <- function(x){
  x2 <- 5
  x1 <- x

  h(x1, x2)
 ....other code ...
}


#----------------------------------------------------------------
# run 
#----------------------------------------------------------------
x1 <- 1:3
fun_my(x1)

也就是，我们要把fun_my这个自定义函数当作是一个自定义函数，当然了，它确实是一个自定义函数，但当自定义函数中套用自定义函数的时候，对于最外层的自定义函数，这个例子中是fun_my这个函数，一定要清楚的这个函数的对象，如果嵌套的其他自定义函数要使用这些参数，一定要通过函数的形参进行传递！!这个过程，很容易把fun_my()中产生的R对象当作是全局变量来看待。

当然，这个经验通过自己实际操作就能获得！

如何编写fun函数成功？不断地调试，根据错误信息，不断地调试。当fun函数中套用其他自定义函数时，如果对于没有通过参数传递但是确实用了fun函数的R对象，R会报错，会提示你，要添加哪些参数。