R语言多线程运算(解决R循环慢的问题)【转载】

已经大半年没有更新博客了。。最近都跑去写分析报告半年没有R

这次记录下关于R循环(百万级以上)死慢死慢的问题,这个问题去年就碰到过,当时也尝试过多线程,but failed......昨天试了下,终于跑通了,而且过程还挺顺利

step1

先查下自己电脑几核的,n核貌似应该选跑n个线程,线程不是越多越好,线程个数和任务运行时间是条开口向下的抛物线,最高点预计在电脑的核数上。detectCores( )检查当前电脑可用核数  我的是4所以step2选的是4

library(parallel)
cl.cores <- detectCores()

step 2

多线程计算

setwd("C:\Users\siyuanmao\Documents\imdada\0-渠道投放和新人券联动模型\测算")
options(scipen=3)  ##取消科学计数法
channel_ad_ios_data<-seq(0,50000,5000)
channel_ad_android_data<-seq(0,100000,10000)

library(parallel)

func <- function(n){#n=1
  result_data<-read.csv("发券方案.csv",stringsAsFactors=FALSE)
  total_coupon_solution_data<-read.csv("结果表框架.csv",stringsAsFactors=FALSE)
  coupon_solution_data<-subset(result_data,solution== paste('方案',n,sep=""))
 
  for (i in 1:11){#i=3
    coupon_solution_data$channel_ad_cost[3]<-5000*(i-1)
    
    for (j in 1:11){#j=5
      coupon_solution_data$channel_ad_cost[4]<-10000*(j-1)
      solution_mark<-paste('方案',n,i,j,sep="-")
      coupon_solution_data$solution<-solution_mark
      
      total_coupon_solution_data<-rbind(total_coupon_solution_data,coupon_solution_data)
    }
  }
  print(solution_mark)
  return(total_coupon_solution_data)
}

#func(10)
system.time({
x <- 1:7776
cl <- makeCluster(4) # 初始化四核心集群
results <- parLapply(cl,x,func) # lapply的并行版本
res.df <- do.call('rbind',results) # 整合结果
stopCluster(cl) # 关闭集群
})


df=as.data.frame(res.df)

原来非多线程的时候,我预计要跑12个小时以上,电脑发出呼呼~~的响声,查了下Python循环会快点,然后改为python版(已经很久没有用了,连个range都不会写,摸索了大半天才改好,但是速度还是慢==),于是改成多线程,运行25分钟就出结果了~~
---------------------
作者:小酥饼maomao
来源:CSDN
原文:https://blog.csdn.net/u011454283/article/details/77920833
版权声明:本文为博主原创文章,转载请附上博文链接!

原文地址:https://www.cnblogs.com/purple5252/p/11193040.html