潘天拍的博客
open-menu closeme
首页
文章归档
关于本站
中文 English Português
github twitter linkedin rss
  • 应用sqlite和python多进程模块解决大数据文件的处理

    calendar 2022-10-21 · 1 min read · 数据处理 Python  ·
    分享到: twitter facebook linkedin copy

    摘要 为处理计算包含54万患者,共8个单个大小超过2G的CSV数据,应用了本地sqlite数据库来实现分批处理,减小内存压力。并应用了multiprocess模块来实现多进程处理,充分利用多核CPU来减少运算时间。 直接运算的问题 使用pandas读取大于2G的数据,需要占用远远超过2G的内存,就算主机有32G,在读取多个文件,在加上多个复杂计算的代码后,内存也很快被挤爆。而且运算需要的时间过长,不做多进程设计的情况下,16核的CPU只有可怜的一核在做运算,其他核处于围观状态。就算内存没被撑爆,运算时间也需要10个小时以上。直接不加处理运算在面对此情况下的需求时,变得一筹莫展。怎么破? 破解思路 首先要解决数据太大占用内存过高的问 …


    阅读更多

潘天拍

身处临床试验行业,关注互联网行业,爱好计算机技术
阅读更多

最新文章

  • 终于想起来更新了
  • 五月工作小结
  • 近期感慨
  • 迷上了常书欣的小说
  • 推荐一套书-历史的温度
  • 历时两个月,终于初步完成一个SAS代码自动生成软件
  • BAT脚本一键完成前后端开发环境启动和前后端打包
  • ChatGPT的原理局限性:它永远不会做什么?

标签

日常生活 12 PYTHON 3 生活相关 3 编程相关 3 ELECTRON 2 临床试验 2 建站运营 2 技术经验 2 编程备忘 2 职场生活 2 软件开发 2 INDEX 1 SAS 1 WINDOWS 1
所有标签
ELECTRON2 INDEX1 PYTHON3 SAS1 WINDOWS1 编程备忘2 编程相关3 计算机科学1 技术经验2 建站运营2 临床试验2 日常生活12 软件开发2 软件使用1 生活相关3 数据处理1 新冠疫情1 医疗1 医疗数据1 医疗相关1 职场生活2
[A~Z][0~9]
潘天拍的博客

Copyright 2022-  潘天拍的博客. All Rights Reserved 京ICP备20013565号

to-top