- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

使用 Go 处理大文件

Rolle 发表于 2023/11/30 15:09:07 2023/11/30

【摘要】使用并发来加快大文件处理速度。如何在 Go 中处理大文件。以下是我们将遵循的步骤：按顺序处理 CSV 数据文件同时处理 CSV 数据文件基准比较文件用于测试的样本大小文件（40 行）用于测试的样本大小文件（4000 行）完整文件（21,729,970 行）处理功能首先，来看看文件处理的核心功能。下面的函数很简单，构造起来有点耗时;它从文件行中提取名字和月份。func processRow...

使用并发来加快大文件处理速度。

如何在 Go 中处理大文件。以下是我们将遵循的步骤：

按顺序处理 CSV 数据文件
同时处理 CSV 数据文件
基准比较

文件

用于测试的样本大小文件（40 行）
用于测试的样本大小文件（4000 行）
完整文件（21,729,970 行）

处理功能

首先，来看看文件处理的核心功能。下面的函数很简单，构造起来有点耗时;它从文件行中提取名字和月份。

func processRow(text string) (firstName, fullName, month string) {
	row := strings.Split(text, "|")

	fullName = strings.Replace(strings.TrimSpace(row[7]), " ", "", -1)

	name := strings.TrimSpace(row[7])
	if name != "" {
		startOfName := strings.Index(name, ", ") + 2
		if endOfName := strings.Index(name[startOfName:], " "); endOfName < 0 {
			firstName = name[startOfName:]
		} else {
			firstName = name[startOfName : startOfName+endOfName]
		}
		if strings.HasSuffix(firstName, ",") {
			firstName = strings.Replace(firstName, ",", "", -1)
		}
	}

	date := strings.TrimSpace(row[13])
	if len(date) == 8 {
		month = date[:2]
	} else {
		month = "--"
	}

	return firstName, fullName, month
}

按顺序处理 CSV 数据文件

首先，让我们按顺序处理此文件。正如 Go （Golang）中的并发性 — 第 1 部分一文中所讨论的，顺序处理是一种逐行处理方法。预计这会很慢，因为必须从第一行到最后一行处理 n 行。

正如稍后将在基准测试中看到的那样，这大约需要 ~20 秒！让我们看看是否可以通过同时处理文件的某些部分来降低这个数字。

func sequential(file string) result {
	res := result{donationMonthFreq: map[string]int{}}

	f, err := os.Open(file)
	if err != nil {
		log.Fatal(err)
	}

	fullNamesRegister := make(map[string]bool)

	firstNameMap := make(map[string]int)

	scanner := bufio.NewScanner(f)
	for scanner.Scan() {
		row := scanner.Text()
		firstName, fullName, month := processRow(row)

		fullNamesRegister[fullName] = true

		firstNameMap[firstName]++
		if firstNameMap[firstName] > res.commonNameCount {
			res.commonName = firstName
			res.commonNameCount = firstNameMap[firstName]
		}
		res.donationMonthFreq[month]++
		res.numRows++
		res.peopleCount = len(fullNamesRegister)
	}

	return res
}

同时处理 CSV 数据文件

好了，让我们把其中一些 CPU 内核付诸实践。由于当今大多数计算机都具有多核处理器，因此我们知道我们可以映射-减少（拆分-应用-组合）这个过程。

我们将使用渠道来构建管道！该管道将允许我们将该过程拆分为多个阶段。

我们的管道使用以下组件：

reader
worker
combiner

读取器将数据文件中的行拆分为批次，并将集合发送出去供处理器拾取。

reader := func(ctx context.Context, rowsBatch *[]string) <-chan []string {
  out := make(chan []string)

  scanner := bufio.NewScanner(f)

  go func() {
    defer close(out) 

    for {
      scanned := scanner.Scan()

      select {
      case <-ctx.Done():
        return
      default:
        row := scanner.Text()
        if len(*rowsBatch) == batchSize || !scanned {
          out <- *rowsBatch
          *rowsBatch = []string{} 
        }
        *rowsBatch = append(*rowsBatch, row) 
      }

      if !scanned {
        return
      }
    }
  }()

  return out
}

变量 batchSize 是可配置的，用于确定发送的行批处理的大小。

Workers

workers从读卡器中拿起一批，处理每一批，然后发送处理后的数据。

我们设计这个阶段是为了并行，因为我们的目标是多核架构。我们初始化的工作线程越多，我们可以并行处理的文件部分就越多。

worker := func(ctx context.Context, rowBatch <-chan []string) <-chan processed {
  out := make(chan processed)

  go func() {
    defer close(out)

    p := processed{}
    for rowBatch := range rowBatch {
      for _, row := range rowBatch {
        firstName, fullName, month := processRow(row)
        p.fullNames = append(p.fullNames, fullName)
        p.firstNames = append(p.firstNames, firstName)
        p.months = append(p.months, month)
        p.numRows++
      }
    }
    out <- p
  }()

  return out
}

Combiner

组合器合并来自工作线程的传入处理数据。

combiner := func(ctx context.Context, inputs ...<-chan processed) <-chan processed {
  out := make(chan processed)

  var wg sync.WaitGroup
  multiplexer := func(p <-chan processed) {
    defer wg.Done()

    for in := range p {
      select {
      case <-ctx.Done():
      case out <- in:
      }
    }
  }

  wg.Add(len(inputs))
  for _, in := range inputs {
    go multiplexer(in)
  }

  go func() {
    wg.Wait()
    close(out)
  }()

  return out
}

reader → processor(s) → combiner

看一下封闭并发处理函数的函数签名。

func concurrent_processing(file string, numWorkers, batchSize int) (res result) {...}

请注意两个参数和 batchSize 参数 numWorkers 。这些参数指定工作线程的数量以及每个线程一次应处理的行的大小。

是时候看看我们如何将三个 3 个阶段结合起来了！

ctx, cancel := context.WithCancel(context.Background())
defer cancel()

rowsBatch := []string{}
rowsCh := reader(ctx, &rowsBatch)

workersCh := make([]<-chan processed, numWorkers)
for i := 0; i < numWorkers; i++ {
  workersCh[i] = worker(ctx, rowsCh)
}

for processed := range combiner(ctx, workersCh...) {
}

基准比较

让我们对文件处理的顺序版本和并发版本进行基准测试和比较。

并发版本的性能将因工作线程数量和批大小而异。以下是我们的基准测试输出：

goos: darwin
goarch: amd64
cpu: Intel(R) Core(TM) i9-9980HK CPU @ 2.40GHz
Benchmark/Sequential_000_workers_0000_batchSize-16   3   18624068210 ns/op       12646414149 B/op        65274211 allocs/op
Benchmark/Concurrent_001_workers_0001_batchSize-16   3   29715818665 ns/op       19055197437 B/op        87004417 allocs/op
Benchmark/Concurrent_001_workers_1000_batchSize-16   3   18332366416 ns/op       19803063789 B/op        65535242 allocs/op
Benchmark/Concurrent_010_workers_1000_batchSize-16   3   11115996750 ns/op       19833839914 B/op        65536413 allocs/op
Benchmark/Concurrent_010_workers_10000_batchSize-16  3   10157454288 ns/op       20097303218 B/op        65317016 allocs/op
Benchmark/Concurrent_010_workers_100000_batchSize-16 3   9267358169 ns/op        20681588597 B/op        65282218 allocs/op

我们的目标是减少处理时间;让我们回顾一下结果：

| type       | numProcessors | batchSize | time |
|------------|---------------|-----------|------|
| Sequential | n/a           | n/a       | ~19s |
| Concurrent | 1             | 1         | ~30s |
| Concurrent | 1             | 1,000     | ~18s |
| Concurrent | 10            | 1,000     | ~11s |
| Concurrent | 10            | 10,000    | ~10s |
| Concurrent | 10            | 100,000   | ~9s  |

我们使用 10 个worker和 100,000 个批量将并发流程的处理时间缩短了约 200%。因此，我们有一个运行速度快 2 倍的程序！

该功能 processRow 现在非常简单;如果我们要增加该操作的复杂性，那么并发过程将更有价值。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

使用 Go 处理大文件

文件

处理功能

按顺序处理 CSV 数据文件

同时处理 CSV 数据文件

Workers

Combiner

reader → processor(s) → combiner

基准比较

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

使用 Go 处理大文件

文件

处理功能

按顺序处理 CSV 数据文件

同时处理 CSV 数据文件

Workers

Combiner

reader → processor(s) → combiner

基准比较

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品