当前位置：首页 > news >正文

Java stream 并发问题

news 2025/8/1 22:39:34

在并行流中，可能各个线程处理的是同一个sink输出，导致并发问题。

`forEach` (无序并行)：将同步责任交给用户

对于 stream.parallel().forEach(action)，多个线程确实会并发地调用同一个 Sink 实例的 accept 方法。

我们来看 ForEachOp 的实现：

// ... existing code .../** Implementation class for reference streams */static final class OfRef<T> extends ForEachOp<T> {final Consumer<? super T> consumer;OfRef(Consumer<? super T> consumer, boolean ordered) {super(ordered);this.consumer = consumer;}@Overridepublic void accept(T t) {consumer.accept(t);}}
// ... existing code ...

可以看到，accept(T t) 方法直接调用了用户传入的 consumer.accept(t)。它自身没有任何同步措施。

这就是 Stream 框架的“契约”：forEach 是一个非常底层的操作，它追求极致的性能，因此把线程安全的责任完全交给了开发者。如果你在 forEach 的 Consumer 中操作一个共享的可变对象（比如往一个普通的 ArrayList 中添加元素），你必须自己处理同步，否则就会出现竞态条件、数据丢失或抛出 ConcurrentModificationException 等问题。

正确（但通常不推荐）的做法是：

List<String> sharedList = Collections.synchronizedList(new ArrayList<>());
stream.parallel().forEach(sharedList::add);

`collect`：框架负责线程安全（推荐方式）

这才是并行收集数据的正确且高效的方式。collect 操作远比 forEach 聪明，它专门设计用来解决并发问题。

collect 操作需要三个函数：

Supplier (供应器)：() -> new ArrayList<>()
Accumulator (累加器)：(list, item) -> list.add(item)
Combiner (组合器)：(list1, list2) -> { list1.addAll(list2); return list1; }

在并行执行时，collect 的工作流程如下：

分裂：ForkJoinPool 将任务分裂给多个线程。
供应：每个线程都会调用 Supplier 来创建自己私有的、局部的结果容器。例如，线程A得到 listA，线程B得到 listB。它们操作的不是同一个 ArrayList！
累加：每个线程使用 Accumulator 将自己负责的元素累加到各自的局部容器中。线程A往 listA 里加，线程B往 listB 里加。因为操作的是线程私有对象，所以完全没有并发问题，速度极快。
组合：当所有线程都完成了自己的部分后，框架会使用 Combiner 将所有线程的局部结果合并成一个最终结果。例如，执行 listA.addAll(listB)。这个合并过程可能是串行的，也可能是分层并行的。