모던 자바 인 액션 #2 Stream API
Stream
거의 모든 자바 애플리케이션은 컬렉션을 만들고 활용한다. 하지만 컬렉션으로 모든 문제가 해결되는 것은 아니다. 예를 들어 리스트에서 고가의 트랜잭션(거래)만 필터링한 다음에 통화로 결과를 그룹화해야 한다고 가정하자. 다음 코드처럼 많은 기본 코드를 구현해야한다.
Map<Currency, List<Transaction>> transactionsByCurrencies = new HashMap<>(); for(Transaction transaction : transactions){ if(transaction.getPrice() > 1000) { Currency currency = transaction.getCurrency(); List<Transaction> transactionsForCurrency = transactionsByCurrencies.get(currency); if(transactionsForCurrency == null){ transactionsForCurrency = new ArrayList<>(); transactionsByCurrencies.put(currency, transactionsForCurrency) } transactionsForCurrency.add(transaction); } }
게다가 위 예제 코드에는 중첩된 제어 흐름 문장이 많아서 코드를 한 번에 이해하기도 어렵다. 이러한 문제들을 스트림 API를 이용하면 간단하게 해결할 수 있다.
Map<Currency, List<Transaction>> transactionsByCurrencies = transactions.stream() .filter((Transaction t) -> t.getPrice() > 1000) .collection(groupingBy(Transaction::getCurrency));
스트림이란 무엇인가?
스트림은 자바8에 추가된 새로운 기능이다. 선언형으로 컬렉션 데이터를 처리할 수 있다. 또한 멀티스레드 코드를 구현하지 않아도 데이터를 투명하게 병렬로 처리할 수 있다. 위 코드에서 stream()을 parallelStream()으로 바꾸면 멀티코어 아키텍쳐에서 병렬로 실행할 수 있다.
filter같은 연산은 고수준 빌딩 블록으로 이루어져 있으므로 특정 스레딩 모델에 제한되지 않고 자유롭게 어떤 상황에서도 사용할 수 있다. 결과적으로 우리는 데이터 처리 과정을 병렬화하면서 스레드와 락을 걱정할 필요가 없다.
이 모든 것이 스트림 덕분이다.
자바8의 스트림의 특징은 다음처럼 요약할 수 있다.
- 선언형 : 더 간결하고 가독성이 좋아진다.
- 조립할 수 있음 : 유연성이 좋아진다.
- 병렬화 : 성능이 좋아진다.
스트림에는 두 가지 중요 특징이 있다.
- 파이프라이닝 : 대부분의 스트림 연산은 스트림 연산끼리 연결해서 커다란 파이프 라인을 구성할 수 있도록 스트림 자신을 반환한다. 그 덕분에 게으름, 쇼트서킷 같은 최적화도 얻을 수 있다. 연산 파이프라인은 데이터 소스에 적용하는 데이터베이스 질의와 비슷하다.
- 내부반복 : 반복자를 이용해서 명시적으로 반복하는 컬렉션과 달리 스트림은 내부 반복을 지원한다.
스트림과 컬렉션
자바의 기존 컬렉션과 새로운 스트림 모두 연속된 요소 형식의 값을 저장하는 자료구조의 인터페이스를 제공한다. 여기서 연속된 이라는 표현은 순서와 상관없이 아무 값에나 접속하는 것이 아니라 순차적으로 값에 접근한다는 것을 의미한다. 이제 컬렉션과 스트림의 차이를 알아보자.
시각적으로 보자면 DVD에 어떤 영화가 저장되어 있다고 하자. DVD에 전체 자료구조가 저장되어 있으므로 DVD도 컬렉션이다. 이번에는 DVD가 아니라 인터넷 스트리밍으로 같은 비디오를 시청한다고 하자. 스트리밍 즉, 스트림이 등장 했다. 스트리밍으로 비디오를 재생할 때는 사용자가 시청하는 부분의 몇 프레임을 미리 내려받는다. 그러면 스트림의 다른 대부분의 값을 처리하지 않은 상태에서 미리 내려받은 프레임부터 재생할 수 있다.
특히 비디오 재생기에는 모든 프레임을 메모리에 컬렉션으로 저장할 수 있는 충분한 메모리가 없을 수도 있으며, 충분한 메모리가 있더라도 모든 프레임을 내려받은 다음에 재생을 시작하면 재생을 시작하기까지 아주 오랜 시간이 걸릴 수 있다. 그렇다면 데이터를 언제 계산하느냐가 컬렉션과 스트림의 가장 큰 차이다.
컬렉션은 현재 자료구조가 포함하는 모든 값을 메모리에 저장하는 구조다. 즉 컬렉션의 모든 요소는 컬렉션에 추가하기 전에 계산되어야 한다. 반면 스트림은 이론적으로 요청할 때만 요소를 계산하는 고정된 자료구조다. 사용자가 요청하는 값만 스트림에서 추출한다는 것이 핵심이다.
딱 한 번만 탐색할 수 있다.
반복자와 마찬가지로 스트림도 한 번만 탐색할 수 있다. 즉, 탐색된 스트림의 요소는 소비된다. 다시 탐색하려면 새로운 스트림을 만들어야 한다.
List<String> title = Arrays.asList("Java8","In","action"); Stream<String> s = title.stream(); s.forEach(System.out::println); //title의 각 요소 출력 s.forEach(System.out::println); //스트림이 이미 소비되었거나 닫힘
외부 반복과 내부 반복
컬렉션 인터페이스를 사용하려면 사용자가 직접 요소를 반복해야 한다. (for문이나 for-each등등) 이를 외부 반복이라 한다. 반면 스트림은 내부 반복을 사용한다. 함수에 어떤 작업을 수행할지만 지정하면 모든 것이 알아서 처리된다.
다음의 코드로 외부 반복과 내부 반복의 형태를 관찰해보자.
//외부 반복 List<String> names = new ArrayList<>(); for(Dish dish : menu) { names.add(dish.getName()); } //내부 반복 List<String> names = menu.stream().map(Dish::getName()).collect(asList());
외부 반복이 for-each문으로 사용하여 간결하게 사용됬지만 스트림을 따라올 순 없는것 같다. 하지만 둘의 차이를 명확하게 알기 위한 예제가 하나 더 있으면 좋을것 같다.
다음의 문장으로 내부 반복은 외부 반복과 어떤 점이 다르며 어떤 이득을 주는지 살펴보자.
마리오: 소피아, 장난감을 정리하렴. 방바닥에 어떤 장난감이 있지? 소피아: 공이 있어요 마리오: 좋아 그럼 공을 상자에 담자 또 어떤 장난감이 있지? 소피아: 인형이 있어요 마리오: 좋아 그럼 인형을 상자에 담자 또 어떤 장난감이 있지? 소피아: 책이 있어요 마리오: 좋아 그럼 책을 상자에 담자 또 어떤 장난감이 있지? 소피아: 아무것도 없어요 마리오: 아주 잘했다.
우리는 위 대화처럼 자바 컬렉션을 사용한다. 컬렉션은 외부 반복, 즉 명시적으로 컬렉션 항목을 하나씩 가져와서 처리한다.
그런데 만약 "소피아, 바닥에 있는 모든 장난감을 상자에 담자" 라고 말할 수 있다면 얼마나 좋을까?
내부 반복이 더 좋은 다른 두 가지 이유가 더 있다.
첫번째 소피아가 한 손에는 인형을 다른 손에는 공을 동시에 들 수 있다는 점이고,
둘째로 먼저 모든 장나감을 상자 가까이에 이동시킨 다음에 장난감을 상자에 넣을 수 있다는 점이다.
이렇듯 내부 반복을 이용하면 작업을 투명하게 병렬로 처리하거나 더 최적화된 다양한 순서로 처리할 수 있다. 기존 자바에서처럼 컬렉션을 외부 반복으로 처리한다면 이와 같이 최적화를 달성하기 어렵다. 하지만 내부 반복뿐 아니라 자바8에서 스트림을 제공하는 더 다양한 이유가 있다.
스트림 라이브러리의 내부 반복은 데이터 표현과 하드웨어를 활용한 병렬성 구현을 자동으로 선택한다. 반면 외부 반복은 병렬성을 스스로 관리해야한다. 자바8에서는 컬렉션 인터페이스와 비슷하면서도 반복자가 없는 무엇이 절실했으며, 이는 결국 스트림을 탄생 시켰다.
연산 | 형식 | 반환 형식 | 연산의 인수 | 함수 디스트립터 |
filter | 중간 연산 | Strema<T> | Predicate<T> | T -> boolean |
map | 중간 연산 | Strema<T> | Function<T, R> | T -> R |
limit | 중간 연산 | Strema<T> | ||
sorted | 중간 연산 | Strema<T> | Comparator<T> | (T,T) -> int |
distinct | 중간 연산 | Strema<T> |
연산 | 형식 | 반환 형식 | 목적 |
forEach | 최종 연산 | void | 스트림의 각 요소를 소비하면서 람다를 적용한다. |
count | 최종 연산 | long | 스트림 요소 개수 반환 |
collect | 최종 연산 | 스트림을 리듀스해서 리스트, 맵, 정수 형식의 컬렉션을 생성 |