API 개발 고급 - 컬렉션 조회 최적화

주문내역에서 추가로 주문한 상품 정보를 추가로 조회하자. Order기준으로 컬렉션인 OrderItem 와 Item 이 필요하다. 앞선 예제에서는 xxxToOne(OneToOne, ManyToOne)관계만 있었다. 이번에는 컬렉션인 일대다 관계(OneToMany)를 조회하고 최적화 하는 방법을 알아보자.

주문 조회 V1: 엔티티 직접 노출

Code Content

주문 조회 V2: 엔티티를 DTO로 변환

Code Content

•

지연 로딩으로 너무 많은 SQL 실행 

•

SQL 실행 수

◦

order 1번

◦

member, address N번(order조회 수 만큼)

◦

orderItem N번(order조회 수 만큼)

◦

item N번(order조회 수 만큼)

참고: 지연 로딩은 영속성 컨텍스트에 있으면 영속성 컨텍스트에 있는 엔티티를 사용하고 없으면 SQL을 실행한다.
따라서 같은 영속성 컨텍스트에서 이미 로딩한 회원 엔티티를 추가로 조회하면 SQL을 실행하지 않는다.

주문 조회 V3: 엔티티를 DTO로 변환 - 페치 조인 최적화

Controller API

Code Content

Repository Method

Code Content

•

페치 조인으로 인해 SQL이 한 번만 실행된다. 

•

oneToMany관계일 때 distinct를 사용하지 않으면 row수가 ONE의 갯수가 아닌 Many의 갯수만큼 증가한다. 그 결과 위 코드에서 distinct를 빼면 Order 엔티티의 조회 수도 증가하게 된다. 

•

JPQL에서 distinct를 사용하게 되면 SQL에 distinct를 추가하고, 더하여 애플리케이션에서 같은 엔티티중복을 걸러준다. 이로써 컬렉션 페치 조인 때문에 중복 조회 되는것을 막을 수 있다. 하지만....

•

단점

◦

페이징 불가능
→ 컬렉션 페치 조인을 사용하면 페이징이 불가능하다. 하이버네이트는 경고 로그를 남기면서 모든 데이터를 DB에서 읽어오고, 메모리에서 페이징을 해버린다.
그럼, 조회할 데이터가 적을 때는 문제가 되지않지만, 데이터가 커지게되면 out of memory 예외가 발생할수도 있고 몹시 치명적이다. 

참고: 컬렉션 페치 조인은 1개만 사용할 수 있다. 컬렉션 둘 이상 페치조인을 사용하면 데이터의 정합성이 떨어질 뿐만 아니라
N * N개로 조회되는 중복된 ROW의 수가 기하급수적으로 늘어나게 된다. 

주문 조회 V3.1: 엔티티를 DTO로 변환 - 페이징과 한계 돌파

페이징과 한계 돌파

•

컬렉션을 페치 조인하면 페이징이 불가능하다.

◦

컬렉션을 페치 조인하면 일대다 조인이 발생하므로 데이터가 예측할 수 없이 증가한다.

◦

일대다에서 일(1)을 기준으로 페이징을 하는 것이 목적이다. 그런데 데이터는 다(N)를 기준으로 row가 생성된다.

◦

Order를 기준으로 페이징 하고 싶은데, 다(N)인 OrderItem을 조인하면 OrderItem이 기준이 되어버린다.

◦

이 경우 하이버네이트는 경고 로그를 남기고 모든 DB데이터를 읽어서 메모리에서 페이징을 시도하는데 최악의 경우 장애로 이어질 수 있다.

한계 돌파

→ 페이징 + 컬렉션 엔티티를 함께 조회하려면 어떻게 해야할까?

아래 방법을 통해 대부분의 문제를 해결할 수 있다.

•

먼저 ToOne(OneToOne, ManyToOne) 관계를 모두 페치조인 한다. ToOne관계는 row수를 증가시키지 않으므로 페이징 쿼리에 영향을 주지 않는다.

•

컬렉션은 지연 로딩으로 조회한다.

•

지연 로딩 성능 최적화를 위해 hibernate.default_batch_fetch_sieze , @BatchSize 를 적용한다.

◦

hibernate.default_batch_fetch_size: 글로벌 설정

◦

@BatchSize: 개별 최적화

◦

이 옵션을 사용하면 컬렉션이나, 프록시 객체를 한꺼번에 설정한 size만큼 IN쿼리로 조회한다.

Controller API

Code Content

최적화 옵션:: application.yml

Code Content

•

최적화옵션의 default_batch_fetch_size를 개별로 설정하려면 @BatchSize 를 적용하면 된다.
→ 컬렉션은 컬렉션 필드에, 엔티티느 엔티티 클래스에 적용한다.

장점

•

쿼리 호출 수가 1 + N → 1 + 1 로 최적화 된다.

•

조인보다 DB데이터 전송량이 최적화 된다.(Order와 OrderItem을 조인하면 Order가 OrderItem만큼 중복해서 조회된다. 이 방법은 각각 조회하므로 전송해야 할 중복 데이터가 없다.)

•

페치 조인 방식과 비교해서 쿼리 호출 수가 약간 증가하지만, DB데이터 전송량이 감소한다.

•

컬렉션 페치 조인은 페이징이 불가능 하지만, 이 방법은 페이징이 가능하다.

결론

•

ToOne관계는 페치 조인해도 페이징에 영향을 주지 않는다. 따라서 ToOne관계는 페치조인으로 쿼리 수를 줄여서 해결하고, 
나머지는 hibernate.default_batch_fetch_size 로 최적화 하자.

참고: default_batch_fetch_size 의 크기는 적당한 사이즈를 골라야 하는데, 100~1000사이를 선택하는 것을 권장한다.
이 전략을 SQL IN절을 사용하는데, 데이터베이스에 따라 IN절 파라미터를 1000으로 제한하기도 한다. 
너무 높게 설정하면 DB에 순간 부하가 증가할 수 있다.

주문 조회 V4: JPA에서 DTO직접 조회

Controller API

Code Content

Repository::OrderQueryRepository

Code Content

DTO::OrderQueryDto

Code Content

DTO::OrderItemQueryDto

Code Content

•

Query: 루트 1번, 컬렉션 N번 실행

public List<OrderQueryDto> findOrderQueryDtos() {
    List<OrderQueryDto> result = findOrders(); // query 1번 -> N개
    result.forEach(o -> {
        List<OrderItemQueryDto> orderItems = findOrderItems(o.getOrderId()); // Query N번
        o.setOrderItems(orderItems);
    });
    return result;
}
Java
복사

•

ToOne(N:1, 1:1)관계들을 먼저 조회하고, ToMany(1:N)관계는 각각 별도로 처리한다.

◦

이런 방식을 선택한 이유는 다음과 같다.

◦

ToOne 관계는 조인해도 데이터 Row수가 증가하지 않는다.

◦

ToMany(1:N)관계는 조인하면 Row수가 증가한다.

•

Row 수가 증가하지 않는 ToOne관계는 조인으로 최적화 하기 쉬우므로 한번에 조회하고, ToMany관계는 최적화 하기 어려우므로 findOrderItems() 와 같은 별도의 메서드로 조회한다.

주문 조회 V5: JPA에서 DTO직접 조회 - 컬렉션 조회 최적화

Controller API

Code Content

Repository::OrderQueryRepository

Code Content

•

Query: 루트 1 번, 컬렉션 1번

•

ToOne관계들을 먼저 조회하고, 여기서 얻은 식별자 orderId로 ToMany관계인 OrderItem 을 한꺼번에 조회

•

Map을 사용해서 매칭 성능 향상(O(1))

주문 조회 V6: JPA에서 DTO 직접 조회, 플랫 데이터 최적화

Controller API V6

Code Content

DTO:: OrderFlatDto

Code Content

Repository::OrderQueryRepository

Code Content

•

해당 코드들을 수행했을 때 실행되는 쿼리(Query)는 1번이다.

•

단점

◦

쿼리는 한 번만 수행되지만 조인으로 인해 DB에서 애플리케이션에 전달하는 데이터에 중복데이터가 추가되기 때문에 V5보다 더 느릴수도 있다.

◦

그루핑 및 객체 매핑등을 애플리케이션에서 처리하기 때문에 애플리케이션의 추가 작업이 크다.

◦

페이징이 불가능하다.

→ 조회된 내용자체로 페이징은 가능하지만(OrderFlatDto, OrderItem등), Order를 기준으로는 불가능하다. (중복데이터가 있음)

API 개발 고급 정리

엔티티 조회

•

엔티티를 조회해서 그대로 반환: V1

•

엔티티 조회 후 DTO로 변환: V2

•

페치 조인으로 쿼리 수 최적화 V3

•

컬렉션 페이징과 한계 돌파: V3.1

◦

컬렉션은 페치 조인시 페이징이 불가능

◦

ToOne 관계는 페치 조인으로 쿼리 수 최적화

◦

컬렉션은 페치 조인 대신에 지연 로딩을 유지하고, hibernate.default_batch_fetch_size, @BatchSIze 로 최적화

DTO 직접 조회

•

JPA에서 DTO를 직접 조회: V4

•

컬렉션 조회 최적화 - 일대다 관계인 컬렉션은 IN절을 활용해서 메모리에 미리 조회해서 최적화: V5

•

플랫 데이터 최적화 - JOIN결과를 그대로 조회 후 애플리케이션에서 원하는 모양으로 직접 변환: V5

권장 순서

엔티티 조회 방식으로 우선 접근

페치조인으로 쿼리 수를 최적화

컬렉션 최적화

페이징 필요 hibernate.default_batch_fetch_size , @BatchSize 로 최적화

ii.

페이징 필요 X → 페치 조인 사용

엔티티 조회 방식으로 해결이 안되면 DTO조회 방식 사용

DTO조회 방식으로 해결이 안되면 NativeSQL or JdbcTemplate

참고: 엔티티 조회 방식은 페치 조인이나, hibernate.default_batch_fetch_size, @BatchSize 같이 코드를 거의 수정하지 않고, 옵션만 약간 변경해서, 다양한 성능 최적화를 시도할 수 있다. 반면 DTO로 직접 조회하는 방식은 성능을 최적화 하거나 성능 최적화 방식을 변경할 때 많은 코드를 변경해야 한다.

참고: 개발자는 성능 최적화와 코드 복잡도 사이에서 줄타기를 해야 한다. 항상 그런 것은 아니지만, 보통 성능 최적화는 단순한 코드를 복잡한 코드로 몰고간다.
엔티티 조회 방식은 JPA가 많은 부분을 최적화 해주기 때문에 단순한 코드를 유지하면서, 성능을 최적화 할 수 있다.

DTO조회 방식의 선택지

•

DTO로 조회하는 방법도 각각 장단이 있다. V4, V5, V6에서 단순하게 쿼리가 1번 실행된다고 V6이 항상 좋은 방법인 것은 아니다.

•

V4는 코드가 단순하다. 특정 주문 한 건만 조회하면 이 방식을 사용해도 성능이 잘 나온다. 예를 들어서 조회한 Order 데이터가 1건이면 OrderItem을 찾기 위한 쿼리도 1번만 실행하면 된다.

•

V5는 코드가 복잡하다. 여러 주문을 한꺼번에 조회하는 경우에는 V4 대신에 이것을 최적화한 V5방식을 사용해야 한다.
예를 들어서 조회한 Order데이터가 1000건인데, V4방식을 그대로 사용하면, 쿼리가 총 1+1000번 실행된다. 
여기서 1은 Order를 조회한 쿼리고, 1000은 조회된 Order의 row수다. V5방식으로 최적화 하면 쿼리가 총 1+1 번만 실행된다. 상황에 따라 다르겠지만 운영 환경에서 100배 이상의 성능 차이가 날 수 있다.

•

V6는 완전히 다른 접근방식이다. 쿼리 한번으로 최적화 되어서 상당히 좋아보이지만, Order를 기준으로 페이징이 불가능하다. 
실무에서는 이정도 데이터면 수백이나, 수천건 단위로 페이징 처리가 꼭 필요하므로, 이 경우 선택하기 어려운 방법이다.

그리고 데이터가 많으면 중복 전송이 증가해서 V5와 비교해서 성능 차이도 미비하다.