NoSQL Mongodb Bulk operation

2020.10.09 21:57

졸리운_곰 조회 수:50

Mongodb Bulk operation

Mongodb Bulk operation

https://docs.mongodb.com/v2.6/core/bulk-write-operations

많은 양의 엑셀 데이터를 Streaming으로 읽어왔더니만 저장할때가 문제였다. 이 2가지만 해결하면, 메모리, 성능 등의 이슈가 없을 것이기에 안심하고 배포할 수 있을 것이라 생각했다.

처음에는 그냥 1만개의 데이터를 한번에 넣어보니 안되더라... 들어가긴 하더라도 너무 느리거나 이상하다 싶으면 안되는거다. 혹시 뭔가 있지 않을까 하고 찾아보니 역시 있더라...

What

Mongodb는 다량의 데이터를 쓰기 위한 연산을 제공하는데, 이것이 bulk operation이다. 이는 단일 collection에서만 영향을 미친다.

Why

왜 이런게 필요할까? 이걸 쓰면 기똥찰 것 같은 것

  • 다량의 로그데이터를 실시간으로 데이터베이스에 적재하는 것이 아니라, 일정 단위로 모아서 한번에 밀어 넣을 때
  • mongodb는 relation이 없다. 따라서 데이터 모델링을 할 때 반정규화를 하는데, 반정규화 시에는 잘 변하지 않는 데이터라면 그 자체를 document에 포함시켜버린다. 만일 그 잘 변하지 않는 데이터가 변해야 한다면?? 수천개의 document를 업데이트 해야 한다면?
  • 어떤 서비스에 사용자 그룹이 있는데, 그 사용자 그룹의 일부 인원들을 한번에 상위 권한으로 조정한다면? loop로 여러번 update를 실행하는 것이 아니라 bulk operation으로 한번에 업데이트 하는 것

Ordered vs Unordered Operations

Bulk operation은 ordered 또는 unordered로 연산을 수행할 수 있는데, ordered로 연산을 수행하면, 단어가 주는 뉘앙스처럼 순차적으로 데이터를 저장한다. unordered라면 그냥 막 던지나 보다.

ordered가 마냥 좋은 것은 아닌 것이, ordered로 bulk operation 쓰기 연산을 수행하다가 오류가 발생하면 그 이후의 데이터에 대해서는 쓰기 연산 처리를 하지 않고 그냥 리턴한다고 한다. 이건 좀 애매해서 해봐야 할 것 같다. exception으로 잡아서 계속 쓰기 시키면 되지 않을까?;;

하여간, 프레임에 따라 ordered, unordered 잘 가려서 써야 한다는 것인데, 아마 대부분의 경우 unordered로 처리할 것 같다. ordered로 처리하면 exception 처리를 잘해줘야 할 듯하다.

Bulk method

Step

  1. Bulk Operation을 생성한다.
  2. 지원되는 Bulk method를 상황에 맞게 조합해서 쓴다.
    • insert(), find, find.upsert, update, updateOne
    • replaceOne, remove, removeOne
  3. execute 메소드로 앞선 연산들을 실행한다.

주의사항: 한번 execute를 실행하면, 재 사용할 수 없고, 반드시 다시 스텝을 실행해야 한다.

읽어보길 잘했다. 아마 난 Bulk Operation을 생성하고, 필요에 따라 연산 조합을 실행한 뒤, execute를 재사용 했을 것이다.

Bulk Execution Mechanics

여기서 재미있는게 나오는데, 성능으로 치자면 unordered가 더 좋을 것 같은 힌트가 나온다.

  1. 연산이 ordered로 실행될 경우, mongodb는 operation type을 기반으로 인접한 operation들을 묶는다.
  2. 반면 unordere로 실행할 경우, mongodb는 성능을 향상시킬 목적으로 연산들의 순서를 재조정해서 묶을 수도 있다.

뭔가 우선순위 같은 룰이 있거나, 내부적으로 같이 처리되면 성능이 잘나오는 것들이 있나보다.

경축! 아무것도 안하여 에스천사게임즈가 새로운 모습으로 재오픈 하였습니다.
어린이용이며, 설치가 필요없는 브라우저 게임입니다.
https://s1004games.com

limit가 있을까?

대량이라 한들, 어쨋든 대부분 물리적 제약을 가지고 있다. 이론상 무제한이더라도 뭔가 걸리는 제약이 있겠지 했는데 있더라. bulk 실행시 연산을 묶어서 처리하는데, 이때 하나의 연산 그룹 당 최대 가질 수 있는 연산 수는 1000개이다.

만일 2만개의 연산을 bulk로 실행하면, 실행한 client 입장에서 보이는 건 한번에 2만개가 날라간 것 같지만, 실제로는 내부 로직에서 1000개씩 끊어서 보내는 것

Practice

Spring-data-mongodb를 사용한다면, Bulk operation은 1.9.0.REALEASE부터 사용할 수 있다.

@Override 
public void insertBulk( List<ExamSummary> examSummaries )
{
	BulkOperations bulkOperations = 
			 mongoTemplate.bulkOps( BulkOperations.BulkMode.UNORDERED, entityClass );
	bulkOperations.insert( examSummaries );
	bulkOperations.execute();
}

일단 이렇게 써보고 나서 감동했다. 이전에 500개 가량의 테스트 데이터를 단순 insert 메소드로 저장했을 때는 데이터베이스에 쿼리를 계속 날려보아야 했다. 순차적으로 증가하고 있는게 보여서;;;;

120, 164, 230, 384... 500 이렇게 증가하던데, bulk operation으로 저장시에는 0.04s만에 저장되었다. 실제 저장해야 할 데이터 셋 4만개를 bulk operation으로 insert를 해보니, 설명처럼 1000개씩 순차 증가했다.

1000, 2000, 3000 ... 4만개를 넣으려니 느리다.

이전에는 다량의 데이터 저장에 이렇게 시간이 소요될지 고민하지 않아서 데이터 파싱 > 리스트에 저장 > 데이터베이스에 저장 순으로 순차 실행 로직을 구성했는데, 이렇게 1000개씩 그룹화하여 처리되는 거라면, 처리 방식을 바꾸는게 낫겠다.

 

[출처] https://github.com/dwpark1112/til/blob/master/mongodb/bulk-operation.md

 

 

 

본 웹사이트는 광고를 포함하고 있습니다.
광고 클릭에서 발생하는 수익금은 모두 웹사이트 서버의 유지 및 관리, 그리고 기술 콘텐츠 향상을 위해 쓰여집니다.
번호 제목 글쓴이 날짜 조회 수
공지 오라클 기본 샘플 데이터베이스 졸리운_곰 2014.01.02 25084
공지 [SQL컨셉] 서적 "SQL컨셉"의 샘플 데이타 베이스 SAMPLE DATABASE of ORACLE 가을의 곰을... 2013.02.10 24563
공지 [G_SQL] Sample Database 가을의 곰을... 2012.05.20 25942
822 [oracle] [오라클] SUBSTR, SUBSTRB 함수 사용방법 (문자열, 자르기, 바이트, Left) file 졸리운_곰 2020.11.07 164
821 [Oracle] ORA-00917: 누락된 콤마 졸리운_곰 2020.11.07 1007
820 MongoDB Java: Finding objects in Mongo using QueryBuilder $in operator returns nothing 졸리운_곰 2020.11.07 26
819 [oracle] 오라클 MOD 함수(나머지 구하기 함수, 초를 분으로 변경) 졸리운_곰 2020.11.07 30
818 MongoDB (RDB와 비교, 특징과 장단점, 메모리성능 이슈, 주요용어) file 졸리운_곰 2020.11.07 25
817 [mongoDB] java driver insertMany() application 졸리운_곰 2020.10.27 10
816 MongoDB 스키마 디자인을 위한 6가지 규칙 요약 졸리운_곰 2020.10.10 14
815 [몽고디비 mongodb] MongoDB Bulk Insert – MongoDB insertMany file 졸리운_곰 2020.10.09 15
814 [mongodb 몽고디비] How to insert multiple document into a MongoDB collection using Java? 졸리운_곰 2020.10.09 39
813 [몽고디비 mongodb] 몽고디비에서 벌크 오퍼려이션과 배열 삽입의 차이점은 what is the difference between bulk insert and array insert in Mongo db operations 졸리운_곰 2020.10.09 138
» Mongodb Bulk operation 졸리운_곰 2020.10.09 50
811 MongoDB Bulk Write(대랑 쓰기) & Retryable Write(쓰기 재시도) file 졸리운_곰 2020.10.09 103
810 [oracle] 성능 향상을 위한 다중 로우 처리 졸리운_곰 2020.10.09 32
809 BULK SQL 사용예 졸리운_곰 2020.10.09 33
808 Importing wikipedia dump to MySql 졸리운_곰 2020.10.04 41
807 How to work with MongoDB in .NET file 졸리운_곰 2020.09.30 46
806 실습 2 - GROUP 졸리운_곰 2020.09.30 20
805 MongoDB : 기본 구조 file 졸리운_곰 2020.09.30 23
804 [tensorflow] 텐서플로로 음악 작곡 : Generate Music in TensorFlow 졸리운_곰 2020.09.27 57
803 한국어 BERT, HanBert를 소개합니다. file 졸리운_곰 2020.09.25 409
대표 김성준 주소 : 경기 용인 분당수지 U타워 등록번호 : 142-07-27414
통신판매업 신고 : 제2012-용인수지-0185호 출판업 신고 : 수지구청 제 123호 개인정보보호최고책임자 : 김성준 sjkim70@stechstar.com
대표전화 : 010-4589-2193 [fax] 02-6280-1294 COPYRIGHT(C) stechstar.com ALL RIGHTS RESERVED