[웹사이트 개발일지] 52만줄 xml 파일에 뻗어버린 노트북

jQuery를 통해 DART의 오픈 API를 호출하고 데이터를 가져오는 것까지는 완료했다. 검색창에 기업의 고유번호를 입력하고 '검색' 버튼을 클릭하는 이벤트가 발생하면 검색창의 value(고유번호)에 해당하는 데이터를 가져온다. 나는 이 방식에서 form 태그를 사용하지 않고 button 태그를 자바스크립트와 연동하는 방법으로 코딩했는데, 올바른 것인지는 추후 확인이 필요할 거 같다.

 

해결할 문제가 있다. 검색어에 종목 이름이나 종목코드가 아닌 DART에 등록되어있는 공시대상회사의 고유번호를 입력해야 하기 때문이다. OPEN DART는 고유번호와 회사명, 종목코드, 최근 변경일자 등 정보를 담은 xml 파일을 따로 제공한다. 이 파일 역시 API로 호출해야 한다. 어찌해야 할지 몰라 찾던 중 파이썬으로 어렵지 않게 파일을 받는 방법을 찾아서 주피터 노트북으로 CORPCODE.xml 파일을 확보했다. 참고: 기업정보 크롤링 #2 공시정보 고유번호 받아오기

 

다운받은 파일을 이클립스에 복사하고 열어봤는데 아래 같은 형태로 구성돼 있었다.

 

그런데 파일을 확인하던 중 컴퓨터가 버벅거리기 시작하더니 이클립스가 (응답없음)을 나타내며 뻗어버렸다. 작업 관리자에서 확인해보니 CPU 사용량이 100%까지 치솟았고 메모리 역시 90%를 웃돌고 있었다. xml 파일의 코드라인수가 워낙 많아(깃허브 커밋 결과 약 25만줄) 그런 모양이다. 개발 도중 노트북 사양의 한계를 느껴본 첫 경험이었다.

해결할 문제

  • 검색창에 기업명 또는 종목코드를 입력시 해당 값을 가지고 CORPCODE.xml에서 그에 맞는 기업 번호를 찾아온 뒤 반환. 이후 API를 호출

웹페이지 만들기 깃허브 링크(포스팅 시점)

프로젝트 결과물 | 느낀점

반응형

댓글

Designed by JB FACTORY