데이터마이닝 NER OCR 개념
- IT
- 2023. 6. 3.
데이터마이닝(Data Mining) 분야에서 자주 언급되는 NER과 OCR의 개념을 간단히 정리해보겠습니다. NER, OCR은 자연어 처리와 컴퓨터 비전 분야에서 오랜 기간 연구되어 온 개념입니다.
NER
NER(Named Entity Recognition)은 텍스트에서 특정한 정보(이름, 위치, 날짜 등)를 추출하는 자연어 처리 기술입니다. NER 기술을 이용해 서비스를 제공하는 서버를 NER 서버라고 부릅니다. NER 서버는 사용자로부터 받은 텍스트 데이터를 처리하여 특정 정보를 인식하고 반환하는 역할을 합니다.
NER 예시)
1. 뉴스 기사에서 중요한 정보를 추출하고 이 정보를 바탕으로 기사를 요약합니다.
2. 사용자의 질문에서 특정 엔티티를 추출하여 그에 대한 정확한 답변을 생성합니다. 이를 통해 자동 질의응답 시스템을 구축할 수 있습니다.
3. 대량의 텍스트 데이터에서 엔티티와 그 관계를 추출하여 지식 그래프를 생성하는 작업을 할 수 있습니다.
OCR
OCR(Optical Character Recognition)은 이미지에서 문자를 인식하는 기술입니다. OCR 기술을 기반으로 서비스를 제공하는 서버를 OCR 서버라고 부릅니다. OCR 서버는 사용자로부터 받은 이미지 데이터에서 문자를 추출하여 반환하는 역할을 합니다. 예를 들면, 글자가 포함된 이미지, PDF 파일, 스캔한 문서 등에서도 문자를 인식하고 이를 편집 가능한 텍스트 형식으로 변환할 수 있습니다.
OCR 예시)
1. 종이 문서를 스캔하여 디지털 텍스트로 변환합니다.
2. 사진이나 이미지의 외국어 텍스트를 인식하여 번역합니다.
3. 교통 관리 시스템에서는 OCR을 사용해 차량의 번호판을 자동으로 인식합니다.
'IT' 카테고리의 다른 글
맥북 한글 파일 편집 방법 (무료 한컴독스) (0) | 2023.06.04 |
---|---|
폴링(polling)이란? 지속적인 요청 (0) | 2023.06.04 |
IE, ActiveX 컨트롤 설치 원리와 취약점 (0) | 2023.05.30 |
COM(Component Object Model)이란? (0) | 2023.05.29 |
비동기 I/O와 동기 I/O 차이 (0) | 2023.05.27 |