[LLM] spaCy: Python으로 자연어 처리하기

로봇&AI/기술 소개

[LLM] spaCy: Python으로 자연어 처리하기

해보좌 2024. 11. 19. 14:37

spaCy는 Python으로 작성된 오픈소스 자연어 처리(NLP) 라이브러리로, 빠르고 확장 가능하며 프로덕션 환경에서도 사용하기 적합합니다. 간단한 문장 분석부터 복잡한 자연어 이해 작업까지, 다양한 NLP 작업을 지원합니다.

1. 기술 설명

spaCy는 머신러닝 기반의 NLP 라이브러리로, 텍스트 처리와 언어 분석 작업을 단순화합니다. 주로 다음과 같은 기능을 제공합니다:

토큰화(Tokenization): 문장을 단어로 분리
품사 태깅(POS Tagging): 각 단어의 품사 태그 지정
문법 의존성 분석(Dependency Parsing): 문법적 관계 파악
개체명 인식(NER): 이름, 장소, 날짜 등의 엔터티 추출
문장 벡터화: 텍스트의 임베딩 생성
언어 감지 및 맞춤형 모델 훈련

spaCy는 사전 학습된 모델을 제공하여 빠르게 시작할 수 있으며, PyTorch 및 TensorFlow와 같은 딥러닝 라이브러리와도 쉽게 통합할 수 있습니다.

2. 사전 지식

spaCy를 사용하기 위해 필요한 기본 지식:

Python 기초: 파이썬 문법, 데이터 구조
기본 NLP 지식: 텍스트 분석의 주요 개념(토큰화, NER 등)
머신러닝: 커스텀 모델 훈련 시 머신러닝 개념 이해 필요

추가로 딥러닝 프레임워크를 사용해 모델을 확장하려면 PyTorch나 TensorFlow 지식도 유용합니다.

3. 설치 방법

기본 설치

spaCy는 pip을 통해 쉽게 설치할 수 있습니다.

pip install spacy

언어 모델 다운로드

spaCy의 기능을 사용하려면 언어 모델을 설치해야 합니다. 예를 들어, 영어 모델은 다음과 같이 설치할 수 있습니다:

python -m spacy download en_core_web_sm

en_core_web_sm은 영어를 처리하기 위한 소형 모델입니다. 더 큰 모델도 사용할 수 있습니다.

4. 사용 방법

토큰화 (Tokenization)

문장을 단어로 분리하는 과정입니다. 각 단어는 "토큰"으로 표현됩니다.

import spacy

# 영어 모델 로드
nlp = spacy.load("en_core_web_sm")

# 텍스트 분석
doc = nlp("Apple is looking at buying U.K. startup for $1 billion.")

# 토큰화된 단어 출력
print("Tokens:")
for token in doc:
    print(token.text)

출력 예시:

Tokens:
Apple
is
looking
at
buying
U.K.
startup
for
$
1
billion
.

품사 태깅 (POS Tagging)

단어에 대해 품사(Part of Speech)를 식별합니다.

for token in doc:
    print(f"Word: {token.text}, POS: {token.pos_}, Detailed POS: {token.tag_}")

출력 예시:

Word: Apple, POS: PROPN, Detailed POS: NNP
Word: is, POS: AUX, Detailed POS: VBZ
Word: looking, POS: VERB, Detailed POS: VBG
...

POS: 일반 품사 태그 (명사, 동사 등)
Detailed POS: 더 세부적인 태그 (예: NNP는 고유 명사)

문법 의존성 분석 (Dependency Parsing)

문장 구조를 분석하고 단어 간의 문법적 관계를 파악합니다.

for token in doc:
    print(f"Word: {token.text}, Dependency: {token.dep_}, Head: {token.head.text}")

출력 예시:

Word: Apple, Dependency: nsubj, Head: looking
Word: is, Dependency: aux, Head: looking
Word: looking, Dependency: ROOT, Head: looking
...

Dependency: 문법적 관계 (예: nsubj는 주어, ROOT는 문장의 주 동사)
Head: 해당 단어와 연결된 중심 단어

개체명 인식 (NER, Named Entity Recognition)

텍스트에서 이름, 장소, 금액, 날짜와 같은 개체를 추출합니다.

for ent in doc.ents:
    print(f"Entity: {ent.text}, Label: {ent.label_}")

출력 예시:

Entity: Apple, Label: ORG
Entity: U.K., Label: GPE
Entity: $1 billion, Label: MONEY

ORG: 조직
GPE: 지리적 위치
MONEY: 금액

문장 벡터화

텍스트를 숫자로 표현한 벡터를 생성하여 머신러닝 모델에서 사용할 수 있습니다.

# 문장의 벡터 출력
vector = doc.vector
print("Vector shape:", vector.shape)
print("Vector values:", vector[:5])  # 벡터의 일부 출력

출력 예시:

Vector shape: (300,)
Vector values: [0.123, -0.456, 0.789, -0.321, 0.654]

언어 감지 및 맞춤형 모델 훈련

spaCy는 사전 학습된 모델을 활용하거나, 커스텀 모델을 훈련할 수 있습니다.

언어 감지

spaCy의 파이프라인으로 간단히 언어를 감지할 수 있습니다.

from spacy_langdetect import LanguageDetector
from spacy.language import Language

# 언어 감지기 추가
@Language.factory("language_detector")
def create_language_detector(nlp, name):
    return LanguageDetector()

nlp.add_pipe("language_detector", last=True)

doc = nlp("Bonjour tout le monde")
print("Detected Language:", doc._.language)

맞춤형 NER 훈련

새로운 개체를 학습시키려면 spaCy의 훈련 기능을 사용합니다.

# 새로운 NER 데이터셋
TRAIN_DATA = [
    ("Google was founded in 1998.", {"entities": [(0, 6, "ORG")]}),
    ("Elon Musk is the CEO of Tesla.", {"entities": [(0, 9, "PERSON"), (21, 26, "ORG")]}),
]

# NER 학습
nlp = spacy.blank("en")  # 빈 모델 생성
ner = nlp.add_pipe("ner")

# 새 레이블 추가
ner.add_label("ORG")
ner.add_label("PERSON")

# 학습
from spacy.training.example import Example

examples = [Example.from_dict(nlp.make_doc(text), ann) for text, ann in TRAIN_DATA]
optimizer = nlp.initialize()

for epoch in range(10):
    for example in examples:
        nlp.update([example], sgd=optimizer)

# 결과 확인
doc = nlp("Tesla was founded by Elon Musk.")
for ent in doc.ents:
    print(f"Entity: {ent.text}, Label: {ent.label_}")

위의 각 기능은 텍스트 처리, 데이터 분석, 검색 최적화, 그리고 머신러닝 모델 통합에 유용하게 활용됩니다. spaCy는 간단한 코드로 강력한 NLP 작업을 수행할 수 있는 도구입니다.

5. 응용 방법

응용 방법 1: 텍스트 분류

감정 분석과 같은 텍스트 분류 작업에 spaCy를 사용할 수 있습니다.

from spacy.pipeline import TextCategorizer
from spacy.training.example import Example

nlp = spacy.blank("en")  # 빈 언어 파이프라인
textcat = nlp.add_pipe("textcat")

textcat.add_label("POSITIVE")
textcat.add_label("NEGATIVE")

# 훈련 데이터 예시
train_data = [
    ("I love this product!", {"cats": {"POSITIVE": 1, "NEGATIVE": 0}}),
    ("This is awful.", {"cats": {"POSITIVE": 0, "NEGATIVE": 1}}),
]

# 모델 학습
examples = [Example.from_dict(nlp.make_doc(text), ann) for text, ann in train_data]
optimizer = nlp.initialize()

for epoch in range(10):
    for example in examples:
        nlp.update([example], sgd=optimizer)

# 예측
doc = nlp("I enjoy this!")
print(doc.cats)

응용 방법 2: 대규모 데이터 처리

spaCy의 빠른 처리 속도를 활용해 대규모 텍스트 데이터를 분석할 수 있습니다.

6. 응용 사례

챗봇 및 가상 비서: 고객 서비스에서 자연스러운 대화를 구현
감정 분석: 리뷰, 소셜 미디어에서 감정 추출
정보 추출: 계약서나 논문에서 핵심 정보 추출
검색 최적화: 문서 내 중요한 키워드 검색
언어 번역: NLP 파이프라인의 첫 단계로 텍스트 분석

spaCy는 간결하면서도 강력한 NLP 도구로, 다양한 언어 및 데이터 기반 작업을 지원합니다. 이를 활용하면 효율적이고 확장 가능한 NLP 애플리케이션을 개발할 수 있습니다.

'로봇&AI > 기술 소개' 카테고리의 다른 글

[LLM] RAG (Retrieval-Augmented Generation): GPT가 검색하는 법 (1)	2024.11.21

현재글[LLM] spaCy: Python으로 자연어 처리하기

로봇과 AI와 영어

로봇과 AI, 그리고 영어를 공부하는 대학원생

오블완, 티스토리챌린지,

Today :
Yesterday :

로봇과 AI와 영어