top of page
작성자 사진choiyy0313

신문 스크랩 프로젝트 (03) - NLTK & Colab Notebook

앞서 KoNLPy를 실패하고 한국지문이 아닌 영어 지문을 분석하는 걸 시도해보려 한다!

그래서 구글에 '영어 자연어 처리 예제'를 검색해서 여차저차해서 다양한 정보를 수집해서 여기에 기록해두려 한다.


가장 먼저 NLP딥러닝에 관련된 개념을 얻을 곳을 찾았다.

아직 다 읽어보진 못했지만 차차 공부해 보려 한다.


 

그렇게 한국어 KoNLPy가 아닌 영어 자연어 처리를 찾던 중 NLTK를 찾게 되었다.

NLTK는 자연어 도구 키트(Natural Language Toolkit)이다.

어떻게 쓰는 것인지 찾아보다

에서 영어 데이터 전처리 코드를 보게 되었다!


트위터 자료를 통해 영어 데이터를 전처리하고 텍스트의 감정을 분석하는 내용이었다.

내가 원하던 요약 내용은 아니었지만 한 번 다뤄보는 것도 나쁘지 않을 것 같아 해보았다.


위 내용을 그대로 옮긴다고 실행이 곧바로 되는 것은 아니었다ㅠㅠㅠ

내가 이 코드를 하면서 찾고 바꾸고 한 부분은 별건 아니지만 조금씩 있었다.


나는 개발환경을 구글 Colab Notebook을 사용하였다.

처음엔 Jupyter Notebook을 사용하였는데, 분석하는 시간이 워낙 오래걸렸다.

(역시 노트북의 한계인가...)

Colab Notebook은 워낙에 빠르게 코드를 실행할 수 있기 때문에 데이터 분석을 할 땐 보통 Colab Notebook을 사용하는 편이다.

여기서 혹시나 Colab Notebook을 사용할 분들을 위한 몇몇 팁을 적어볼까 한다.



 

Colab에 외부 파일 불러오기


Colab에서 외부 파일을 불러오는게 파이썬이나 Jupyter이랑은 조금 다르다.

외부 파일을 업로드 해야한다. 아래와 같이 파일을 업로드하도록 코드를 짠 후 파일을 업로드 한 후 진행하면 된다.

위와 같이 파일을 불러오면 원래 파이썬에서 파일을 쓰듯이 파일명을 통해 사용할 수 있다. 파일 저장 경로를 굳이 쓰지 않아도 쓸 수 있다는 장점(?)이 나름 있다.




Python SyntaxError


(unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape


이 오류는 파이썬으로 파일을 불러올 때 에러가 발생한다. jupyter Notebook을 쓰다가 발견한 에러인데, 보보통 파일을 불러올 때

path = 'C:\Users\Downloads\파일명'

이런 식으로 쓰기도 하는데, 이때 저런 에러가 발생하곤 한다.

이럴 땐 '\'을 '/'로 바꿔주면 에러가 해결된다.

(생각보다 무지 간단하게 해결되는 부분)


 

Twitter sentiment 분석 결과는 아래와 같이 나왔다.

사실 원래 이론상 나와야하는 분석 결과라는 사뭇 다르게 나왔지...만! 이걸 하면서 많이 얻게 된 것이 있다!!

바로바로

데이터를 얻을 수 있는 다양한 사이트 들을 알게 되었다는 것이다!!


데이터 수집 관련 사이트


신문 스크랩을 명분으로 다양한 알고리즘과 프로그램들을 접해보고 있다. 내가 정말 궁금한 프로그램은 언제쯤 만날 수 있을지 더 찾아보고 공부해봐야할 것 같다.


조회수 82회댓글 0개

최근 게시물

전체 보기

신문 스크랩 프로젝트 (02) - KoNLPy

신문 스크랩 프로젝트를 시작하면서 핵심 키워드를 뽑아주는 알고리즘을 분석해보고 있었다. 다양한 자료를 찾아봤는데 가장 먼저 다뤄본 것은 https://lovit.github.io/nlp/2019/04/30/textrank/ 이 곳에서...

Comments


bottom of page