일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- pos_tag
- 트러블슈팅
- Logistic linear
- ML
- IOPub
- SMTP
- 이것이 코딩 테스트다
- 머신러닝
- 원소주
- 그리디
- AI
- Trouble shooting
- selenium
- Django
- PYTHON
- find_all()
- category_encoders
- semi-project
- Roc curve
- stopwords
- 파일입출력
- json
- beautifulsoup
- aof
- 인공지능
- EarlyStopping
- 크롤링
- 잡담
- auc
- pandas
- Today
- Total
목록분류 전체보기 (48)
개발 블로그
https://finance.naver.com/ 에서 당일 거래량 상위 종목중 상승한 종목만 크롤링하여 엑셀파일에 저장하는 프로그램입니다. 위에서 보이는 상승종목들 남선알미늄, 큐캐피탈, 이스트아이아홀딩스.... 들을 선별하여 DataFrame으로 만듭니다. 크롬개발자도구를 사용하여 종목들의 정보가 담긴 태그들을 찾아서 접근했습니다. import requests from bs4 import BeautifulSoup import pandas as pd url = 'http://finance.naver.com' res = requests.get(url).content soup = BeautifulSoup(res, 'html.parser') names = [] prices = [] delta_prices = ..
엑셀파일의 문자열 데이터를 가공한 후 selenium을 활용하여 구글번역기에 단어를 입력하고 번역한 결과를 가져와 저장하는 프로그램입니다. (엑셀파일은 [Python] 웹 스크래핑 (1) 게시물에서 생성한 엑셀파일을 사용하였습니다.) 목차> 더보기 목차 00 import from webdriver_manager.chrome import ChromeDriverManager from selenium.webdriver.chrome.service import Service from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from bs4 imp..
[Python] konlpy 한국어 텍스트 분석과 시각화의 word_dict를 기반으로 wordcloud를 만들었습니다. 목차> 더보기 목차 wordcloud라이브러리 설치 conda install -c https://conda.anaconda.org/conda-forge wordcloud==1.5.0 import wordcloud from wordcloud import WordCloud from PIL import Image # 만약 "No module named 'PIL'" 에러가 발생하면 [ pip install Pillow==5.4.1 ] 로 라이브러리를 설치 import numpy as np import matplotlib.pyplot as plt 01 WordCloud객체변수 word_clou..
01 크롤링 데이터 전처리 이전에 웹 스크래핑(1)에서 만들었던 엑셀파일을 대상으로 분석을 하겠습니다. import numpy as np import pandas as pd df = pd.read_excel('result_220202_1834.xlsx') df.head(3) Article속성에 해당하는 기사의 본문 내용을 리스트로 만들어 줍니다. 그리고 join함수로 리스트를 하나의 문자열로 만들고 1000번째 자리의 문자까지만 남깁니다. articles = df['Article'].tolist() print(len(articles)) # 30 articles = ' '.join(articles) articles = articles[:1000] print(articles) 02 단어 정규화, 어근화, 품..
목차> 더보기 목차 웹 스크래핑을 위한 라이브러리 import import requests from bs4 import BeautifulSoup import pandas as pd from datetime import datetime import time import re 01 '원소주' 뉴스기사 스크래핑 시작 원소주를 검색하고 뉴스탭을 보면 query라는 파라미터에 '원소주'를 전달인자로 받는걸 볼 수 있습니다. requests.get(url).content로 응답을 받고, 이를 BeautifulSoup객체로 변환합니다. ※ 주소를 복사할 때 그냥 복사해서 붙여넣기 하면 url을 파악하기 힘들게 깨질 수 있습니다. 따라서 다음과 같이 복사합니다. url 제일 앞에 커서가 오도록 클릭 -> 스페이스 한칸..
01 TF-IDF (Term Frequency - Inverse Document Frequency) TF-IDF(Term Frequency - Inverse Document Frequency)는 정보 검색과 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치입니다. 문서의 핵심어를 추출하거나, 검색 엔진에서 검색 결과의 순위를 결정하거나, 문서들 사이의 비슷한 정도를 구하는 등의 용도로 사용할 수 있습니다. (출처 : wiki tf-idf) 02 Cosine Similarity (코사인 유사도) 코사인 유사도(cosine similarity)는 내적공간의 두 벡터간 각도의 코사인값을 이용하여 측정된 벡터간..
[Python] 웹 크롤링 & 자연어 처리 (1)에서 웹크롤링을 진행했다면 이번에는 자연어처리에 대해 정리하겠습니다. 지금 쓰고있는 두번째 게시물에 이어서 다음에 쓸 세번째 게시물에서 네이버 뉴스를 크롤링한 뒤 자연어 처리를 하는 것에 대해 포스팅 하겠습니다:) 목차> 더보기 목차 00 The process of data analysis for data 텍스트 데이터를 str 자료형으로 준비 Tokenize (형태소 분석) POS Tagging (Part-of-speech, 품사 표시) Stopwords 제거 (불용어 제거) -> 불용어 : 을, 를, 이, 가, 대명사, 전치사 등등 단어 갯수 카운팅 & 단어 사전 생성 단어 사전 기반 데이터 시각화 머신러닝/딥러닝 모델 적용 01 Preprocessin..
본인이 쓴 크롤링에 관한 게시물 : [CODELION 강의] [심화] 같이 푸는 PYTHON - 크롤링 [Toy_Project] Python 웹크롤링 - EPL순위 가져오기 여러 페이지에 대해서 정보를 가져오기 위해서는 url을 이해하고 값을 조정하여 페이지에 접근해야 됩니다. 따라서 크롤링 전에 url에 대한 분석이 필요합니다. url에 대한 설명은 brunch 블로그(https://brunch.co.kr/@beusable/237)를 참고했습니다. 00 BeautifulSoup BeautifulSoup는 request를 통해 얻어온 데이터를 BeautifulSoup객체로 파싱하여 원하는 데이터를 쉽게 추출하도록 도와주는 모듈입니다. import from bs4 import BeautifulSoup fr..