일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- cuda
- pandas
- 머신러닝
- IOPub
- 잡담
- auc
- 그리디
- ML
- 인공지능
- beautifulsoup
- json
- selenium
- 크롤링
- Roc curve
- SMTP
- nvcc
- Django
- nvidia
- EarlyStopping
- aof
- Trouble shooting
- AI
- nvidia-smi
- semi-project
- category_encoders
- 이것이 코딩 테스트다
- 파일입출력
- PYTHON
- Logistic linear
- 트러블슈팅
- Today
- Total
목록전체 글 (51)
개발 블로그

3/7(목)에 목이 칼칼하고 몸상태가 안좋다고 느껴서 수업이 끝나고 바로 코로나 신속항원검사를 받고 양성 판정을 받았습니다....ㅠㅠ 이틀째인 금요일은 "약 먹어서 그런지 그렇게 안아프네?"라고 생각했는데... 토요일부터 정말 죽을둥 살둥하며 약먹고 자고를 반복하며 자가격리하고 있습니다...ㅎㅎ 수업내용들 복습하고 블로그 글도쓰고 github커밋도 하려던 계획들은 다 물건너 갔네요ㅠㅠㅠㅠㅠㅠ 역시 건강이 최우선이라는걸 느낍니다. 빨리 회복하는것에 집중해야겠습니다. 마감일이 정해진 일부터 최대한 끝내고 공부와 복습은 회복후에 최대한 따라가야겠네요.... 모두 건강하셨으면 좋겠습니다:) ps. 코로나 자가격리 안내메시지가 검사당일 안왔었는데 다음날에 와서 자가격리 설문을 했었네요. 저는 당일 바로 올줄알고 ..

03/31(목)부터 첫번째 세미 프로젝트를 시작하고 이제 발표날입니다~!! 팀원을 배정받고 주제 선정과 데이터 전처리, 시각화를 진행해오며 그동안 같은 팀으로 각자 너무 잘해주신 팀원들에게 감사했습니다. 정말 드림팀이였던거 같아요ㅋㅋㅋㅋㅋㅋㅋ 세미 프로젝트를 진행하면서 노션으로 매일 할 일과 수행했던 일들을 정리했던 것이 정말 좋았다고 느꼈습니다. 각자 담당한 부분을 명확하게 구분하고 그때그때 어떤일을 할지 중간마다 검토해서 빠르게 진행할 수 있었습니다. 이번 프로젝트를 기회로 데이터 전처리(OpenAPI, pandas, 크롤링), 텍스트 데이터 분석(konlpy, cosine similarity), 그리고 시각화(matplotlib, seaborn, wordcloud)까지 진행하면서 데이터처리에 대한 ..

jupyter notebook에서 api요청을 보내고 받은 xml데이터를 BeautifulSoup로 변환하고 출력하는데 위와 같은 에러가 떴습니다. 검색해보니 나와있는 그대로 출력데이터가 초과되어 뜨는 에러였습니다...! 금방 해결할 수 있는 문제니 간단히 해결방법을 알아보겠습니다. cmd창을 열고 다음과 같이 입력한다음 엔터를 누릅니다. jupyter notebook --generate-config 그러면 다음줄에 jupyter-notebook_config.py파일이 있는 경로가 나오는데, 이대로 찾아가줍니다. 경로대로 찾아가보면 아래와 같이 jupyter-notebook_config.py파일이 있습니다. 우클릭을 해서 텍스트파일로 열어줍니다. iopub를 찾아보면 다음과 같이 default값이 100..

https://finance.naver.com/ 에서 당일 거래량 상위 종목중 상승한 종목만 크롤링하여 엑셀파일에 저장하는 프로그램입니다. 위에서 보이는 상승종목들 남선알미늄, 큐캐피탈, 이스트아이아홀딩스.... 들을 선별하여 DataFrame으로 만듭니다. 크롬개발자도구를 사용하여 종목들의 정보가 담긴 태그들을 찾아서 접근했습니다. import requests from bs4 import BeautifulSoup import pandas as pd url = 'http://finance.naver.com' res = requests.get(url).content soup = BeautifulSoup(res, 'html.parser') names = [] prices = [] delta_prices = ..

엑셀파일의 문자열 데이터를 가공한 후 selenium을 활용하여 구글번역기에 단어를 입력하고 번역한 결과를 가져와 저장하는 프로그램입니다. (엑셀파일은 [Python] 웹 스크래핑 (1) 게시물에서 생성한 엑셀파일을 사용하였습니다.) 목차> 더보기 목차 00 import from webdriver_manager.chrome import ChromeDriverManager from selenium.webdriver.chrome.service import Service from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from bs4 imp..

[Python] konlpy 한국어 텍스트 분석과 시각화의 word_dict를 기반으로 wordcloud를 만들었습니다. 목차> 더보기 목차 wordcloud라이브러리 설치 conda install -c https://conda.anaconda.org/conda-forge wordcloud==1.5.0 import wordcloud from wordcloud import WordCloud from PIL import Image # 만약 "No module named 'PIL'" 에러가 발생하면 [ pip install Pillow==5.4.1 ] 로 라이브러리를 설치 import numpy as np import matplotlib.pyplot as plt 01 WordCloud객체변수 word_clou..

01 크롤링 데이터 전처리 이전에 웹 스크래핑(1)에서 만들었던 엑셀파일을 대상으로 분석을 하겠습니다. import numpy as np import pandas as pd df = pd.read_excel('result_220202_1834.xlsx') df.head(3) Article속성에 해당하는 기사의 본문 내용을 리스트로 만들어 줍니다. 그리고 join함수로 리스트를 하나의 문자열로 만들고 1000번째 자리의 문자까지만 남깁니다. articles = df['Article'].tolist() print(len(articles)) # 30 articles = ' '.join(articles) articles = articles[:1000] print(articles) 02 단어 정규화, 어근화, 품..

목차> 더보기 목차 웹 스크래핑을 위한 라이브러리 import import requests from bs4 import BeautifulSoup import pandas as pd from datetime import datetime import time import re 01 '원소주' 뉴스기사 스크래핑 시작 원소주를 검색하고 뉴스탭을 보면 query라는 파라미터에 '원소주'를 전달인자로 받는걸 볼 수 있습니다. requests.get(url).content로 응답을 받고, 이를 BeautifulSoup객체로 변환합니다. ※ 주소를 복사할 때 그냥 복사해서 붙여넣기 하면 url을 파악하기 힘들게 깨질 수 있습니다. 따라서 다음과 같이 복사합니다. url 제일 앞에 커서가 오도록 클릭 -> 스페이스 한칸..