일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- nvidia-smi
- 파일입출력
- AI
- 머신러닝
- EarlyStopping
- cuda
- Django
- 이것이 코딩 테스트다
- 인공지능
- auc
- Trouble shooting
- 크롤링
- IOPub
- nvidia
- semi-project
- SMTP
- Logistic linear
- Roc curve
- ML
- category_encoders
- nvcc
- pandas
- 그리디
- 잡담
- json
- PYTHON
- beautifulsoup
- 트러블슈팅
- selenium
- aof
- Today
- Total
목록Programming Language/Python (24)
개발 블로그
파이썬에서 hashlib 라이브러리를 사용하여 파일 hash를 구할 수 있다. import hashlib def file_to_md5(self): hash_md5 = hashlib.md5() with open(self.filepath, 'rb') as f: for chunk in iter(lambda: f.read(4096), b""): hash_md5.update(chunk) return hash_md5.hexdigest() 위와 같이 md5 hash를 구하는 코드예제를 보면 파일을 4096바이트씩 끊어서 읽고 hash를 update하다가 b"" (파일의 끝) 를 만나면 종료되는 것을 볼 수 있다. 이때 왜 f.read()를 안하고 4096 또는 1024와 같이 끊어서 읽는 코드 예제들이 많은지 궁금해..

인터넷이 안되는 원격 장비(Ubuntu 20.04)에 category encoders와 dependency package들을 설치하는 과정에서 만난 에러를 정리해본다. 우선 category_encoders의 requirements목록은 다음 페이지에서 확인 할 수 있다. https://github.com/scikit-learn-contrib/category_encoders/blob/master/requirements.txt numpy>=1.14.0 scikit-learn>=1.0.0 scipy>=1.0.0 statsmodels>=0.9.0 pandas>=1.0.5 patsy>=0.5.1 unittest2 # unittest2는 안설치해도 pip install 됨 importlib_resources ; p..
아래와 같이 model.py 모듈에서 Model 클래스 안의 함수 inference_malware_file() 함수에서 dict_to_df() 를 호출하는데 위와 같은 에러 메시지 발생 Class안의 함수인데 self 값을 주지 않아서 생긴 에러였다. class Model: def __init__(self, model_type='random_forest'): self.model = None self.model_type = None self.features = None if model_type == 'random_forest': self.model = RandomForestClassifier() self.model_type = 'random_forest' ... def inference_malware_fi..

jupyter notebook에서 api요청을 보내고 받은 xml데이터를 BeautifulSoup로 변환하고 출력하는데 위와 같은 에러가 떴습니다. 검색해보니 나와있는 그대로 출력데이터가 초과되어 뜨는 에러였습니다...! 금방 해결할 수 있는 문제니 간단히 해결방법을 알아보겠습니다. cmd창을 열고 다음과 같이 입력한다음 엔터를 누릅니다. jupyter notebook --generate-config 그러면 다음줄에 jupyter-notebook_config.py파일이 있는 경로가 나오는데, 이대로 찾아가줍니다. 경로대로 찾아가보면 아래와 같이 jupyter-notebook_config.py파일이 있습니다. 우클릭을 해서 텍스트파일로 열어줍니다. iopub를 찾아보면 다음과 같이 default값이 100..

엑셀파일의 문자열 데이터를 가공한 후 selenium을 활용하여 구글번역기에 단어를 입력하고 번역한 결과를 가져와 저장하는 프로그램입니다. (엑셀파일은 [Python] 웹 스크래핑 (1) 게시물에서 생성한 엑셀파일을 사용하였습니다.) 목차> 더보기 목차 00 import from webdriver_manager.chrome import ChromeDriverManager from selenium.webdriver.chrome.service import Service from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from bs4 imp..

[Python] konlpy 한국어 텍스트 분석과 시각화의 word_dict를 기반으로 wordcloud를 만들었습니다. 목차> 더보기 목차 wordcloud라이브러리 설치 conda install -c https://conda.anaconda.org/conda-forge wordcloud==1.5.0 import wordcloud from wordcloud import WordCloud from PIL import Image # 만약 "No module named 'PIL'" 에러가 발생하면 [ pip install Pillow==5.4.1 ] 로 라이브러리를 설치 import numpy as np import matplotlib.pyplot as plt 01 WordCloud객체변수 word_clou..

01 크롤링 데이터 전처리 이전에 웹 스크래핑(1)에서 만들었던 엑셀파일을 대상으로 분석을 하겠습니다. import numpy as np import pandas as pd df = pd.read_excel('result_220202_1834.xlsx') df.head(3) Article속성에 해당하는 기사의 본문 내용을 리스트로 만들어 줍니다. 그리고 join함수로 리스트를 하나의 문자열로 만들고 1000번째 자리의 문자까지만 남깁니다. articles = df['Article'].tolist() print(len(articles)) # 30 articles = ' '.join(articles) articles = articles[:1000] print(articles) 02 단어 정규화, 어근화, 품..

목차> 더보기 목차 웹 스크래핑을 위한 라이브러리 import import requests from bs4 import BeautifulSoup import pandas as pd from datetime import datetime import time import re 01 '원소주' 뉴스기사 스크래핑 시작 원소주를 검색하고 뉴스탭을 보면 query라는 파라미터에 '원소주'를 전달인자로 받는걸 볼 수 있습니다. requests.get(url).content로 응답을 받고, 이를 BeautifulSoup객체로 변환합니다. ※ 주소를 복사할 때 그냥 복사해서 붙여넣기 하면 url을 파악하기 힘들게 깨질 수 있습니다. 따라서 다음과 같이 복사합니다. url 제일 앞에 커서가 오도록 클릭 -> 스페이스 한칸..