일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 머신러닝
- beautifulsoup
- nvidia
- nvcc
- 잡담
- auc
- selenium
- 이것이 코딩 테스트다
- 크롤링
- pandas
- Trouble shooting
- AI
- category_encoders
- EarlyStopping
- cuda
- IOPub
- 파일입출력
- 트러블슈팅
- Logistic linear
- 그리디
- aof
- PYTHON
- Django
- nvidia-smi
- 인공지능
- ML
- SMTP
- semi-project
- Roc curve
- json
- Today
- Total
목록Programming Language/Python (24)
개발 블로그

01 TF-IDF (Term Frequency - Inverse Document Frequency) TF-IDF(Term Frequency - Inverse Document Frequency)는 정보 검색과 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치입니다. 문서의 핵심어를 추출하거나, 검색 엔진에서 검색 결과의 순위를 결정하거나, 문서들 사이의 비슷한 정도를 구하는 등의 용도로 사용할 수 있습니다. (출처 : wiki tf-idf) 02 Cosine Similarity (코사인 유사도) 코사인 유사도(cosine similarity)는 내적공간의 두 벡터간 각도의 코사인값을 이용하여 측정된 벡터간..

[Python] 웹 크롤링 & 자연어 처리 (1)에서 웹크롤링을 진행했다면 이번에는 자연어처리에 대해 정리하겠습니다. 지금 쓰고있는 두번째 게시물에 이어서 다음에 쓸 세번째 게시물에서 네이버 뉴스를 크롤링한 뒤 자연어 처리를 하는 것에 대해 포스팅 하겠습니다:) 목차> 더보기 목차 00 The process of data analysis for data 텍스트 데이터를 str 자료형으로 준비 Tokenize (형태소 분석) POS Tagging (Part-of-speech, 품사 표시) Stopwords 제거 (불용어 제거) -> 불용어 : 을, 를, 이, 가, 대명사, 전치사 등등 단어 갯수 카운팅 & 단어 사전 생성 단어 사전 기반 데이터 시각화 머신러닝/딥러닝 모델 적용 01 Preprocessin..

본인이 쓴 크롤링에 관한 게시물 : [CODELION 강의] [심화] 같이 푸는 PYTHON - 크롤링 [Toy_Project] Python 웹크롤링 - EPL순위 가져오기 여러 페이지에 대해서 정보를 가져오기 위해서는 url을 이해하고 값을 조정하여 페이지에 접근해야 됩니다. 따라서 크롤링 전에 url에 대한 분석이 필요합니다. url에 대한 설명은 brunch 블로그(https://brunch.co.kr/@beusable/237)를 참고했습니다. 00 BeautifulSoup BeautifulSoup는 request를 통해 얻어온 데이터를 BeautifulSoup객체로 파싱하여 원하는 데이터를 쉽게 추출하도록 도와주는 모듈입니다. import from bs4 import BeautifulSoup fr..

저번 게시글 [Python] 데이터 시각화 (지도/ Folium, GeoJSON)에 이어집니다. 목차> 더보기 목차 googlemaps library 설치 pip install googlemaps==4.6.0 pip install --index-url=http://pypi.python.org/simple/ --trusted-host pypi.python.org googlemaps==4.6.0 conda config --set ssl_verify false 입력 후 -> conda install googlemaps==4.6.0 구글맵스 API key 받기 01 gmaps.geocode( ) googlemaps.geocode(찾고싶은 위치명, 언어) import googlemaps gmaps = google..

시각화할 데이터는 [Python] pandas, seaborn 실습에서 사용한걸 활용합니다. 목차> 더보기 목차 01 Folium Folium은 leaftlet.js를 기반으로 하는 Python 지도 시각화 라이브러리입니다. 지도 데이터 : https://github.com/southkorea/southkorea-maps 에서 서울만 따로 추린 GeoJSON 데이터를 활용합니다. (southkorea-maps/kostat/2013/json/skorea_municipalities_geo_simple.json) Folium library 설치 : pip install folium==0.5.0 pip install --index-url=http://pypi.python.org/simple/ --trusted..

저번 시간에는 pandas Dataframe에 대해 알아봤었습니다. 이번에는 공공데이터포털의 관서별 5대범죄 발생 및 검거 엑셀파일 데이터를 가져와서 실습을 했습니다. 이번 시간에는 seaborn라이브러리로 시각화까지 진행했습니다. 이걸 어떻게 정리해서 올려야 하나 고민이 되는데,,, 일단 수업했던 흐름에 맞춰서 설명을 덧붙여 보겠습니다:) 목차> 더보기 목차 import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from matplotlib import font_manager, rc # rc == run configure(configuration file) from matplotlib impo..

오늘은 1강을 마치고, 2강을 시작했습니다!! 본격적으로 데이터를 다루기 시작하며 이제 numpy, pandas, matplotlib, seaborn를 배워나갈 것 같습니다. 오늘은 그중에서도 pandas에 대해서 알아봤습니다. 목차> 더보기 목차 pandas란? pandas는 데이터 조작 및 분석을 위한 Python 프로그래밍 언어 용으로 작성된 소프트웨어 라이브러리 입니다 . 특히 숫자 테이블과 시계열 을 조작하기 위한 데이터 구조 와 연산을 제공합니다 . 출처 : Wiki Pandas pandas.DataFrame은 2차원, 크기 변경이 가능한 테이블 형식 데이터입니다. 데이터 구조에는 레이블이 지정된 축(행과 열)도 포함됩니다. Series객체를 위한 dict-like 컨테이너로 생각할 수도 있습..

Python의 파일입출력에 대해 알아보기 전에 utf-8에 대해 알아보고 싶다면 이 페이지를 참고하세요!! Python 파일입출력은 기본적으로 open(), write(), close() 함수들로 이루어집니다. 그리고 with문을 통해서 close()함수를 생략할 수도 있습니다. 이제 하나하나 알아보겠습니다! 목차> 더보기 목차 01 파일 생성하기 파일을 생성하기 open()함수를 사용합니다. open 함수는 다음과 같이 "파일 이름"과 "파일 열기 모드"를 입력값으로 받고 결괏값으로 파일 객체를 돌려줍니다. (encoding='utf-8'은 생략 가능합니다.) 파일 객체 = open(파일 이름, 파일 열기 모드) (C언어를 배우면서 파일입출력을 처음 만났을때 파일이름 뒤에 확장자 .txt를 안적어줘서 ..