일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- nvcc
- Logistic linear
- AI
- json
- semi-project
- 크롤링
- Trouble shooting
- 잡담
- 그리디
- selenium
- Roc curve
- PYTHON
- aof
- IOPub
- auc
- 인공지능
- SMTP
- nvidia-smi
- 파일입출력
- 머신러닝
- ML
- cuda
- 이것이 코딩 테스트다
- category_encoders
- nvidia
- Django
- 트러블슈팅
- pandas
- beautifulsoup
- EarlyStopping
- Today
- Total
목록분류 전체보기 (50)
개발 블로그

[Python] 웹 크롤링 & 자연어 처리 (1)에서 웹크롤링을 진행했다면 이번에는 자연어처리에 대해 정리하겠습니다. 지금 쓰고있는 두번째 게시물에 이어서 다음에 쓸 세번째 게시물에서 네이버 뉴스를 크롤링한 뒤 자연어 처리를 하는 것에 대해 포스팅 하겠습니다:) 목차> 더보기 목차 00 The process of data analysis for data 텍스트 데이터를 str 자료형으로 준비 Tokenize (형태소 분석) POS Tagging (Part-of-speech, 품사 표시) Stopwords 제거 (불용어 제거) -> 불용어 : 을, 를, 이, 가, 대명사, 전치사 등등 단어 갯수 카운팅 & 단어 사전 생성 단어 사전 기반 데이터 시각화 머신러닝/딥러닝 모델 적용 01 Preprocessin..

본인이 쓴 크롤링에 관한 게시물 : [CODELION 강의] [심화] 같이 푸는 PYTHON - 크롤링 [Toy_Project] Python 웹크롤링 - EPL순위 가져오기 여러 페이지에 대해서 정보를 가져오기 위해서는 url을 이해하고 값을 조정하여 페이지에 접근해야 됩니다. 따라서 크롤링 전에 url에 대한 분석이 필요합니다. url에 대한 설명은 brunch 블로그(https://brunch.co.kr/@beusable/237)를 참고했습니다. 00 BeautifulSoup BeautifulSoup는 request를 통해 얻어온 데이터를 BeautifulSoup객체로 파싱하여 원하는 데이터를 쉽게 추출하도록 도와주는 모듈입니다. import from bs4 import BeautifulSoup fr..

저번 게시글 [Python] 데이터 시각화 (지도/ Folium, GeoJSON)에 이어집니다. 목차> 더보기 목차 googlemaps library 설치 pip install googlemaps==4.6.0 pip install --index-url=http://pypi.python.org/simple/ --trusted-host pypi.python.org googlemaps==4.6.0 conda config --set ssl_verify false 입력 후 -> conda install googlemaps==4.6.0 구글맵스 API key 받기 01 gmaps.geocode( ) googlemaps.geocode(찾고싶은 위치명, 언어) import googlemaps gmaps = google..

시각화할 데이터는 [Python] pandas, seaborn 실습에서 사용한걸 활용합니다. 목차> 더보기 목차 01 Folium Folium은 leaftlet.js를 기반으로 하는 Python 지도 시각화 라이브러리입니다. 지도 데이터 : https://github.com/southkorea/southkorea-maps 에서 서울만 따로 추린 GeoJSON 데이터를 활용합니다. (southkorea-maps/kostat/2013/json/skorea_municipalities_geo_simple.json) Folium library 설치 : pip install folium==0.5.0 pip install --index-url=http://pypi.python.org/simple/ --trusted..

저번 시간에는 pandas Dataframe에 대해 알아봤었습니다. 이번에는 공공데이터포털의 관서별 5대범죄 발생 및 검거 엑셀파일 데이터를 가져와서 실습을 했습니다. 이번 시간에는 seaborn라이브러리로 시각화까지 진행했습니다. 이걸 어떻게 정리해서 올려야 하나 고민이 되는데,,, 일단 수업했던 흐름에 맞춰서 설명을 덧붙여 보겠습니다:) 목차> 더보기 목차 import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from matplotlib import font_manager, rc # rc == run configure(configuration file) from matplotlib impo..

오늘은 1강을 마치고, 2강을 시작했습니다!! 본격적으로 데이터를 다루기 시작하며 이제 numpy, pandas, matplotlib, seaborn를 배워나갈 것 같습니다. 오늘은 그중에서도 pandas에 대해서 알아봤습니다. 목차> 더보기 목차 pandas란? pandas는 데이터 조작 및 분석을 위한 Python 프로그래밍 언어 용으로 작성된 소프트웨어 라이브러리 입니다 . 특히 숫자 테이블과 시계열 을 조작하기 위한 데이터 구조 와 연산을 제공합니다 . 출처 : Wiki Pandas pandas.DataFrame은 2차원, 크기 변경이 가능한 테이블 형식 데이터입니다. 데이터 구조에는 레이블이 지정된 축(행과 열)도 포함됩니다. Series객체를 위한 dict-like 컨테이너로 생각할 수도 있습..

클래스를 예로 들때 주로 붕어빵틀을 예로 듭니다. 매번 붕어빵을 손으로 만드려면 시간도 힘도 많이 들겠죠?? 그래서 우리는 붕어빵틀을 만들고 재료를 준비해서 붕어빵틀에 넣고 여러개의 붕어빵을 찍어냅니다. 클래스도 마찬가지입니다. 클래스라는 붕어빵틀을 만들고 붕어빵틀로 객체라는 붕어빵을 손쉽게 찍어내는 것이죠. 또한 만들어진 붕어빵들은 각각의 붕어빵들과는 다른, 서로 영향을 주지 않는 개개의 객체입니다. 그럼 클래스를 한 번 만들어볼까요?? class Cage: # 클래스 X를 상속할 때에는 : class Cage(X): # 클래스 선언 후 객체가 메소드를 호출할 때 메소드를 호출한 객체 자신이 첫번째 인자로 함께 전달된다. def print_something(self): print("This is som..

Python의 파일입출력에 대해 알아보기 전에 utf-8에 대해 알아보고 싶다면 이 페이지를 참고하세요!! Python 파일입출력은 기본적으로 open(), write(), close() 함수들로 이루어집니다. 그리고 with문을 통해서 close()함수를 생략할 수도 있습니다. 이제 하나하나 알아보겠습니다! 목차> 더보기 목차 01 파일 생성하기 파일을 생성하기 open()함수를 사용합니다. open 함수는 다음과 같이 "파일 이름"과 "파일 열기 모드"를 입력값으로 받고 결괏값으로 파일 객체를 돌려줍니다. (encoding='utf-8'은 생략 가능합니다.) 파일 객체 = open(파일 이름, 파일 열기 모드) (C언어를 배우면서 파일입출력을 처음 만났을때 파일이름 뒤에 확장자 .txt를 안적어줘서 ..