Programming/AI & 머신러닝

[머신러닝] 웹에서 데이터 추출하기 | 파이썬, urlopen()

MOONCO 2021. 1. 24. 16:52

웹상의 XML 또는 HTML 등의 텍스트 기반 데이터를 다운로드하는 방법

 

"urllib.request.urlopen()" 을 사용합니다

# IP 확인 API로 접근해서 결과출력하기
# 모듈 읽기
import urllib.request

# 데이터 읽기
url = "http://api.aoikujira.com/ip/ini"
res = urllib.request.urlopen(url)
data = res.read()

# 바이너리를 문자열로 변환하기
text = data.decode("utf-8")
print(text)

 

"import urllib.request"

urllib라이브러리에 request 모듈을 불러옵니다

 

"url = '주소'"

다운로드 받을 HTML, XML 주소를 지정해줍니다.

 

"res = urllib.request.urlopen(url)"

url에서 정보를 받아 res(메모리)에 저장해줍니다.

 

"data = res.read()"

res에 담겨진 정보를 urlopen() 내부의 read()를 이용하여 읽어,

바이너리 형태로 data에 저장해줍니다.

 

"text = data.decode("utf-8")"

data에 담긴 바이너리 정보를 decode()를 이용하여 utf-8 형식으로 바꿔줍니다.

 

"print(text)"

utf-8 형식으로 바뀐 텍스트를 화면에 출력해줍니다.

 

 

작성이 완료되었으면,

명령창을 켜서 해당 파일이 존재하는 폴더로 이동하신후,

"python 파일이름" 을 타이핑해

프로그램을 실행 시켜줍니다.

 

실행 결과

 

HTTP형식의 데이터를 다운로드해서,

출력한 결과를 볼 수 있습니다!

 

 

 

 

반응형