티스토리 뷰
Python에서 HTML/XML 작업을 편하게 할 수 있도록 지원해주는 Library 이다.
사용법은 그리 어렵지 않으므로 구글사마에게 잠시 여쭤보면 대부분의 답이 나올 것이다.
제작사 : http://www.crummy.com/software/BeautifulSoup/
BeautifulSoup의 API 정보는 다음의 사이트에서 확인할 수 있다.
참고 :http://api.plone.org/Plone/3.0/private/frames/src/kss.core/kss/core/private/kss.core.BeautifulSoup-module.html
아래 소스는 BeautifulSoup을 이용해 작성한 간단한 코드이다.
제작사 : http://www.crummy.com/software/BeautifulSoup/
BeautifulSoup의 API 정보는 다음의 사이트에서 확인할 수 있다.
참고 :http://api.plone.org/Plone/3.0/private/frames/src/kss.core/kss/core/private/kss.core.BeautifulSoup-module.html
아래 소스는 BeautifulSoup을 이용해 작성한 간단한 코드이다.
try: socket.setdefaulttimeout(timeout)\ // vatorul 에서 페이지 HTML 정보를 가져온다. text = urllib.urlopen(vitourl).read() // BeautifulSoup의 입력으로 전달 soup = BeautifulSoup.BeautifulSoup(text) // '<table ~'을 검색, id 값이 tablaMotores인 것만 찾는다. table = soup.find("table", { "id" : "tablaMotores" }) // table 결과에서 모든 '<tr ~' 을 검색 for TRs in table.findAll("tr"): // TRs 에서 '<td ~' 을 검색, class 값이 positivo인 것만 찾는다. node = TRs.find("td", { "class" : "positivo" }) if (node): TDs = TRs('td') print "%-20s : %s" %(TDs.pop(0).contents[0], node.contents[0]) except Exception, msg: print "Error:Exception GetVirustotalResult : %s --> %s" %(msg, vitourl)아래는 제작사에서 제공하는 사용법이다.
[ BeautifulSoup Documentation ]
- Quick Start
- Parsing a Document
- Beautiful Soup Gives You Unicode, Dammit
- Printing a Document
- The Parse Tree
- Navigating the Parse Tree
parent
contents
string
nextSibling
andpreviousSibling
next
andprevious
- Iterating over a
Tag
- Using tag names as members
- Searching the Parse Tree
- The basic find method:
findAll(name, attrs, recursive, text, limit, **kwargs)
find(name, attrs, recursive, text, **kwargs)
- What happened to
first
? - Searching Within the Parse Tree
findNextSiblings(name, attrs, text, limit, **kwargs)
andfindNextSibling(name, attrs, text, **kwargs)
findPreviousSiblings(name, attrs, text, limit, **kwargs)
andfindPreviousSibling(name, attrs, text, **kwargs)
findAllNext(name, attrs, text, limit, **kwargs)
andfindNext(name, attrs, text, **kwargs)
findAllPrevious(name, attrs, text, limit, **kwargs)
andfindPrevious(name, attrs, text, **kwargs)
- Modifying the Parse Tree
- Changing attribute values
- Removing elements
- Replacing one Element with Another
- Adding a Brand New Element
- Troubleshooting
- Why can't Beautiful Soup print out the non-ASCII characters I gave it?
- Beautiful Soup loses the data I fed it! Why? WHY?????
- Beautiful Soup is too slow!
- Advanced Topics
- Generators
- Other Built-In Parsers
- Customizing the Parser
- Entity Conversion
- Sanitizing Bad Data with Regexps
- Fun With
SoupStrainer
s - Improving Performance by Parsing Only Part of the Document
- Improving Memory Usage with
extract
- See Also
- Conclusion
'IT > 프로그래밍' 카테고리의 다른 글
[MySQL] Connector C/C++ 어렵게 설정하지 않고 이용하는 방법 (0) | 2009.12.04 |
---|---|
[Python] setuptools 업그레이드 시 문제점 (0) | 2009.11.23 |
[Python] session이 유지된 http 연결 지원 : ClientCookie (5) | 2009.10.26 |
[Python] 어제 날짜 구하기 (2) | 2009.10.26 |
Python - URLLIB - GetAddrInfo Failed (0) | 2009.09.25 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
- 지루박멸연구센타
- 열정의 힘을 믿는다
- Le4rN TO Cr4cK
- 디버깅에관한모든것(DebugLab)
- sysinternals
- FoundStone
- hashtab
- 보안-coderant
- 디바이스드라이버 개발자 포럼
- dualpage.muz.ro
- osronline.com - 드라이버 관련 정보 사이트
- NtInternals - NativeAPI Refere…
- pcthreat - spyware 정보 제공
- rootkit.com - 루트킷 관련 정보
- www.ntinternals.net
- WINE CrossRef. - source.winehq…
- tuts4you
- hex-rays
- idapalace
- idefense
- immunityinc
- threatexpert
- hdp.null2root.org
- www.crackstore.com
- crackmes.de
- www.who.is
- www.cracklab.ru
- community.reverse-engineering.…
- video.reverse-engineering.net
- SnD
- 클레이 키위
- reversengineering.wordpress.co…
- www.openrce.org
- www.woodmann.com
- PEID.Plusins.BobSoft
- roxik.com/pictaps/
- regexlib.com
- spyware-browser.com
- www.usboffice.kr
- regulator
- www.txt2re.com
- ietab.mozdev.org
- zesrever.xstone.org
- www.heaventools.com/PE-file-he…
- www.heaventools.com
- www.innomp3.com
- 울지않는벌새
- exetools.com-forum
- exetools.com
- utf8 conv
- robtex - IP trace
- onsamehost - same IP sites
- JpopSuki
- jsunpack.jeek.org
- wepawet.iseclab.org
- www.jswiff.com
- www.hackeroo.com
- winesearcher.co.kr
- khpga.org
- malwareurl.com
- anubis.iseclab.org
- www.crummy.com-eautifulSoup
- malwarebytes.org/forums
- bbs.janmeng.com
- blackip.ustc.edu.cn
- eureka.cyber-ta.org
- exploit-db.com
TAG
- 다올저축은행
- hai
- 맥쿼리인프라
- 레고랜드
- 전세매매지수
- 미국주식
- 피봇
- ROA
- PIR
- 주택구매력지수
- 주식트래이딩
- SBI저축은행
- 주식
- ubuntu
- ChatGPT
- INVOICE
- ElasticSearch
- 공공인프라
- 시스템트래이딩
- 사회간접자본
- 신한저축은행
- 군함도
- logrotate
- 매매가격지수
- Pivot
- 실시간트래이딩
- O365
- systemd
- 자동트래이딩
- CriticalSection
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
글 보관함