python

lolipopのSSHでwebスクレイピングを試す

ようやくやりたいとこまで来たな…というところです。

Python Webスクレイピング 実践入門を参考に、でもPython3に対応させつつ実践してみます。

まずはSSHにログインしたあと、pythonコマンドをうちます。

python3

Python3 系でウェブスクレイピングを行う

Python3 系でウェブスクレイピングを行うときは

import urllib.request, urllib.error

とインポートする。import urllib2は Python2 系で Python3では使用できないぽい。
参考:Python3系でurllib2は使えない:代わりにurllib.requestとurllib.errorを使う

タイトルタグとタイトルを取得する

import urllib.request, urllib.error
from bs4 import BeautifulSoup

url = 'https://www.mathpython.com/'
html = urllib.request.urlopen(url=url)

soup = BeautifulSoup(html, "html.parser")
# タイトル要素を取得する → <title>日本経済新聞</title>
title_tag = soup.title

# 要素の文字列を取得する → 日本経済新聞
title = title_tag.string

# タイトル要素を出力
print(title_tag)

# タイトルを文字列を出力
print(title)

これでタイトルタグとタイトルがそれぞれ返ってきました。

# タイトル要素を出力
print(title_tag)

<title>日本経済新聞</title>

# タイトルを文字列を出力
print(title)

日本経済新聞

タイトルの文字列print(title)はprint(soup.title.string)でも取得できました。

  • この記事を書いた人

ゆず

■忘れないように自分の覚書と、誰かも困っているかもしれないので参考になればいいなくらいの軽い備忘録です。
■サイト運営費のためGoogleAdsenseをいれています。
gifteeを贈る / コーヒーをおごる / mail

1

outlookを最小化すると勝手に終了してしまう outlookを最小化すると勝手に終了してしまうと相談されたけど実はそれ勝手に閉じてるわけじゃなくて、おそらく「最小化時にアイコン化する設定」になって ...

2

前提 自分用ブックマークサイトとして使用しているてがろぐに、いいねボタンをつけようという狙いです。なので、てがろぐのセットアップは終了し稼働しているものとします。 配布ページのマニュアルを参考に進めま ...

3

感想をもっと手軽に、お気軽に。 https://labo.01kawa.com/kansou 同人イベントやSNSで大好きな作家さんの作品に感動したとき、「感想送りたいな!」って思うけど、言葉に詰まっ ...

-python