MENU
  • ホーム
  • プログラミング
  • ワードプレス
    • プラグインプラグイン関連記事
    • 賢威賢威のカスタマイズ
    • CSSCSSの関連記事
  • サイト情報
    • プライバシーポリシー
  • ツール
    • メルエディター
    • フリマスパイダー – 疾風
    • フリマスパイダー
    • -ポイ活くんα-
  • お問い合わせ
あらゆるモノにHackする、探究者の読み物。
Let's Hack Tech
  • ホーム
  • プログラミング
  • ワードプレス
    • プラグインプラグイン関連記事
    • 賢威賢威のカスタマイズ
    • CSSCSSの関連記事
  • サイト情報
    • プライバシーポリシー
  • ツール
    • メルエディター
    • フリマスパイダー – 疾風
    • フリマスパイダー
    • -ポイ活くんα-
  • お問い合わせ
Let's Hack Tech
  • ホーム
  • プログラミング
  • ワードプレス
    • プラグインプラグイン関連記事
    • 賢威賢威のカスタマイズ
    • CSSCSSの関連記事
  • サイト情報
    • プライバシーポリシー
  • ツール
    • メルエディター
    • フリマスパイダー – 疾風
    • フリマスパイダー
    • -ポイ活くんα-
  • お問い合わせ
  1. ホーム
  2. プログラミング
  3. 言語別
  4. Python
  5. 【Pythonスクレイピング入門】Chromeデベロッパツールで抜き出したいHTMLを解析する方法

【Pythonスクレイピング入門】Chromeデベロッパツールで抜き出したいHTMLを解析する方法

2020 7/22
Python
2019-01-092020-07-22
目次

事前準備

Let's Hack Tech
【Pythonスクレイピング入門】Requestsモジュールを使ったHTTPリクエスト | Let's Hack Tech 必要なもの requests Pythonスクレイピングライブラリはいくつかあり、標準でもurllibというのが搭載されています。とりあえず手軽なこともあり、標準のurllibよりrequests...

requestsでヤフーのトップページにGETリクエストを送ってレスポンスを取得できたと思います。

import requests

url='https://www.yahoo.co.jp'
res=requests.get(url)

ここまでですね。この3行でresという変数がレスポンスのオブジェクトを持っています。

今回はレスポンスの本体部分を解析し、必要な情報を抜き出すためのセレクタを取得します。

必要なもの

  • Google Chrome

別にChromeでなくても最近のブラウザは大体デベロッパツールついているのですが、僕が使ってるので、今回はこれで行きます。

解析

WEB上からほしい情報を持ってくるためには、ほしい情報がどのようなHTML構造になっているか知る必要があります。

今回はヤフートップのニューストピックスをターゲットとします。

Chromeデベロッパーツール

基本的に簡単なスクレイピングであればこれだけ使えれば、大体わかります。クロームで目的のページを開いて、F12キーで起動できます。

窓が立ち上がります。

ここをみながらターゲットとするHTMLをどう指定すればいいかを考えます。

今回はめんど
ではなく、使いまわす必要がないため特定のHEML箇所を一発で指定する方法を紹介します。

CSSセレクタをコピー

目的の箇所付近にマウスを合わせて右クリック→コンテキストメニューから「検証」を選択。

そうすると目的の箇所がデベロッパツール上で選択された状態になります。

そのHTMLの行にマウスオーバーするとトピックスの箇所もブルーでハイライトされた状態になります。

目的のHTMLの記述された行の上でさらに右クリック→Copyを選択

出てきたサブメニューの中から”Copy selector”を選択すると・・・

#topicsfb > div.topicsindex > ul.emphasis

こんな感じでクリップボードにコピーされます。

まとめ

今回は解析なので3行コピペありません。

次の記事

Let's Hack Tech
【Pythonスクレイピング入門】bs4(BeautifulSoup)をインストール | Let's Hack Tech 事前準備 requestsでヤフーのトップページにGETリクエストを送ってレスポンスを取得。res変数にhttpレスポンス格納済みです。 import requests url='https://www.yahoo.co....
Python
Chrome requests スクレイピング デベロッパツール
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする コメントをキャンセル

email confirm*

post date*

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

シンプル美と機能性を両立させた、国内最高峰のWordPressテーマ『SWELL』
人気記事
  • IQテストいくつか受けてみました
    ネット上で信憑性がありそうなIQテスト、5種類まとめて受けた結果…
  • hayate
    メルカリの商品を世界最速で購入するためだけのアラートツール
  • 【Python】BeautifulSoupの使い方・基本メソッド一覧|スクレイピング
  • Pythonファイルのexe化
    【悲報】PyInstallerさん、300MBのexeファイルを吐き出すようになる
  • Amazon Echo アレクサのコマンドまとめ
    AmazonEchoの使い方とできる事、アレクサへの指示コマンド一覧
最近の投稿
  • 正規表現処理の濁点でハマった話2024-12-12
  • 保護中: 疾風v2更新履歴2024-05-31
  • 【自営・経営者向け・税金も】クレジットカードガチ勢による最強クレカ解説2023-10-23
  • PyQt5 QListWidget の item削除でtextBoxのフォーカスが奪われる2023-03-05
  • WordPressからのメールが届かない時の調査と解決法2023-02-27
目次
目次