scrapy
スクレイピー(サードパーティライブラリ)
意味 Webサイトから情報を抽出
scrapyとは?
Scrapyは、Webサイトから大量のデータを自動的に収集するためのフレームワークです。クローラーと呼ばれるプログラムを作成して、Webサイトを巡回し、必要な情報を抽出します。
scrapyの具体的な使い方
Scrapyを使用したシンプルなウェブスクレイピング
import scrapy
class QuoteSpider(scrapy.Spider):
name = 'quotes'
start_urls = ['http://quotes.toscrape.com/']
def parse(self, response):
for quote in response.css('div.quote'):
yield {
'text': quote.css('span.text::text').get(),
'author': quote.css('small.author::text').get(),
'tags': quote.css('div.tags a.tag::text').getall(),
}
next_page = response.css('li.next a::attr(href)').get()
if next_page is not None:
yield response.follow(next_page, self.parse)
# スパイダーを実行するには、コマンドラインで以下を実行します:
# scrapy runspider quote_spider.py -o quotes.json
👇出力結果
実行結果はquotes.jsonファイルに保存されます。ファイルには抽出された引用、著者、タグのリストが含まれます。
この例では、Scrapyを使用して引用文のウェブサイト(http://quotes.toscrape.com/)から引用、著者、タグを抽出しています。スパイダーは複数のページを巡回し、結果をJSONファイルに保存します。
scrapyに関するよくある質問
Pythonのscrapyについても学べる書籍の紹介
「プログラミング単語帳」を使って、プログラミングの単語を英単語のように学習してみませんか?
プログラミング単語帳には、Pythonのscrapyやbokeh、setuptools、networkx、などのような実務でよく使われる単語が数百以上収録されています。
この書籍には、プログラミングの単語の意味や読み方、単語の使い方がわかる例文などが掲載されており、いつでもどこでもプログラミングの学習ができます。
よく使われる単語にだけ絞って学習することができるので、効率的にプログラミングが学習できます。
HTML編、CSS編、JavaScript編、PHP編、Ruby編、その他単語編の6シリーズ分が公式ストアにて販売中です。気になった方はぜひ購入してみてください。
Pythonを学べる「プログラミング単語帳」アプリ
プログラミング単語帳がアプリになりました!Pythonはもちろん、10種類のプログラミング言語の中から、よく使われる単語をスマホで学習できます。
収録単語は2,000単語以上!
現在は、HTML、CSS、JavaScirpt、PHP、Laravel、Ruby、Python、MySQL、Linux、など10カテゴリーの単語帳が1つのアプリに収録されています。
いつでも、どこでも、隙間時間を有効活用して、プログラミングを効率的に学べるので、ぜひダウンロードしてみてください。
2024年7月アップデート情報:「Laravel」カテゴリーが追加されましました!
2024年8月アップデート情報:「MySQL」「Linux」カテゴリーが追加されましました!