English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية

Pythonスパイダー:キーワードで百度画像を爬取する方法

ツールを使用:Python2.7 ここをクリックしてダウンロード

scrapyフレームワーク

sublime text3

一。python(Windowsバージョン)の構築

 1.pythonをインストールします。2.7 ---その後cmdでpythonを入力し、以下の画面が表示された場合はインストールが成功しました

 2.Scrapyフレームワークを統合します。----コマンドラインに以下のコマンドを入力します:pip install Scrapy

インストール成功の画面は以下の通りです:

失敗の例は多くありますが、1つの例を示します:

解決策:

その他のエラーは百度検索で検索してください。

二。プログラミングを開始します。

1.クロール対策がない静的ウェブサイトを爬取します。例えば百度贴吧、豆瓣读书。

例えば-《デスクトップバー》の1つのスレッドhttps://tieba.baidu.com/p/2460150866?red_tag=3569129009

pythonコードは以下の通りです:

コードコメント:urllib、reの2つのモジュールを導入しました。2つの関数を定義しました。1つ目の関数は、ターゲットウェブページのデータ全体を取得し、2つ目の関数はターゲットウェブページ内でターゲット画像を取得し、ウェブページを巡回し、取得した画像を0からソートします。

注:reモジュールの知識点:

爬取画像の効果図:

画像の保存パスはデフォルトで作成された.pyの同じディレクトリのファイルに設定されています。

2.爬取には反爬虫対策がある百度画像などの画像を爬取します。

例えば、キーワード検索「表情包」https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B1%ED%C7%E9%B0%FC&fr=ala&ori_query=%E8%A1%A8%E6%83%85%E5%8C%85&ala=0&alatpl=sp&pos=0&hs=2&xthttps=111111

画像はスクロール式で読み込まれ、最も優先される画像を最初に爬取します。30件。

以下のコード:

コードコメント:インポート4モジュールが、osモジュールを使用して保存パスを指定します。最初の2つの関数は同じです。3番目の関数ではif文を使用し、tryException例外を使用します。

爬取プロセスは以下の通りです:

爬取結果:

注:Pythonコードの書き方では、アンダースコアを使用してインデントを指定し、タブとスペースを混用しないことが重要です。エラーが発生しやすいです。

これでこの記事はすべて終わりです。この記事の内容が皆さんの学習や仕事に少しでも役立つことを願っています。また、ナイアラ教程を多くのサポートをください!

声明:この記事の内容はインターネットから取得しており、著作権者はすべて持ち主であり、インターネットユーザーによって自発的に提供され、アップロードされています。このサイトは所有権を持ちません。また、人工的な編集は行われていません。著作権侵害が疑われる場合は、メールでnotice#wまでお知らせください。3codebox.com(メールを送信する際、#を@に置き換えてください。通報を提供し、関連証拠を含めると、侵害された内容が確認されると、このサイトはすぐに削除します。

おすすめ