有料プロキシ購入してスクレイピングする方法と結果

Python, サーバー, プログラミング

スクレイピングを連続してやると拒否されるので、有料プロキシ通してやれば大丈夫では?と考えて、使い方もよくわからないのにとりあえず購入して、なんとなく使用してみました。

その方法と、結果について紹介します。

プロキシとは

普通にネットを使っているだけではそれほど目にすることもない単語だと思います。プロキシとは「代理」するサーバーのことで、あるサイトにアクセスする際、通常だと自分のIPアドレスが相手サイトに通知されますが、プロキシを設定していると、プロキシサーバーのIPアドレスが通知され身元がすぐにはわからなくなります。

また、企業ではプロキシを外部ネットと車内ネットの間に入れて使っていたりします。これにより、社外サイトアクセスした場合に会社のIPアドレスがそのままでるのを防止したり、プロキシで不正なアクセスを弾いたりしています。

今回のプロキシの使用目的

今回はスクレイピング時にプロキシを通すことで、IPアドレスによるアクセス制限を回避しようと考えました。

結果として、今回購入したプロキシでは該当サイトへのアクセスがIPアドレス制限で禁止されており全く使い物になりませんでした。

ただ、プロキシの使い方自体は応用が効くと思うのでメモです。

プロキシの購入方法&使い方

とりあえずお試しということで、ネット検索で出てきた「Luminati」と「PROXY6.net」で一番安いプランを契約してみました。paypalで入金して、購入するパターンです。

Luminati

今回はDataCenterのSharedを購入しました。Zone名をクリックするとUsernameやPasswordが出てきます。

実際の使い方は、左メニューのAPIをクリックすると各言語で使用するためのサンプルコードが出てきます。サンプルコード内にID、PASSWORDが含まれているので注意が必要。

あとはChromeであれば、ワンクリックでプロキシを有効化できるChrome拡張があるのでインストールしておくとアクセスできないときの切り分けに、プロキシのお試しができます。

Chrome拡張でプロキシをONした状態でスクレイピングしたいサイトにアクセスしたらIP制限がかかっており、何もできなかったです。

PROXY6.net

こちらはIPv6なら3日から低価格で使えるという触れ込みだったので、とりあえず一番安いIPv6を3日分購入しました。

アカウント作って、paypalから入金したらすぐに購入可能です。

こんな感じで購入したプロキシ情報が表示されます。プログラミング言語から使うときはLuminatiで出したサンプルコードに上記で表示されているPROXY6.netの情報を上書きしてやれば使えると思います。

ちょっとお試しで使ってみたい場合は、Chrome拡張の「Falcon Proxy」を使って、上記に表示される情報を打ち込むと繋がります。IDとPASSは各ページを開こうとすると入力を求められるので、そこでいれれば使えました。

ただ、今回購入したのはIPv6であったため、ほとんどのサイトは開けませんでした。GoogleはIPv6対応だったのでかろうじて検索はできたのですが、そのさきは…。スクレイピング対象サイトも例外なく開けませんでした。

最後に

結局実使用には耐えられませんでしたが、プロキシの購入と基本的な使い方(Chrome拡張/Python)を理解し、実際に稼働させることができたので勉強的な意味合いでは○でした。

プロキシについて購入の仕方を紹介しているページはありますが、実際にどうやって使うのかまで説明されたページがあまりなかったので、使おうと思っている方の参考になればと思います。