「スクレイピングが禁止されているかどうか、確認する方法を知りたい。」
「そもそも、スクレイピングって違法行為じゃないの?」
上記の疑問にお答えします。
この記事では、スクレイピングをする前に確認すべきことを具体的にお伝えします。
この記事を読めば「このサイト、スクレイピングしてもいいのかな。」と思っている方が、スクレイピングするか否かの判断ができるようになります。
具体的には次のことについて解説します。
- スクレイピングをする前に確認すること
- スクレイピングの違法性について
- 著作権とスクレイピング
- スクレイピング禁止と判断できるサイト
「偉そうに語るおまえは誰やねん。」と思われるので、私のことも少し紹介させてください。
たいらーのプロフィール
- 文系四大出身。ソフトウェア開発の経験はなしですが、IT業界に身を置いています。
- 開発者やユーザーとのパイプ役など、業務にプログラミングスキルを活かす。
- Pythonは独学で習得。スクレイピングや作業の自動化などに勤しんでいます。
スクレイピングは便利な技術ですが、使い方次第では問題になることがあります。
実際に事件に発展したケースもあり、スクレイピングは違法行為との印象をもっている方も少なくないでしょう。
そのような誤解に対しても、この記事では解説していますので、正しい知識を身につけ、スクレイピングを上手に活用してください。
1.スクレイピングをする前に確認すること
対象のWebサイトのスクレイピングがOKなのかNGなのか、実施する前に次の3つは確認するようにしましょう。
- WebAPIの有無
- Robots.txtの確認
- 利用規約の確認
それぞれ解説します。
・WebAPIの有無
スクレイピングのOK/NGよりも前段階の話になりますが、対象のWebサイトやWebサービスがAPIを提供しているかどうか、まず調べてみてください。
APIを提供している場合は、第三者への情報提供を公式に許可しているわけなので、スクレイピングよりも安全に情報収集することができます。
ただし、APIの利用が有料の場合や、利用制限がある場合があるので、スクレイピングとAPIのどちらを使うかは、ケースバイケースです。よく検討しましょう。
・robots.txtの確認
スクレイピングが禁止されているかを確認する方法として、分かりやすいのはrobots.txtを確認する方法です。
robots.txtとは、クローラーに対して、どのURLにアクセスを許可するか、禁止するかを記述しているファイルです。
robots.txtを設置しているWebサイトであれば、「WebサイトのURL+robots.txt」で確認することができます。
robots.txtの確認方法
実際に「WebサイトのURL+robots.txt」を入力して確認してみましょう。
例えばAmazonの場合は、「https://www.amazon.co.jp/robots.txt」で確認することができます。
robots.txtに記述されている項目は、いろいろありますが、主要なものを簡単にまとめます。
項目 | 説明 |
---|---|
User-agent | 対象となるクローラーの種類。「*」はすべての種類のクローラーを対象とする。 |
Disallow | クロールを禁止するパス。「Disallow:」以降に何も記述がない場合は、すべてのファイルのクロールを許可する。 |
Allow | クロールを許可するパス。Disallowでアクセスを禁止したパスの一部を許可するために使用する。 |
Sitemap | XMLサイトマップのURL。 |
AllowやDisallowの優先順位は、より限定している方が優先されます。
またまたAmazonを例にすると、次のパスに関しては、より限定しているAllowが優先されます。
Disallow: /wishlist/ Allow: /wishlist/universal
robots.txtの記述について、詳しく知りたい方はGoogleの公式サイトが参考になるので、ご覧ください。
・利用規約の確認
会員制のWebサイトをスクレイピングする場合は、利用規約を確認するようにしましょう。
特に会員制Webサイト内で、会員限定で公開されている情報をスクレイピングしたい場合は注意が必要です。
次の条件下でスクレイピングをすると、違法になる可能性が高くなります。
- 会員登録等で利用規約に同意するかたちで、サービスを利用するWebサイト
- 利用規約などで、スクレイピングを禁止している
- Webサイトにログインしてスクレイピングする
利用規約では、直接的にスクレイピング禁止を明記してない場合もあります。
たとえば「自動で情報収集する行為」などと明記されていることがあるので、利用規約は一通り読むことをおすすめします。
2.スクレイピングの違法性について
「WebAPIの有無」、「robots.txtの確認」、「利用規約の確認」と、スクレイピングをする前に確認すべきことを3点ほど説明しました。
この3点を確認するだけでも、対象のWebサイトがスクレイピング禁止か否かが分かるので、問題に発展するリスクを抑えることができます。
それでも、スクレイピングに対して後ろ暗い気持ちを持っている方もいると思うので、そもそもスクレイピングは違法なのかについて考えていきたいと思います。
いくつか事例を見つつ、考えていきます。
・岡崎市立中央図書館事件
スクレイピングで事件になったもので、よく知られているのは「岡崎市立中央図書館事件」です。
岡崎市立中央図書館事件とは、愛知県にある岡崎市立図書館の蔵書検索システムに対して、ある男性が自作のクローラーを使い、図書情報をスクレイピングした結果、システム障害が発生し、スクレイピングを行っていた男性が逮捕された事件です。
偽計業務妨害の容疑で逮捕されましたが、本人に業務の妨害する意図はないことが判明し、最終的には不起訴処分になっています。
このことから分かるのは、「スクレイピングした結果、法に触れることがある。」ということと、「違法なのは、スクレイピングがもたらした結果であって、スクレイピング自体は違法ではない。」ということです。
スクレイピングはあくまで技術・道具なので、良し悪しは人や組織の倫理観などに委ねられています。
・総務省のウェブスクレイピング活用
「スクレイピングは違法なんじゃないの?」と思う方にとっては、驚きの内容かもしれませんが、国もスクレイピングを活用しています。
具体的には、「消費者物価指数 (CPI)」の測定にスクレイピングを活用しています。
※総務省『消費者物価指数 (CPI) へのウェブスクレイピングの活用について』を参照。
国が利用しているくらいなので、スクレイピング自体に違法性がないことはこれで明白です。
ただ、国も法律違反はしないように、スクレイピングの活用には慎重に検討しているようで、留意点と見解を次のように示しています。
スクレイピングに対する考え方の参考になるので、見ていきます。
※出典:総務省『消費者物価指数 (CPI) へのウェブスクレイピングの活用について,p13』
(a)は著作権についての見解です。
「消費者物価指数 (CPI)」の測定では、「価格」や「商品名」などは、著作権法第2条第1項第1号で定義されている著作物にあたらないのでOKと判断しています。
著作権の話が出てきましたが、文学や芸術など作品が著作物にあたるというのは、なんとなく理解できます。
ただ、スクレイピングをする側としては、「著作権を侵害するケースはあるの?」という疑問が湧くと思います。
著作権については、Webサイトの利用規約でも記述をよく目にするので、次の項目で著作権とスクレイピングについて考えてみたいと思います。
(b)は利用規約の法的拘束力についての見解です。
前出の「利用規約の確認」で触れましたが、会員登録などを通して、利用者との合意を条件にサービス提供している場合は法的な拘束力が発生します。
ただ、利用者に制限をかけずにサービスを提供しているWebサイトは、当事者間での合意が成立しているとはいえず、法的な拘束力が働くとまではいえないと国は結論付けています。
要は、情報を無料公開しているWebサイトなど、サービス提供に制限のないWebサイトのスクレイピングは、例え利用規約にスクレイピング禁止の記載があっても、違法とまでは言えないようです。
(c)は業務妨害の可能性についての見解です。
これも前出の岡崎市立中央図書館事件のように、Dos攻撃など、意図的に業務を妨害しているとみなされる場合があると指摘しています。
私たちも、この点は十分に注意する必要があります。サーバーアクセスの頻度や間隔を加減するなど、サーバー負荷への配慮が重要です。
以上、スクレイピングの違法性について見てきました。
国も法に触れないよう注意すれば、スクレイピング自体は問題ないと判断していることがお分かり頂けたと思います。
ここまでで、何がOKで何がNGなのか、だいぶ見えたと思うので整理します。
- 前提として、スクレイピングをすること自体に違法性はない
- robots.txtでアクセス禁止のURLをスクレイピングするのはNG
- 同意した利用規約がスクレイピング禁止の場合、スクレイピングが問題になる可能性あり
- Dos攻撃と判断されるような、スクレイピングの仕方はNG
3.著作権とスクレイピング
国も気にしていた著作権侵害について、ここで考えておきたいと思います。
著作権とは、思想や感情が表現したもの(=著作物)に対して、それを独占できる権利です。
Webサイトにもよりますが、基本的にWebサイトは運営者の創造物なので、Webサイトも著作権があると考えるのが普通です。そのため、利用する場合は原則として著作権者の同意を得ないと著作権侵害になります。
「スクレイピングするのに、常に同意を得るのは大変…」と思われるかもしれませんが、そこは法律も現実的ではないと考えているようで、著作物の利用について、いくつか例外を設けています。
スクレイピングに関係する著作権法の条項を以下に引用します。
(著作物に表現された思想又は感情の享受を目的としない利用)
第三十条の四 著作物は、次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りでない。
一 著作物の録音、録画その他の利用に係る技術の開発又は実用化のための試験の用に供する場合
二 情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の解析を行うことをいう。第四十七条の五第一項第二号において同じ。)の用に供する場合
三 前二号に掲げる場合のほか、著作物の表現についての人の知覚による認識を伴うことなく当該著作物を電子計算機による情報処理の過程における利用その他の利用(プログラムの著作物にあつては、当該著作物の電子計算機における実行を除く。)に供する場合出典:e-GOV法令検索『著作権法(昭和四十五年法律第四十八号)』
第三十条の四の二にあるように、情報を解析することは、著作物に表現された思想又は感情の享受する行為には当たらないとしています。
なので、情報解析が目的であれば、著作者の同意がなくても、取得した情報を記録し、加工や分析することはOKということです。
余談ですが、著作権法は、AI開発やビックデータ活用といった時代のニーズに応えるかたちで平成30年に改正されました。
今後も時代の要求と共に改正されることが考えられるので、スクレイピングする方は定期的に情報をチェックしましょう。
4.スクレイピング禁止と判断できるサイト
2024年1月時点で、スクレイピング禁止と判断できるサイトをいくつか紹介します。
サイト名 | 理由 | 参考 |
---|---|---|
Amazon | 利用規約上で「ロボットによるデータ収集」をお客様への許諾に含まないと明記。 | Amazon.co.jp利用規約 |
楽天市場 | 利用規約上でロボットなど自動化された手段で購入、情報取得することを禁止することを明記。 | 楽天ショッピングサービスご利用規約 |
YouTube | 利用規約上で、自動化された手段(ロボット、ボットネット、スクレーパなど)でアクセスすることを禁止している。ただし、「robots.txt ファイルに従って使用」、「事前に書面で許可」した場合は例外としている。 | YouTubeの利用規約 |
サイトの多くは、利用規約で行動を縛っている印象ですので、利用規約は必ず確認するようにしましょう。
5.まとめ
以上、スクレイピング禁止サイトの確認方法について解説しました。
最後にポイントをまとめると、スクレイピングをする前にすべきことは、
- WebAPIの有無
- Robots.txtの確認
- 利用規約の確認
の3点でした。
そして、スクレイピング自体に違法性はないですが、法律に違反しないためにも、
- robots.txtでアクセス禁止のURLはスクレイピングをしない
- 利用規約に同意したWebサイトはスクレイピングをしない
- スクレイピングで頻繁にサーバーアクセスはしない
- 情報解析以外の目的でスクレイピングをしない
の4点は最低限、守るようにしましょう。
この記事で登場する法律は、今後改定される可能性ががあるので、適時ご自身でも確認するようにしてください。
本サイトでも最新情報をお届けするように努めます。
これまでスクレイピングにブラックなイメージを持たれていた方も、この記事の内容を頭に入れておけば、リスクを抑えつつ、スクレイピングをすることができます。
これまでスクレイピングの習得に躊躇していた方は『スクレイピングのやり方&学習方法教えます【プログラミング未経験からできる】』をご覧ください。
スクレイピングも様々なアプローチがあるので参考になると思います。これを機にぜひ仕事や趣味にスクレイピングを活用してみてください。
ご清聴ありがとうございました。