スクレイピング禁止サイトの確認方法【NG行為・違法性も解説】

禁止する男性(赤)Python
スポンサーリンク
スポンサーリンク

「スクレイピングが禁止されているかどうか、確認する方法を知りたい。」

「そもそも、スクレイピングって違法行為じゃないの?」

上記の疑問にお答えします。

この記事では、スクレイピングをする前に確認すべきことを具体的にお伝えします。

この記事を読めば「このサイト、スクレイピングしてもいいのかな。」と思っている方が、スクレイピングするか否かの判断ができるようになります。

 

具体的には次のことについて解説します。

  • スクレイピングをする前に確認すること
  • スクレイピングの違法性について
  • 著作権とスクレイピング

 

「偉そうに語るおまえは誰やねん。」と思われるので、私のことも少し。

私のプログラミング歴は約5年で、本職での開発経験はありませんが、一応、IT業界に身を置いています。

今でもPythonなど、独学でプログラミングを勉強しつつ、そのスキルを活かして仕事の効率化を図ったり、ゲームをつくったりしています。

スクレイピングは便利な技術ですが、使い方次第では問題になることがあります。

実際に事件に発展したケースもあり、スクレイピングは違法行為との印象をもっている方も少なくないでしょう。

そのような誤解に対しても、この記事では解説していますので、正しい知識を身につけ、スクレイピングを上手に活用してください。

 

 

1.スクレイピングをする前に確認すること

対象のWebサイトのスクレイピングがOKなのかNGなのか、実施する前に次の3つは確認するようにしましょう。

  • WebAPIの有無
  • Robots.txtの確認
  • 利用規約の確認

それぞれ解説します。

 

・WebAPIの有無

スクレイピングのOK/NGよりも前段階の話になりますが、対象のWebサイトやWebサービスがAPIを提供しているかどうか、まず調べてみてください。

APIを提供している場合は、第三者への情報提供を公式に許可しているわけなので、スクレイピングよりも安全に情報収集することができます。

ただし、APIの利用が有料の場合や、利用制限がある場合があるので、スクレイピングとAPIのどちらを使うかは、ケースバイケースです。よく検討しましょう。

 

・robots.txtの確認

スクレイピングが禁止されているかを確認する方法として、分かりやすいのはrobots.txtを確認する方法です。
robots.txtとは、クローラーに対して、どのURLにアクセスを許可するか、禁止するかを記述しているファイルです。

robots.txtを設置しているWebサイトであれば、「WebサイトのURL+robots.txt」で確認することができます。

 

robots.txtの確認方法

実際に「WebサイトのURL+robots.txt」を入力して確認してみましょう。

例えばAmazonの場合は、「https://www.amazon.co.jp/robots.txt」で確認することができます。

robots.txtに記述されている項目は、いろいろありますが、主要なものを簡単にまとめます。

項目説明
User-agent対象となるクローラーの種類。「*」はすべての種類のクローラーを対象とする。
Disallowクロールを禁止するパス。「Disallow:」以降に何も記述がない場合は、すべてのファイルのクロールを許可する。
Allowクロールを許可するパス。Disallowでアクセスを禁止したパスの一部を許可するために使用する。
SitemapXMLサイトマップのURL。

 

AllowやDisallowの優先順位は、より限定している方が優先されます。

またまたAmazonを例にすると、次のパスに関しては、より限定しているAllowが優先されます。

Disallow: /wishlist/
Allow: /wishlist/universal

robots.txtの記述について、詳しく知りたい方はGoogleの公式サイトが参考になるので、ご覧ください。

Google公式ドキュメント

 

・利用規約の確認

会員制のWebサイトをスクレイピングする場合は、利用規約を確認するようにしましょう。

特に会員制Webサイト内で、会員限定で公開されている情報をスクレイピングしたい場合は注意が必要です。

次の条件下でスクレイピングをすると、違法になる可能性が高くなります。

  • 会員登録等で利用規約に同意するかたちで、サービスを利用するWebサイト
  • 利用規約などで、スクレイピングを禁止している
  • Webサイトにログインしてスクレイピングする

 

利用規約では、直接的にスクレイピング禁止を明記してない場合もあります。

たとえば「自動で情報収集する行為」などと明記されていることがあるので、利用規約は一通り読むことをおすすめします。

 

2.スクレイピングの違法性について

「WebAPIの有無」、「robots.txtの確認」、「利用規約の確認」と、スクレイピングをする前に確認すべきことを3点ほど説明しました。

この3点を確認するだけでも、対象のWebサイトがスクレイピング禁止か否かが分かるので、問題に発展するリスクを抑えることができます。

それでも、スクレイピングに対して後ろ暗い気持ちを持っている方もいると思うので、そもそもスクレイピングは違法なのかについて考えていきたいと思います。

いくつか事例を見つつ、考えていきます。

 

・岡崎市立中央図書館事件

スクレイピングで事件になったもので、よく知られているのは「岡崎市立中央図書館事件」です。

岡崎市立中央図書館事件とは、愛知県にある岡崎市立図書館の蔵書検索システムに対して、ある男性が自作のクローラーを使い、図書情報をスクレイピングした結果、システム障害が発生し、スクレイピングを行っていた男性が逮捕された事件です。

偽計業務妨害の容疑で逮捕されましたが、本人に業務の妨害する意図はないことが判明し、最終的には不起訴処分になっています。

このことから分かるのは、「スクレイピングした結果、法に触れることがある。」ということと、「違法なのは、スクレイピングがもたらした結果であって、スクレイピング自体は違法ではない。」ということです。

スクレイピングはあくまで技術・道具なので、良し悪しは人や組織の倫理観などに委ねられています。

 

・総務省のウェブスクレイピング活用

「スクレイピングは違法なんじゃないの?」と思う方にとっては、驚きの内容かもしれませんが、国もスクレイピングを活用しています。

具体的には、「消費者物価指数 (CPI)」の測定にスクレイピングを活用しています。

※総務省『消費者物価指数 (CPI) へのウェブスクレイピングの活用について』を参照。

 

国が利用しているくらいなので、スクレイピング自体に違法性がないことはこれで明白です。

ただ、国も法律違反はしないように、スクレイピングの活用には慎重に検討しているようで、留意点と見解を次のように示しています。

スクレイピングに対する考え方の参考になるので、見ていきます。

総務省資料『消費者物価指数 (CPI)』

※出典:総務省『消費者物価指数 (CPI) へのウェブスクレイピングの活用について,p13

 

(a)は著作権についての見解です。

「消費者物価指数 (CPI)」の測定では、「価格」や「商品名」などは、著作権法第2条第1項第1号で定義されている著作物にあたらないのでOKと判断しています。

著作権の話が出てきましたが、文学や芸術など作品が著作物にあたるというのは、なんとなく理解できます。

ただ、スクレイピングをする側としては、「著作権を侵害するケースはあるの?」という疑問が湧くと思います。

著作権については、Webサイトの利用規約でも記述をよく目にするので、次の項目で著作権とスクレイピングについて考えてみたいと思います。

 

(b)は利用規約の法的拘束力についての見解です。

前出の「利用規約の確認」で触れましたが、会員登録などを通して、利用者との合意を条件にサービス提供している場合は法的な拘束力が発生します。

ただ、利用者に制限をかけずにサービスを提供しているWebサイトは、当事者間での合意が成立しているとはいえず、法的な拘束力が働くとまではいえないと国は結論付けています。

要は、情報を無料公開しているWebサイトなど、サービス提供に制限のないWebサイトのスクレイピングは、例え利用規約にスクレイピング禁止の記載があっても、違法とまでは言えないようです。

 

(c)は業務妨害の可能性についての見解です。

これも前出の岡崎市立中央図書館事件のように、Dos攻撃など、意図的に業務を妨害しているとみなされる場合があると指摘しています。

私たちも、この点は十分に注意する必要があります。サーバーアクセスの頻度や間隔を加減するなど、サーバー負荷への配慮が重要です。

 

以上、スクレイピングの違法性について見てきました。

国も法に触れないよう注意すれば、スクレイピング自体は問題ないと判断していることがお分かり頂けたと思います。

ここまでで、何がOKで何がNGなのか、だいぶ見えたと思うので整理します。

  • 前提として、スクレイピングをすること自体に違法性はない
  • robots.txtでアクセス禁止のURLをスクレイピングするのはNG
  • 同意した利用規約がスクレイピング禁止の場合、スクレイピングが問題になる可能性あり
  • Dos攻撃と判断されるような、スクレイピングの仕方はNG

 

3.著作権とスクレイピング

国も気にしていた著作権侵害について、ここで考えておきたいと思います。

 

著作権とは、思想や感情が表現したもの(=著作物)に対して、それを独占できる権利です。

Webサイトにもよりますが、基本的にWebサイトは運営者の創造物なので、Webサイトも著作権があると考えるのが普通です。そのため、利用する場合は原則として著作権者の同意を得ないと著作権侵害になります。

「スクレイピングするのに、常に同意を得るのは大変…」と思われるかもしれませんが、そこは法律も現実的ではないと考えているようで、著作物の利用について、いくつか例外を設けています。

スクレイピングに関係する著作権法の条項を以下に引用します。

(著作物に表現された思想又は感情の享受を目的としない利用)
第三十条の四 著作物は、次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りでない。
一 著作物の録音、録画その他の利用に係る技術の開発又は実用化のための試験の用に供する場合
二 情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の解析を行うことをいう。第四十七条の五第一項第二号において同じ。)の用に供する場合
三 前二号に掲げる場合のほか、著作物の表現についての人の知覚による認識を伴うことなく当該著作物を電子計算機による情報処理の過程における利用その他の利用(プログラムの著作物にあつては、当該著作物の電子計算機における実行を除く。)に供する場合

出典:e-GOV法令検索『著作権法(昭和四十五年法律第四十八号)

 

第三十条の四の二にあるように、情報を解析することは、著作物に表現された思想又は感情の享受する行為には当たらないとしています。

なので、情報解析が目的であれば、著作者の同意がなくても、取得した情報を記録し、加工や分析することはOKということです。

余談ですが、著作権法は、AI開発やビックデータ活用といった時代のニーズに応えるかたちで平成30年に改正されました。

今後も時代の要求と共に改正されることが考えられるので、スクレイピングする方は定期的に情報をチェックしましょう。

 

4.まとめ

以上、スクレイピング禁止サイトの確認方法について解説しました。

最後にポイントをまとめると、スクレイピングをする前にすべきことは、

  • WebAPIの有無
  • Robots.txtの確認
  • 利用規約の確認

の3点でした。

そして、スクレイピング自体に違法性はないですが、法律に違反しないためにも、

  • robots.txtでアクセス禁止のURLはスクレイピングをしない
  • 利用規約に同意したWebサイトはスクレイピングをしない
  • スクレイピングで頻繁にサーバーアクセスはしない
  • 情報解析以外の目的でスクレイピングをしない

の4点は最低限、守るようにしましょう。

 

この記事で登場する法律は、今後改定される可能性ががあるので、適時ご自身でも確認するようにしてください。

本サイトでも最新情報をお届けするように努めます。

 

これまでスクレイピングにブラックなイメージを持っていた方でも、この記事の内容を頭に入れておけば、スクレイピングのリスクを抑えつつ、スクレイピングをすることができます。

スクレイピングに興味がありながらも、二の足を踏んでいた方は『仕事のデータ分析に活用できるスクレイピングとは【やり方・学習方法も解説】』をご覧になって、仕事や趣味にスクレイピングを活用してみてください。

【仕事でPython活用】スクレイピングとは?やり方・学習方法を解説
仕事のデータ分析に役立つWebスクレイピングを解説しています。Pythonによるスクレイピングのやり方や学習方法を初心者目線で説明しているので、今からスクレイピングを始める方は必読です。

 

ご清聴ありがとうございました。