プログラミング講座(212) ウェブクローラー

Small Basicの魅力の一つにインターネットのウェブにアクセスできることがあります。ウェブ上のHTMLをテキストとして取り扱うことができます。例えば、HTMLの内容を読み取ってリンクを辿ることでウェブクローラーを自作することができます。

これまで Small Basic と PowerShell でブログなどの一覧を取り出すウェブクローラーを何本か作成しました。もうクローズしてしまったウェブサイトもあって半分は役に立たなくなりましたが、GitHubに公開しています。

その中で Google のブログサービス Blogger を利用するブログの記事一覧を取り出すクローラー Google Blog Article List の最新版 (v0.6) がこちらに公開してあります。下記のリストはそのうちの先頭の9行です。

' Google Blog Article List 0.6
' Copyright © 2014-2025 Nonki Takahashi.  The MIT License.
' Last update 2025-06-21
' Program ID PLT187-2
'
TextWindow.Title = "Google Blog Article List 0.6"
Not = "False=True;True=False;"
LT = "<"
site = "http://nonkit.blogspot.jp/"

9行目でブログのURLを指定しています。結果は list.html というファイルにHTMLとして出力され、こんな感じになります。

    February 27, 2023
     ・About Caption
    June 16, 2025
     ・Flag of the Osaka Expo 1970
    June 15, 2025
     ・Japan Association for the 2025 World Exposition Flag
    June 03, 2025
     ・Flag of Hungary
    October 27, 2024
     ・Dogū

    関連項目

    コメントを残す