データサイエンス」カテゴリーアーカイブ

『デジタル情報資源の検索 増訂5版』 (2014年 高鍬 裕樹 著 京都図書館情報学研究会 発行)

『デジタル情報資源の検索 増訂5版』という本が京都図書館情報学研究会から刊行されています。世はまさにビッグデータの時代。まえがきによると、ちょっと古いですが2003年度に出版された図書数は『出版年鑑2004』による数字で、7万5530点だそうです。膨大な数です。試しに国立国会図書館サーチをしてみると、2003年刊行で国立国会図書館所蔵の本を検索すると、203927件ヒットしました。

デジタル情報資源はたいへん広大であり、検索エンジンで入手できる範囲の情報はごく一部にすぎない。(ivページ)

どんな情報でもグーグル検索すればいいやという気になるくらい、グーグルは便利ですが、実はグーグルではなかなかアクセスできない情報のほうがはるかに多いというのは驚きです。

ウェブは検索エンジンがクロールできる部分すなわち「表層ウェブ」と、利用者の検索によって動的に生成され一時的にしか存在しない「深層ウェブ」とに分類されるんだそうです。この、検索エンジンのクローラーがアクセスできない深層ウェブにこそ有用な情報が存在するとして、そこに商店を当てたのが本書ということになります(参考:4ページ)。

リンクをたどって移動するという方法をとるロボットはリクエストを発することができず、それら深層ウェブの中の情報にはアクセスできない。そのため、深層ウェブの中に保存されている情報は検索エンジンで見つけることができない。(18ページ)

 

読めない漢字を検索する方法

インターネットで検索するためには、検索窓に文字を入力する必要があります。しかし、時として読み方がわからないために入力のしようがないという状況になることがあります。たとえば、「矗」という字。自分は読めませんでした。そんなときに便利なのが、手書き文字認識。ウインドウズでマイクロソフトIMEというものがあります。メモ帳を開いた状態で、「IMEパッドー手書き」をクリックすると手書きのためのパッドが表示され、マウスを用いて手書きしてやると、候補となる漢字が列挙されます。漢字を選ぶとメモ帳に入力されます。メモ帳でなくても、ブラウザの検索窓に入力できる状態で同じようにすれば、直接検索窓にその漢字が入力されます。これは非常に便利です。(参考:11ページ~ 第3章)

 

デジタル情報ウェブリソース

  1. 国立国会図書館サーチ
  2. 日本書籍出版協会 books.or.jp(書籍検索サイト) JPO出版情報登録センター
  3. 総務省 平成28年版 情報通信白書
  4. 皓星社 図書出版とデータベース 万葉集関連人名辞典 雑誌記事索引集成データベース ざっさくプラス(有料 検索機能をお試しいただけます。(件数表示のみ))
  5. ヤフーカテゴリ
  6. グーグル
  7. 検索デスク
  8. The Search 検索エンジン

 

参考ウェブサイト

  1. 深層WEBとはなんだ?実際にアクセスしてみて分かったこと IT-Hack 2017/1/3 深層WEBは表層WEBと違って検索エンジンの様に取り締まる、親がいませんので無法地帯となっています。ですから上に書いた様な危険なサイトが存在しているのです。これを深層WEBの中で特に「ダークWEB」といいます。
  2. torproject.org The Tor network is a group of volunteer-operated servers that allows people to improve their privacy and security on the Internet. Tor’s users employ this network by connecting through a series of virtual tunnels rather than making a direct connection, thus allowing both organizations and individuals to share information over public networks without compromising their privacy.
  3. Hidden Wiki | Tor .onion urls directories
  4. The Hidden Wiki (https://zqktlwi4fecvo6ri.onion.to/wiki/Main_Page)