データサイエンス | Arts and Sciences

『デジタル情報資源の検索　増訂５版』という本が京都図書館情報学研究会から刊行されています。世はまさにビッグデータの時代。まえがきによると、ちょっと古いですが２００３年度に出版された図書数は『出版年鑑2004』による数字で、７万５５３０点だそうです。膨大な数です。試しに国立国会図書館サーチをしてみると、2003年刊行で国立国会図書館所蔵の本を検索すると、203927件ヒットしました。

デジタル情報資源はたいへん広大であり、検索エンジンで入手できる範囲の情報はごく一部にすぎない。(ivページ）

どんな情報でもグーグル検索すればいいやという気になるくらい、グーグルは便利ですが、実はグーグルではなかなかアクセスできない情報のほうがはるかに多いというのは驚きです。

ウェブは検索エンジンがクロールできる部分すなわち「表層ウェブ」と、利用者の検索によって動的に生成され一時的にしか存在しない「深層ウェブ」とに分類されるんだそうです。この、検索エンジンのクローラーがアクセスできない深層ウェブにこそ有用な情報が存在するとして、そこに商店を当てたのが本書ということになります（参考：4ページ）。

リンクをたどって移動するという方法をとるロボットはリクエストを発することができず、それら深層ウェブの中の情報にはアクセスできない。そのため、深層ウェブの中に保存されている情報は検索エンジンで見つけることができない。（18ページ）

読めない漢字を検索する方法

インターネットで検索するためには、検索窓に文字を入力する必要があります。しかし、時として読み方がわからないために入力のしようがないという状況になることがあります。たとえば、「矗」という字。自分は読めませんでした。そんなときに便利なのが、手書き文字認識。ウインドウズでマイクロソフトIMEというものがあります。メモ帳を開いた状態で、「IMEパッドー手書き」をクリックすると手書きのためのパッドが表示され、マウスを用いて手書きしてやると、候補となる漢字が列挙されます。漢字を選ぶとメモ帳に入力されます。メモ帳でなくても、ブラウザの検索窓に入力できる状態で同じようにすれば、直接検索窓にその漢字が入力されます。これは非常に便利です。（参考：11ページ～　第3章）

デジタル情報ウェブリソース

国立国会図書館サーチ
日本書籍出版協会　books.or.jp（書籍検索サイト）　JPO出版情報登録センター
総務省　平成28年版　情報通信白書
皓星社　図書出版とデータベース　万葉集関連人名辞典　雑誌記事索引集成データベース　ざっさくプラス（有料　検索機能をお試しいただけます。(件数表示のみ)）
ヤフーカテゴリ
グーグル
検索デスク
The Search 検索エンジン

参考ウェブサイト

深層WEBとはなんだ？実際にアクセスしてみて分かったこと IT-Hack 2017/1/3 深層WEBは表層WEBと違って検索エンジンの様に取り締まる、親がいませんので無法地帯となっています。ですから上に書いた様な危険なサイトが存在しているのです。これを深層WEBの中で特に「ダークWEB」といいます。
torproject.org　The Tor network is a group of volunteer-operated servers that allows people to improve their privacy and security on the Internet. Tor’s users employ this network by connecting through a series of virtual tunnels rather than making a direct connection, thus allowing both organizations and individuals to share information over public networks without compromising their privacy.
Hidden Wiki | Tor .onion urls directories
The Hidden Wiki (https://zqktlwi4fecvo6ri.onion.to/wiki/Main_Page)

Arts and Sciences

アートとサイエンス

「データサイエンス」カテゴリーアーカイブ

『デジタル情報資源の検索　増訂５版』（2014年高鍬裕樹著　京都図書館情報学研究会発行）