検索で 『ピッグ(Pig)データ』『バス(Bus)ワード』などが大量に引っかかる理由
Googleなどの検索で、『パスワード(Password)』ではなく『バス(Bus word)ワード』や『ビッグデータ(BigData)』ではなく『ピッグデータ(PigData)』など、普通に考えるとありえない、誤入力が、近年になって大量に検索にHitするようになりました。
理由は思わぬところにありました。
『バスワード』の検索結果
『ピッグデータ』の検索結果
検索結果が PDF や books.google.co.jp になっていますね?
そうなんです。 OCR ソフトに通してPDFにしたファイルや、Googleが書籍情報をOCR APIで取り出したものが化けてるんです(笑)
こうしてみると、OCRソフトに前後の文脈見て判断する機能が無いんだなと実感しますね|・ω・)
さぁ、皆さんも 似たような面白い検索結果がほかにないか探してみましょう!
情報リチラシー
才ブション とかありますね
おぉ、こんな記事もありましたね( ´∀`)つ
「ストロンチウム」→「ス卜口ンチウム」は「OCRのミス」 原子力規制庁、サイトを修正 – ITmedia ニュース
ttp://www.itmedia.co.jp/news/articles/1406/10/news067.html