タグ自動抽出APIを利用するBookmarklet

2005/10/13 ウェブデザイン・文章

表示されているページから、特徴的な単語──キーワード（タグ）を自動で抽出するAPIが、いしなおさんのところで公開されています。
>実行すると現在見ているページのキーワード群を表示します。いろんなところで実行してみると結構楽しい。
>[いしなお! – タグ自動抽出API (13:46)](http://tdiary.ishinao.net/20051011.html#p01 “いしなお! – タグ自動抽出API (13:46)”)
──が、Bloggerとしては、*表示されているページ*、つまり*公開されたページ*からキーワードを抽出するより、*いま書いている記事*からキーワードを抜き出せた方が便利なはず。──ということで、上記ページに、キーワード抽出用のフォームが用意されていいます。
さらに、Bookmarkletでお手軽に利用したほうがｳﾏｰ(ﾟдﾟ) なこともあるかと思い、30秒クッキングで作ってみました。

#### Bookmarklet
キーワード抽出(選択文字)
ソースはこんな感じ（実際は一行）です。Firefox（Deer Park Beta 2）とIE6で動作を確認しました。
javascript:q=”;
if (window.getSelection)q=window.getSelection();
else if (document.getSelection)q=document.getSelection();
else if (document.selection)q=document.selection.createRange().text;
void(open(‘http://1470.net/api/mmutil.php?cmd=getwords;charset=utf-8;text=’ + encodeURIComponent( q )));
`textarea`内の文字を選択しても動作しないので、tDiaryやはてなダイアリー、Movable Typeの場合は、「確認（プレビュー）」状態の時にお使いください。
#### 30秒クッキング──その真相
──と、ここで終わるとﾊｶｰっぽくて格好いいのですが──
当然、オリジナルではなく、[Blogmarks.netのbookmarklets](http://blogmarks.net/tools/?t=bookmarklets “Blogmarks.net”)からパクりました（またパクリか）。
なので、「`getSelection`とか何度も出てくるのはクロスブラウザ対策? かな?」「なんで、元のページに関係なく`charset=utf-8`で大丈夫なんだろう? （`charset=utf-8`意外だと文字化けする）」と、全く解っていないまま公開しています。
「──ま、使えればいいか」という人はどうぞ。
──こうして記事をさらすことによって、どこかの誰かが便利なプラグインを作ってくれるのを期待しつつ──

匿名より:

2009-03-05 01:52

テキストからキーワード抽出できるようにしてみました。charsetを省略するとeuc-jpと見なします。GETリクエストでもPOSTリクエストでも動作するんで、ある程度長文の場合は（少なくともtextパラメータは）POSTリクエスト（application/x-www-form- urlencoded）を使った方が確実です。ちなみに、あまり長いtextは途中でぶった切って解析しちゃいます。

返信