卒研
結構順調に進んでいた卒研ではあったけれどここにきて大きな穴に落ちてしまった。 論文の検索システムが論文300くらい登録していると検索中にOutOfMemoryErrorで落ちるのである。 これはまずいと、先生にも1000件くらいいれて検索しますと言っているだけ…
当初予定していた卒研の基本システム部分は大部分完成したので実験とテストとバグ修正をしてたんだけど、昨日あたりから「Out Of Memory」とか出るようになった。やべぇよ、プログラミングのミスかそもそもメモリが足りないのか。 一応プログラミングのミス…
私の担当部分は大体出来上がりました。 テストもきっちりとはやっていないけど動くところまでは行ったので 学園祭には間に合いそうです。 まだ実装していない機能が一つあるので明日からはそっちを頑張ります。学園祭終わったら新しい機能とか別のクラスタリ…
とりあえずJDBCでの接続は出来たのでWikipediaの記事から 関連項目とカテゴリーを抜き出すJavaを書いてる途中です。 構文解析(力技)でちょっとずつ解析して数日中に取れるようにしたいねしっかし、データベースに格納している量が700M超えてるから SELE…
卒研の相方のpoohさんがEclipseのプラグインのLombozからTOMCATを起動しようとして何度もエラーを返されていたので原因を追究しようといろいろ研究室で調べていました。 でも全くどこにも似たような話が載っていなくて(英語サイトには乗っていたかもしれな…
やヴぁい、頭で少し考えるくらいでほとんど卒研が手についていない。 とりあえず明日は少しでも進めよう!!
もうPDFのテキスト化はXPDFのPDFtoTEXTをJavaからコマンドで呼び出すことにしますた。 これで次は形態素解析について考えることができる。 形態素解析もFREEのがあったらそれを使って解析するつもりっす。あとはWikipediaをデータベースにいれる形式でダウン…
いろいろ調べてみるとどうやらitextではテキストの抽出は無理っぽいようなことがあるサイトに書いてあった。しかし英語のサイトで自動翻訳だからちょっぴり怪しい。しかし、他の方法を探してみると今度はPDFboxなるPDF操作のJavaAPIを発見する。 これはどう…
いろいろ調べたがやっぱりJavaでPDFを操作するAPIのitextを使って何とかするしかないみたいだ。あとアドビのPDFのリファレンスと睨めっこかな ・・・・・両方英語だよ orz
大学で相方さんと卒研の大まかなスケジュールを立てる。 スケジュールというよりこんなペースで出来たら良いなという願望になったけど・・・目下クリアすべきはPDFからテキストを抜き出すことかな
ほとんど考えてネーーーーーー
どの方法でいくかいくつか候補を明日のうちに調べておくかな