卒研

シリアライズの障害?

結構順調に進んでいた卒研ではあったけれどここにきて大きな穴に落ちてしまった。 論文の検索システムが論文300くらい登録していると検索中にOutOfMemoryErrorで落ちるのである。 これはまずいと、先生にも1000件くらいいれて検索しますと言っているだけ…

致命的なエラー

当初予定していた卒研の基本システム部分は大部分完成したので実験とテストとバグ修正をしてたんだけど、昨日あたりから「Out Of Memory」とか出るようになった。やべぇよ、プログラミングのミスかそもそもメモリが足りないのか。 一応プログラミングのミス…

久しぶりに卒研の話でも

私の担当部分は大体出来上がりました。 テストもきっちりとはやっていないけど動くところまでは行ったので 学園祭には間に合いそうです。 まだ実装していない機能が一つあるので明日からはそっちを頑張ります。学園祭終わったら新しい機能とか別のクラスタリ…

まだMySQLと格闘中

とりあえずJDBCでの接続は出来たのでWikipediaの記事から 関連項目とカテゴリーを抜き出すJavaを書いてる途中です。 構文解析(力技)でちょっとずつ解析して数日中に取れるようにしたいねしっかし、データベースに格納している量が700M超えてるから SELE…

なんでだろう

卒研の相方のpoohさんがEclipseのプラグインのLombozからTOMCATを起動しようとして何度もエラーを返されていたので原因を追究しようといろいろ研究室で調べていました。 でも全くどこにも似たような話が載っていなくて(英語サイトには乗っていたかもしれな…

進まない卒研

やヴぁい、頭で少し考えるくらいでほとんど卒研が手についていない。 とりあえず明日は少しでも進めよう!!

PDFBOXのソース見るの飽きた

もうPDFのテキスト化はXPDFのPDFtoTEXTをJavaからコマンドで呼び出すことにしますた。 これで次は形態素解析について考えることができる。 形態素解析もFREEのがあったらそれを使って解析するつもりっす。あとはWikipediaをデータベースにいれる形式でダウン…

続、PDFからのテキスト抽出

いろいろ調べてみるとどうやらitextではテキストの抽出は無理っぽいようなことがあるサイトに書いてあった。しかし英語のサイトで自動翻訳だからちょっぴり怪しい。しかし、他の方法を探してみると今度はPDFboxなるPDF操作のJavaAPIを発見する。 これはどう…

PDFからのテキスト抽出

いろいろ調べたがやっぱりJavaでPDFを操作するAPIのitextを使って何とかするしかないみたいだ。あとアドビのPDFのリファレンスと睨めっこかな ・・・・・両方英語だよ orz

それっぽいスケジュール

大学で相方さんと卒研の大まかなスケジュールを立てる。 スケジュールというよりこんなペースで出来たら良いなという願望になったけど・・・目下クリアすべきはPDFからテキストを抜き出すことかな

考える予定が

ほとんど考えてネーーーーーー

情報のクラスタリング

どの方法でいくかいくつか候補を明日のうちに調べておくかな