たけのこブログ

凡人が頑張って背伸びするブログ

python

dockerでmecab+neologdの環境構築

概要 今まで使っていたdockerfileがあったんだけど、ppa(deadsnake)の問題なのか分からないけど上手くfetchできなくなってきた汗(でもたまに再起動すると上手くいくのは謎でした。原因がDNS問題やno cache, --fix-missingとかでもないので不明...次回に調べ…

venvで新しくjupyterインストールして動かしたら、ローカルのjupyter環境と競合して全ての開発環境が詰んだ件についての対処法

概要 めっちゃ長いタイトルですが、タイトルの通りです。業務でjupyterでコードが欲しいと頼まれたので、従来のcolabで渡すのがダルくてvenv+requirements.txtで配布してしまいました。そして、地獄はスタートしました。 なぜか、ローカルのjupyter環境が全…

Dockerで作ったDS環境にmecab+fasttextを安全に入れるための備忘録

前回、以下の記事でDockerを使って簡単にBiqqueryのデータをjupyterで可視化する方法を備忘録として掲載しました。datascience-notebookのDocker-imageを使用しております。 yukr.hatenablog.com 今回は、前回の記事で構築した環境にmecabとfasttextをインス…

SAR画像の見た目を基本的な画像処理で一瞬に改善する方法

背景 はい、久しぶりの投稿です。 最近、様々なところからお声が掛かっており、ブログを書く暇がありませんでした(汗) 自分は、趣味の延長で衛星画像の一つであるSAR画像と呼ばれるレーダ画像について解析を行なっていて、解析記事の執筆なども行なっており…

地理データ解析でよく使うGDALを安全にインストールして環境を整備する

はじめに GDALはGeoTiff画像の読み込みなどで使用されるライブラリですが、pythonで使用しようとすると、たまにanacondaと競合したりしてインストールできないことがあります(実際、僕もSAR画像の解析などでGeoTiffを使用する際に環境が衝突してインストール…

word2vecやfasttextを使って類似単語を抽出できる仕組みを数学を一切使わずに頑張って説明してみる

背景 機械学習で過去に実装したものの原理を教えて欲しいと言われて社内勉強会でword2vecを説明した時、数学にあまり詳しくない人にword2vecの仕組みを伝えるのに苦労した。実際に他の現場でも、「単語を学習してるのは分かるんだけど、そもそもなんで似てい…

ウェーブレット多重解像度解析(MRA)をSAR画像に適応してみた(python使用)

前回までのあらすじ 前回は、mueller行列に平均化処理をかけてノイズを除去することによって、zoomの背景画面にも使えるような合成開口レーダ(以下、SAR)画像の可視化に成功しました。 yukr.hatenablog.com きちんと前処理したSAR画像はとても綺麗ですが、い…

PALSAR2を使った多偏波SARの解析手法(ミュラー行列+マルチルック処理)

はじめに お久しぶりです、新星 竹です。久しぶりにSAR解析をしました。 取り組んでいる研究の解析やらジャーナルの執筆やらで佳境に入っていて、尚且つ新しい委託のお仕事を探していたり決まった後にフルコミットしたりしていた関係で、SAR画像解析をする時…

PALSAR2の全偏波成分を使ってRGB形式で散乱特性を可視化する

今年は、本当に暖冬ですね。普段は関西の田舎に住んでるので、寒暖差が激しすぎて耐えられません...が、今年は大丈夫そうです笑。 前回は、Tellusと呼ばれる衛星画像のプラットフォームからAPIを使ってPALSAR2のSARデータを取り出し、取得したイメージファイ…

TellusのAPIからPALSAR2の生データを取得する

まず始めに 前回は、SAR(Synthetic Aperture Radar: 合成開口レーダ)に関する基礎的な知識だったり特徴などをお話しさせて頂きました。 yukr.hatenablog.com 今回は、Tellusという衛星データプラットフォームで公開されているPALSAR2というSARの画像の生デー…

GPUサーバからリモートでjupyter操作してtorchも触れるようにする

前回の記事に続いて、Tellusで申請したGPUサーバーの環境にjupyterを入れて遠隔で操作できるようにし、かつpytorchも無事に使える状態にします。環境のセットアップの際にごちゃごちゃしてしまったので、もしかしたら手順が間違っている可能性がありますが、…

TellusのGPUサーバからPyTorchの環境を構築する

Tellusとは 宇宙産業を促進するための衛星データプラットフォームとして、Tellusが昨年から始まっています。 Tellus(テルース)は、政府衛星データを利用した新たなビジネスマーケットプレイスを創出することを目的とした、日本初のオープン&フリーな衛星…

Simulated Annealing(焼きなまし法)の実装

あくまで研究などとは分野外なので素人ですが、現在は趣味でイジングモデルに基づいた、臨界点で複雑性を最大化するような手法を自作でコーディングしています。その過程で量子アニーリング手法などの原点となっているSimulated annealingを実装するのも悪く…

pandasを使いこなせることの重要性

なぜこんなタイトルにしたのか 生産性の高い人間とは、「ある程度完璧でなくてもいいから、素早く結果を出せる人材」だと個人的に思っています。特に、データ解析においては素早く生データを加工できる技術を持つことは非常に重要だと思っています。どんなに…

面倒なのはSeabornに任せるのが一番

久しぶりの更新です。最後に更新して以降、研究やらお仕事が忙しくてそれどころじゃなかった(言い訳) 研究でジャーナルの執筆を始めるとなると、いろんな結果を出さないといけない訳なんですが、ちゃんとしたところに出そうとなるとめちゃくちゃ結果の見せ方…

PDFMiner使ってPDFをテキストとして抽出

テキストマイニング初心者が調子に乗ってPDFをテキストに変換してみました ただの備忘録です(思った以上に苦戦したので汗)。仕事などで本格的に自然言語処理をする機会がありそうなので、何となくテキストマイニングをやってみようと思ったのがきっかけです…

pythonのバージョン更新したらstatsmodelsで分散分析できなくなった件

分散分析ができなくなっちゃった...汗 前回の記事からanacondaのバージョンを上げました。 yukr.hatenablog.com anaconda3-4.3.0からanaconda3-5.3.0バージョンを更新して、今日は実験の解析でstatmodelsを使って分散分析をしようとしたら、以下のようなエラ…

pyenvの中に複数のanacondaが入っている時のjupyterのパス切り替え

ひっさびさの投稿です笑 最近、関係データ解析をやろうと考えていて、jupyterの中でNetworkXの解析を行なったデータをcytoscapeで可視化する一連の動作を全てやりたいと思い、それを実現するためにCyJupyterをインストールする予定でした。 github.com しか…