Python

TF-IDF

概要 文章を特徴づける単語を見つけたい 「今日も蒸し暑いですね。ところで、『君の名は』って映画知ってます?」という会話なら、ポイントとなるのは多分『君の名は』の部分(蒸し暑い~の部分は社交辞令だし、多分特徴として価値が小さい、なぜなら他の会話に…

Python,BeautifulSoup -- table要素のデータを抽出してCSVファイルに書き込む

概要 table 要素のデータを抽出して CSV ファイルに書き込みたい CSVファイルさえあれば、pandas.DataFrame() として読み込める 世界中の (バラバラな書式の) table 要素に対応しようと一瞬思ったがやめた 大学教授系の機械学習 (の授業) 用サイトからデータ…

NumPy - 等高線を描画する

概要 np.meshgrid()の動作イメージを思い出せるようにしておきたい イメージ ファイナルファンタジータクティクスの盤面?(数値=高さ、的な) コード import numpy as np from matplotlib import pyplot as plt def main(): """等高線を描画する""" # まず、値…

平滑化 (移動平均) フィルタ

概要 画素の色の違いを滑らかにする (周囲の画素と平均する) イメージ 黒板の文字を黒板消しで消そうとしたが、完全には消えていない状態 (= チョークの粉を引き延ばした状態?) 分かった部分 カーネル適用部分の中心部分を注目画素という。畳み込みを行った…

VeryFitProの歩数データをヒストグラムでプロットする

概要 Fitbitは高くて買えない 安価なウェアラブル端末で歩数をカウントした ヒストグラムでプロットしたい 苦労した点 plt.hist()のrangeパラメータを指定しておらず、バーの幅がまちまちになった 基本的にデータを採取すること自体を忘れていることがある …

決定木 (離散データ用)

概要 エントロピーを最も下げる、データ集合の分割方法を (再帰的に) 得たい 特徴値が連続値の場合は大小比較 (気温が25℃以上とか) 、離散値の場合はそのままカウント が、連続値の場合は前処理によって離散値に変換し直すことができる (離散値) の場合、値…

graphvizを使ってツリー構造をpng画像化できる基本ノードクラス

概要 ツリーを構築でき、構造をpng画像として出力できるノードクラスが欲しい 存在するかもしれないが、作ってみる graphviz、pydotplusを使用した DOMへの敬意を込めてappend_child()というメソッド名をjsから拝借した 良かった点 print_labels()、print_ed…

Fuzzy C-means法

概要 クラスタ中心との距離の逆数に応じた所属確率を用いる K-means法では最近傍のクラスタのみに所属させていた イメージ 自宅が吉祥寺駅と三鷹駅の間にあるとき、吉祥寺駅との距離をk、三鷹駅との距離をmとすると k 吉祥寺駅の近くに住んでいると自慢して…

k-means法をpythonで実装してみる

概要 実装してみた k-means法を実装してみたくなる一番の理由は「実装できそうな気がするから」 fit()、fit_predict()という2メソッドの名前だけsklearnを参考にした 実装 import numpy as np class MyKMeans(object): """クラスタリングを行うためのクラス"…