数理コンサルタントの備忘録

あなたの悩みを数理で解決する

2021-01-01から1年間の記事一覧

ベイズの定理とモンティ・ホール問題

昨今、一部界隈では「ベイズの定理」を知っているか否かで、データサイエンティストがホンモノかを見極めているらしい。 ここでは公式の確認と問題例とともに「ベイズの定理」を復習しようと思う。 まずベイズの定理とは、 事象A, 事象Bが発生する確率をそれ…

plotlyによる可視化

バブルチャートによる可視化 import plotly.express as px fig = px.scatter(bub_data, x="Reporting_Airline", y="Flights", size="Flights", hover_name="Reporting_Airline", title='Reporting Airline vs Number of Flights', size_max=60) fig.show() …

pythonクラスの備忘録

pythonクラスにおいて、クラス変数とインスタンス変数の違いについて説明する。 まず、以下のようなクラスを定義する。 class ClassVal: x = "ClassVal" class InstanceVal: def __init__(self): self.x = "InstanceVal" cls_Val = ClassVal() ins_Val = Ins…

Regrssion Plots

今回の記事では、散布図とその近似曲線及び領域を描画する。 まず、下記のようなdfを作成する。 df_tot seabornのregplotを用いると、簡単に回帰直線を描ける。 import seaborn as sns plt.figure(figsize=(15, 10)) sns.set(font_scale=1.5) ax = sns.regpl…

箱ひげ図の基本

箱ひげ図はデータの分布を簡単に確認でき、分布同士を比較する場合に非常に便利である。 ○箱ひげ図で確認するポイント 箱ひげ図の全長から分かるばらつき 中央値と平均値のズレ 外れ値からの外れ具合 ○外れ値が発生する確率 データが正規分布に従うと仮定し…

「棒グラフ」と「円グラフ」の使い分け

入社してすぐの研修で、データサイエンティストの3大ご法度として「円グラフの利用」が上げられていた。 今回は、なぜ円グラフが問題視されるかを深掘っていく。 ○円グラフの課題 割合の変化が微小である時、その変化を捉えにくい。 円グラフ 棒グラフ 上の…

matplotlibの基礎知識

matplotlibは次の3層で構成される 1.Scripting Layer pyplot df.plot() 2.Artist Layer ax = df.plot() グラフに表示されるものは全てArtist Artist 3.Backend Layer backend_bases matplotlibの階層構造を簡潔に表した図。 階層構造 この図から読み取れるこ…

画像認識コンペまとめ

ILSVRC:画像認識コンペ ImageNet(1400万枚)を使った一般物体認識のコンペ AlexNet 2012 優勝 初めて深層学習の概念を取り入れたモデル GoogLeNet 2014 優勝 Inceptionモジュールという小さなネットワークを積み上げた構造 Inceptionモジュールは、3つの異な…

linuxコマンドメモ

# コマンドの標準エラー出力を標準出力に入れる $ python hoge.py > log 2>&1 # 1G以上のデータを検索 $ find ./ -size +1G

python実行系メモ

*処理時間がかかる行を特定する python -m cProfile *notebookをpythonファイル化する jupyter nbconvert --to python hoge.ipynb

VirtualBox 上で のDocker環境構築vol.1

macユーザーだが、Docker for Mac が遅いらしい(参考)ので、VM上でdocker環境を構築していく。 まずはVMをインストールする インストール後、MacのVirtualbBoxでホストアダプターが作成できない問題を解決する (参考) システム環境設定→セキュリティとプライ…

Jupyterlabの行数をデフォルトで表示させる

Jupyterlab起動後、Settings→Notebook→User Preferencesで下記を記述。 { "codeCellConfig": { "lineNumbers": true } }

CNNを用いたpython画像処理入門①

今回は、画像認識に有効なCNNを用いた簡単な画像認識タスクをpythonで実施する。 まずはtensorflowで用意されているデータセットのFasion MNISTを読み込む。 import tensorflow as tf fashion_mnist = tf.keras.datasets.fashion_mnist (x_train, y_train), …

pythonでの並列処理

pythonの処理速度が遅い場合、並列処理が有効である。ここでは、実務でも役立つ並列処理のサンプルコードを紹介する。 pythonの標準ライブラリであるmultiprocessingを利用する。 from multiprocessing import Pool # ジョブを送り込めるワーカープロセスの…

python classの書き方例

分析が進むと、python classを記述する必要がある。 compute_KNN_featuresのソースコードを参考にして、KNNのクラス概要をまとめた。 class NearestNeighborsFeats(BaseEstimator, ClassifierMixin): ''' This class should implement KNN features extracti…

Numpy備忘録

仕事ではpandasのデータフレームをよく利用するが、計算速度を向上させるためにはdf.valuesでNumpy配列にして計算させることが多い。 ここでは、numpyの基本的な使い方の備忘録を記録する。(numpy公式ドキュメント) まずはお決まりのimport import numpy as …

ブログ再開

今日から長らく止めていたブログを再開しようと思います。 主にpythonコードの備忘録や簡単なケース問題とその数理的解法を記述していく予定です。