python_analytics

主にpythonやライブラリーを使ったデータ解析、機械学習、統計学などについて書いていきます

pandas

Plotlyで複数のグラフを表示させる

Plotlyで複数のグラフを表示させる ■Plotlyで複数のグラフを表示させる from plotly import tools # make trace trace0 = go.Scatter( x = report["いいね"], y = report["リツイート"], name = "いいね", mode = "markers", marker = dict(size=10, color="…

Plotlyのグラフでフィルタをかけて表示させる

Plotlyのグラフでフィルタをかけて表示させる ■いいね500以上のみ抽出 # make trace data = [dict( type = 'scatter', x = report["いいね"], y = report["リツイート"], mode = 'markers', transforms = [dict( type = 'filter', target = report["いいね"]…

Jupyter lab Plotlyを表示させる

Jupyter lab Plotlyを表示させる ■Jupyter lab Plotlyを表示させる ①anacondaでnode.jsをインストールする ■コマンドプロンプトで拡張機能をインストール jupyter labextension install @jupyterlab/plotly-extension ■Jupyter lab Plotlyが表示される

python csv 一括結合

python csv 一括結合について ■pythonを使って、複数あるcsvデータを一括で結合する # -*- coding: utf-8 -*- """ Created on Fri Jun 29 10:04:26 2018 @author: abe-mas """ import json,csv import pandas as pd import glob csv_files = glob.glob('*.cs…

python pandas 累積和・構成比について

python pandas 累積和・構成比について ■pandasのcumsum() を使って各データの累積和と累積構成比を算出してみる。 rename3=pd.DataFrame(rename3) rename3['kouseihi'] = rename3[5]/ rename3[5].sum() rename3['ruiseki'] = rename3[5].cumsum() / rename3…

Jupyter lab で水平表示させる

Jupyter lab で水平表示させる Jupyter lab おまじないのコード paddingで表示間隔の設定が可能 class display(object): """Display HTML representation of multiple objects""" template = """<div style="float: left; padding: 10px;"> <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1} </div>""" def __init__(self, *args): …

pandas グラフseabornについて

pandas seabornについて ■折れ選グラフの作成 ax = tuki.plot(figsize=(16,4),title="Viral IMP") ax1 =ni.plot(figsize=(16,4),title="Viral IMP") plt.xticks(range(0,31)) ax.set_xlabel("month",fontsize=20,) plt.legend() 2軸折れ線グラフ ■回帰分析の…

SQL の基本的な操作について

SQLの基本的な操作について --データベース作成-- sqlite3 データベース名 sqlite3 myfriend.sqlite3 ②--CSV インポート方法-- .separator , .import sample22.csv page1 ③--接続していたデータベースから切断-- .exit ④テーブル一覧表示 .tables ⑤スキーマ…

python 正規表現について

python 正規表現について 特殊シーケンス 説明 同義のパターン \d 任意の数字 [0-9] \D 任意の数字以外 [^0-9] \s 任意の空白文字 [\t\n\r\f\v] \S 任意の空白文字以外 [^\t\n\r\f\v] \w 任意の英数字 [a-xA-Z0-9_] \W 任意の英数字以外 [\a-xA-Z0-9_] \A 文…

python seleniumでスクレイピング

pandas seleniumでスクレイピング ↓seleniumでスクレイピングして、タイトルとURLをCSVに保存する。 from selenium import webdriver browser = webdriver.Firefox() url = "http://b.hatena.ne.jp/search/text?safe=on&q=Python&users=5" browser.get(url) …

python pandas sortやfilterについて

pandas 集計処理のsort,filter操作について ↓フィルタ_日カラムで20以上の行を抽出。 sample[sample["日"]>=20].head() index ID 日 時 セッション 閲覧時間 0 328667572 31 16 38 5 1 70373573 24 23 37 7 5 302325623 20 8 22 2 12 1511512688 29 21 18 6 …

pandas csv一括読み込み

csv一括読み込み ■csv一括してDataFrameにする方法 import glob import os files = glob.glob(os.path.join("フォルダ名",'*.csv')) df_list=[] for file in files: tmp_df = pd.read_csv(file,encoding='cp932',parse_dates=[""],header=1]) tmp_df['filena…

python デコレータについて

デコレータについて ■デコレータについてト デコレータは関数をラップすることで、元の関数は変更しないで前後に処理を挟んだり返す値を変更したりできます。 def デコレータ名(func): def ラップ関数名(*args, **kwargs): funcを用いたなんらかの動作 retur…

python for文について

for文について ■文字列のカウント df["CommentLen"]=df["Comment"].str.len() df ■文字列のカウント # これはdf['Comment']の長さ=データ数である4が入ってしまう df['CommentLen'] = len(df['Comment']) df ■スライスの関数について 15文字までの文字列を…

python 高階関数について

高階関数について ■enumerateについて 今のループが何番目かのインデックスを扱うのに便利なenumerate関数。 enumerate関数は列挙オブジェクトを返し、forループにおいては、インデックスを利用したいループに使われます 引数にどの数字からカウントを始める…

python クラスとインスタンスについて

クラスとインスタンス クラスから作られたオブジェクトのことを、インスタンスという。 ■クラス変数について クラス変数とは、クラス自体が保持する変数を指す。 クラス名の下に宣言された変数はクラス変数とみなす。 クラス変数が定義されていると、インス…

python lambdaについて

pythonのlambdaについて ■lambdaについて import numpy as np import pandas as pd index ID 日 時 セッション 閲覧時間 0 328667572 31 16 38 5 1 70373573 24 23 37 7 2 1839656582 12 20 28 6 4 1471882803 10 22 22 7 5 302325623 20 8 22 2 ↓日と時の文…

python pandas 集計処理(group by関数)

pandas 集計処理(groupby関数)について ■集約処理について 同じ集約単位に対する複数の処理を行う場合には、groupby関数関数を利用することで 同時に集約処理が可能だが、集約処理が1つの場合は、agg関数を使わない方が簡潔に書ける。 import numpy as np im…

python pandas 初歩的な操作

pandas 集計処理の基本的な操作について ■時系列の変換について カテゴリ型は、数値型に次いでよく使う型。pythonではastype関数はデータ型を変換する関数。 import numpy as np import pandas as pd index ID 日 時 セッション 閲覧時間 0 328667572 31 16 …

python pandas 集計処理(時系列)

pandas 集計処理(時系列の関数)について ■時系列の変換について カテゴリ型は、数値型に次いでよく使う型。pythonではastype関数はデータ型を変換する関数。 import numpy as np import pandas as pd ID time セッション 328667572 20180331 38 70373573 201…

python pandas 集計処理(ダミー変数)

pandas 集計処理(get_dummies関数)について ■astype関数とcategory変換について カテゴリ型は、数値型に次いでよく使う型。pythonではastype関数はデータ型を変換する関数。 import numpy as np import pandas as pd index ID 日 時 セッション 閲覧時間 0 3…

python pandas 集計処理(pivot_table関数)

pandas 集計処理(pivot_table関数)について ■pivot_table処理について 集約処理と横軸変換が同時にできる。 ■pivot_tableでやること① 1つ目の引数に対象テーブル、index引数にデータの集合を表すキー値、columns引数にデータ要素の 種類を表すキー値、values…

python pandas 集計処理(rank関数)

pandas 集計処理(rank関数)について ■rank処理について rank関数は文字列には対応していない。method引数によって、同じ値のデータが複数存在したときに 順位の決定方法を指定できる。ascending引数によって、並び方の昇順/降順が指定可能。 import numpy a…

python pandas 集計処理(agg関数)

pandas 集計処理について ■集約処理について DataFrameからgroupby関数を呼び出し、引数に集約単位を設定し さらに集約関数を呼び出すことで可能。 データ数を算出する集約関数は、size関数。ユニークカウントする関数は nunique関数。 同じ集約単位に対する…

pythonのpandasについて

pandasについて ここは、pandasについての備忘録 pandasはデータの持ち方としてDataFrameとSeriesがある。Dataframeは複数のSeriesで構成されている。 行はindexで管理され、インデックスには0から始まる番号やラベルがつけられている。 import numpy as np …