python pandas 初歩的な操作
pandas 集計処理の基本的な操作について
■時系列の変換について カテゴリ型は、数値型に次いでよく使う型。pythonではastype関数はデータ型を変換する関数。
import numpy as np import pandas as pd
index | ID | 日 | 時 | セッション | 閲覧時間 |
---|---|---|---|---|---|
0 | 328667572 | 31 | 16 | 38 | 5 |
1 | 70373573 | 24 | 23 | 37 | 7 |
2 | 1839656582 | 12 | 20 | 28 | 6 |
4 | 1471882803 | 10 | 22 | 22 | 7 |
5 | 302325623 | 20 | 8 | 22 | 2 |
↓大枠の統計データを確認。
sample.describe()
index | ID | 日 | 時 | セッション | |
---|---|---|---|---|---|
count | 8.26E+05 | 8.26E+05 | 825940 | 825940 | 825940 |
mean | 9.64E+05 | 1.07E+09 | 15.530048 | 14.194003 | 1.11723 |
std | 5.91E+05 | 6.19E+08 | 8.595405 | 6.744024 | 0.516393 |
min | 0.00E+00 | 9.46E+03 | 1 | 0 | 1 |
25% | 4.46E+05 | 5.37E+08 | 8 | 10 | 1 |
50% | 9.63E+05 | 1.07E+09 | 16 | 15 | 1 |
75% | 1.48E+06 | 1.61E+09 | 23 | 20 | 1 |
max | 1.99E+06 | 2.15E+09 | 31 | 23 | 38 |
↓【欠損値】欠損値の有無確認
sample.isnull().any()
index False ID False 日 False 時 False セッション False 閲覧時間 False dtype: bool
↓【欠損値】欠損値の合計確認
sample.isnull().sum()
↓カラムのユニーク数をカウント
sample["ID"].nunique()
254008
↓列行カウント
sample.shape
(825940, 6)
↓列カウント
len(sample)
825940
↓要素数全てをカウント
sample.size
4955640
↓時を含むカラムを表示
sample.filter(regex ="時")
時 | 閲覧時間 | |
---|---|---|
0 | 16 | 5 |
1 | 23 | 7 |
2 | 20 | 6 |
3 | 22 | 7 |
4 | 8 | 2 |
型の一括変換
ff2.astype({'カラム名': int, 'カラム名1': int, 'カラム名2': int, 'カラム名3': int})
カラムの指定
sample.iloc[:,[0,1,2]]
■相関係数 corr()は各列の間の相関係数の算出が可能 methodで相関係数の算出方法を指定可能。
'pearson': ピアソンの積率相関係数(デフォルト) 'kendall': ケンドールの順位相関係数 'spearman': スピアマンの順位相関係数