日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

來源:數據STUDIO

作者:云朵君

數據分析過程中,需要對獲取到的數據進行分析,往往第一步就是導入數據。導入數據有很多方式,不同的數據文件需要用到不同的導入方式,相同的文件也會有幾種不同的導入方式。下面總結幾種常用的文件導入方法。

Python八種數據導入方法,你掌握了嗎?

 

大多數情況下,會使用NumPy或Pandas來導入數據,因此在開始之前,先執行:

import numpy as np
import pandas as pd

兩種獲取help的方法

很多時候對一些函數方法不是很了解,此時Python/ target=_blank class=infotextkey>Python提供了一些幫助信息,以快速使用Python對象。

  • 使用Numpy中的info方法。
np.info(np.ndarray.dtype)
Python八種數據導入方法,你掌握了嗎?

 

  • Python內置函數
help(pd.read_csv)
Python八種數據導入方法,你掌握了嗎?

 

一、文本文件

1、純文本文件

filename = 'demo.txt'
file = open(filename, mode='r') # 打開文件進行讀取
text = file.read() # 讀取文件的內容
print(file.closed) # 檢查文件是否關閉
file.close() # 關閉文件
print(text)

使用上下文管理器 -- with

with open('demo.txt', 'r') as file:
    print(file.readline()) # 一行一行讀取
    print(file.readline())
    print(file.readline())

2、表格數據:Flat文件

使用 Numpy 讀取 Flat 文件

Numpy 內置函數處理數據的速度是 C 語言級別的。

Flat 文件是一種包含沒有相對關系結構的記錄的文件。(支持Excel、CSV和Tab分割符文件 )

  • 具有一種數據類型的文件

用于分隔值的字符串跳過前兩行。
在第一列和第三列讀取結果數組的類型。

filename = 'mnist.txt'
data = np.loadtxt(filename,
                  delimiter=',',
                  skiprows=2,
                  usecols=[0,2],
                  dtype=str)
  • 具有混合數據類型的文件

兩個硬的要求:

跳過表頭信息

區分橫縱坐標

filename = 'titanic.csv'
data = np.genfromtxt(filename,
                     delimiter=',',
                     names=True,
                     dtype=None)
Python八種數據導入方法,你掌握了嗎?

 

使用 Pandas 讀取Flat文件

filename = 'demo.csv' 
data = pd.read_csv(filename, 
                   nrows=5,        # 要讀取的文件的行數
                   header=None,    # 作為列名的行號
                   sep='t',       # 分隔符使用
                   comment='#',    # 分隔注釋的字符
                   na_values=[""]) # 可以識別為NA/NaN的字符串

二、Excel 電子表格

Pandas中的ExcelFile()是pandas中對excel表格文件進行讀取相關操作非常方便快捷的類,尤其是在對含有多個sheetexcel文件進行操控時非常方便。

file = 'demo.xlsx'
data = pd.ExcelFile(file)
df_sheet2 = data.parse(sheet_name='1960-1966',
                       skiprows=[0],
                       names=['Country',
                              'AAM: War(2002)'])
df_sheet1 = pd.read_excel(data,
                          sheet_name=0,
                          parse_cols=[0],
                          skiprows=[0],
                          names=['Country'])

使用sheet_names屬性獲取要讀取工作表的名稱。

data.sheet_names

三、SAS 文件

SAS (Statistical Analysis System)是一個模塊化、集成化的大型應用軟件系統。其保存的文件即sas是統計分析文件。

from sas7bdat import SAS7BDAT
with SAS7BDAT('demo.sas7bdat') as file:
  df_sas = file.to_data_frame()

四、Stata 文件

Stata 是一套提供其使用者數據分析、數據管理以及繪制專業圖表的完整及整合性統計軟件。其保存的文件后綴名為.dta的Stata文件。

data = pd.read_stata('demo.dta')

五、Pickled 文件

python中幾乎所有的數據類型(列表,字典,集合,類等)都可以用pickle來序列化。python的pickle模塊實現了基本的數據序列和反序列化。通過pickle模塊的序列化操作我們能夠將程序中運行的對象信息保存到文件中去,永久存儲;通過pickle模塊的反序列化操作,我們能夠從文件中創建上一次程序保存的對象。

import pickle
with open('pickled_demo.pkl', 'rb') as file:
   pickled_data = pickle.load(file) # 下載被打開被讀取到的數據

與其相對應的操作是寫入方法pickle.dump() 。

六、HDF5 文件

HDF5文件是一種常見的跨平臺數據儲存文件,可以存儲不同類型的圖像和數碼數據,并且可以在不同類型的機器上傳輸,同時還有統一處理這種文件格式的函數庫。

HDF5 文件一般以 .h5 或者 .hdf5 作為后綴名,需要專門的軟件才能打開預覽文件的內容。

import h5py
filename = 'H-H1_LOSC_4_v1-815411200-4096.hdf5'
data = h5py.File(filename, 'r')

七、Matlab 文件

其由matlab將其工作區間里的數據存儲的后綴為.mat的文件。

import scipy.io
filename = 'workspace.mat'
mat = scipy.io.loadmat(filename)

八、關系型數據庫

from sqlalchemy import create_engine
engine = create_engine('sqlite://Northwind.sqlite')

使用table_names()方法獲取一個表名列表

table_names = engine.table_names()

1、直接查詢關系型數據庫

con = engine.connect()
rs = con.execute("SELECT * FROM Orders")
df = pd.DataFrame(rs.fetchall())
df.columns = rs.keys()
con.close()

使用上下文管理器 -- with

with engine.connect() as con:
    rs = con.execute("SELECT OrderID FROM Orders")
    df = pd.DataFrame(rs.fetchmany(size=5))
    df.columns = rs.keys()

2、使用Pandas查詢關系型數據庫

df = pd.read_sql_query("SELECT * FROM Orders", engine)

數據探索

數據導入后會對數據進行初步探索,如查看數據類型,數據大小、長度等一些基本信息。這里簡單總結一些。

1、NumPy Arrays

data_array.dtype  # 數組元素的數據類型
data_array.shape  # 陣列尺寸
len(data_array)   # 數組的長度

2、Pandas DataFrames

df.head()  # 返回DataFrames前幾行(默認5行)
df.tail()  # 返回DataFrames最后幾行(默認5行)
df.index   # 返回DataFrames索引
df.columns # 返回DataFrames列名
df.info()  # 返回DataFrames基本信息
data_array = data.values # 將DataFrames轉換為NumPy數組

分享到:
標簽:導入 數據
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定