oracle并行操作之并行查詢實(shí)例解析

字號(hào):


    這篇文章主要介紹了oracle并行操作的并行查詢技術(shù),需要的朋友可以參考下。
    oracle數(shù)據(jù)庫的并行操作特性,其本質(zhì)上就是強(qiáng)行榨取除數(shù)據(jù)庫服務(wù)器空閑資源(主要是cpu資源),對一些高負(fù)荷大數(shù)據(jù)量數(shù)據(jù)進(jìn)行分治處理。并行操作是一種非確定性的優(yōu)化策略,在選擇的時(shí)候需要小心對待。目前,使用并行操作特性的主要有下面幾個(gè)方面:
    parallel query:并行查詢,使用多個(gè)操作系統(tǒng)級別的server process來同時(shí)完成一個(gè)sql查詢;
    parallel dml:并行dml操作。類似于parallel query。當(dāng)要對大數(shù)據(jù)量表進(jìn)行dml操作,如insert、update和delete的時(shí)候,可以考慮使用;
    parallel ddl:并行ddl操作。如進(jìn)行大容量數(shù)據(jù)表構(gòu)建、索引rebuild等操作;
    parallel recovery,并行恢復(fù)。當(dāng)數(shù)據(jù)庫實(shí)例崩潰重新啟動(dòng),或者進(jìn)行存儲(chǔ)介質(zhì)恢復(fù)的時(shí)候,可以啟動(dòng)并行恢復(fù)技術(shù)。從而達(dá)到減少恢復(fù)時(shí)間的目的;
    procedural parallel,過程代碼并行化。對我們編寫的代碼片段、存儲(chǔ)過程或者函數(shù),可以實(shí)現(xiàn)執(zhí)行的并行化,從而加快執(zhí)行效率;
    1、并行查詢parallel query
    oracle數(shù)據(jù)庫的并行查詢是比較基礎(chǔ)的技術(shù),也是olap和oracle data warehouse經(jīng)常使用的一種并行技術(shù)。同本系列前面一直強(qiáng)調(diào)的要素相同,在確定使用并行技術(shù)之前,要確定軟硬件的一些先決條件:
    任務(wù)task必要條件。備選進(jìn)行并行操作的任務(wù)task必須是一個(gè)大任務(wù)作業(yè),比如,長時(shí)間的查詢。任務(wù)時(shí)間通常可以以分鐘、小時(shí)進(jìn)行計(jì)數(shù)。只有這樣的任務(wù)和需要,才值得讓我們冒險(xiǎn)使用并行操作方案;
    資源閑置條件。只有在數(shù)據(jù)庫服務(wù)器資源存在閑置的時(shí)候,才可以考慮進(jìn)行并行處理。如果經(jīng)常性的繁忙,貿(mào)然使用并行只能加劇資源的爭用。
    并行操作最大的風(fēng)險(xiǎn)在于并行爭用引起的效率不升反降。所以,要在確定兩個(gè)前提之后,再進(jìn)行并行規(guī)劃處理。
    2、環(huán)境準(zhǔn)備
    首先,準(zhǔn)備實(shí)驗(yàn)環(huán)境。由于筆者使用的一般家用pc虛擬機(jī),所以并行度和存儲(chǔ)量不能反映真實(shí)條件需求,見諒。
    sql> select * from v$version where rownum<2;
    banner
    --------------------------------------------------------------------------------
    oracle database 11g enterprise edition release 11.2.0.1.0 - production
    sql> select count(*) from t;
    count(*)
    ----------
    1160704
    選擇11gr2服務(wù)器環(huán)境,數(shù)據(jù)表t總數(shù)據(jù)量超過一百萬。
    首先,我們觀察一下不使用并行的執(zhí)行情況。
    //提取出使用游標(biāo)信息;
    sql> select sql_text, sql_id, version_count from v$sqlarea where sql_text like 'select count(*) from t%';
    sql_text            sql_id    version_count
    ------------------------------ ------------- -------------
    select count(*) from t     2jkn7rpsbj64t       2
    sql> select * from table(dbms_xplan.display_cursor('2jkn7rpsbj64t',format => 'advanced', cursor_child_no => 0));
    plan_table_output
    --------------------------------------------------------------------------------
    sql_id 2jkn7rpsbj64t, child number 0
    -------------------------------------
    select count(*) from t
    plan hash value: 2966233522
    -------------------------------------------------------------------
    | id | operation     | name | rows | cost (%cpu)| time   |
    -------------------------------------------------------------------
    |  0 | select statement  |   |    | 4464 (100)|     |
    |  1 | sort aggregate  |   |   1 |      |     |
    |  2 |  table access full| t  | 1160k| 4464  (1)| 00:00:54 |
    -------------------------------------------------------------------
    該執(zhí)行計(jì)劃中沒有使用并行特性,進(jìn)行全表掃描。執(zhí)行時(shí)間為54s。
    3、并行查詢計(jì)劃
    首先,我們設(shè)置相應(yīng)的并行度。設(shè)置并行度有兩種方式,一種是使用hint加在特定的sql語句上。另一種是對大對象設(shè)置并行度屬性。
    前者的優(yōu)點(diǎn)是帶有一定的強(qiáng)制性和針對性。就是指定特定的sql語句進(jìn)行并行處理。這樣的優(yōu)點(diǎn)是易于控制并行度,缺點(diǎn)是帶有很強(qiáng)的強(qiáng)制力,當(dāng)數(shù)據(jù)量偏小的時(shí)候,使用并行優(yōu)勢不大。而且如果是顯示指定并行度,又會(huì)帶來移植伸縮性差的缺點(diǎn)。
    后者通過對象的屬性指定并行度。就將并行作為一種執(zhí)行手段,提供給優(yōu)化器進(jìn)行選擇。這樣,cbo會(huì)根據(jù)系統(tǒng)中資源的情況和數(shù)據(jù)的實(shí)際,進(jìn)行執(zhí)行計(jì)劃生成。計(jì)劃中可能是并行,也可能不是并行。這樣的優(yōu)點(diǎn)是將并行與否交予優(yōu)化器cbo去判斷,缺點(diǎn)是并行的濫用風(fēng)險(xiǎn)。
    此處,筆者設(shè)置自動(dòng)確定并行度的方式。
    sql> alter table t parallel;
    table altered
    sql> select count(*) from t;
     count(*)
    ----------
    1160704
    當(dāng)啟動(dòng)查詢時(shí),oracle中的并行伺候進(jìn)程池會(huì)根據(jù)系統(tǒng)中的負(fù)荷和實(shí)際因素,確定分配出的并行進(jìn)程數(shù)量。此時(shí),我們可以通過視圖v$px_process來查看進(jìn)程池中的連接信息。
    sql> select * from v$px_process;
    server_name status      pid spid       sid  serial#
    ----------- --------- ---------- ------------------------ ---------- ----------
    p000    available     25 5776               
    p001    available     26 5778
    注意,并行伺候進(jìn)程是一種特殊的server process,本質(zhì)上是一種可共享的slave進(jìn)程。專用連接模式下,一般的server process與client process是“同生共死”的關(guān)系,終身服務(wù)于一個(gè)client process。而伺候slave進(jìn)程是通過進(jìn)程池進(jìn)行管理的,一旦啟動(dòng)初始化,就會(huì)在一定時(shí)間內(nèi)駐留在系統(tǒng)中,等待下次并行處理到來。
    此時(shí),我們檢查v$process視圖,也可以找到對應(yīng)的信息。
    sql> select * from v$process;
    pid spid     pname username      serial# program   
    -------- ---------- ------------------------ ----- --------------- ---------- -------------------------------
    25 5776      p000 oracle         13 oracle@oracle11g (p000)  
    26 5778      p001 oracle          6 oracle@oracle11g (p001)  
    (篇幅由于原因,予以省略……)
    32 rows selected
    對應(yīng)的os中,也存在相應(yīng)的真實(shí)進(jìn)程伺候。
    [oracle@oracle11g ~]$ ps -ef | grep oracle
    (篇幅由于原因,予以省略……)
    oracle  5700   1 0 17:29 ?    00:00:02 oraclewilson (local=no)
    oracle  5723   1 0 17:33 ?    00:00:00 ora_smco_wilson
    oracle  5764   1 2 17:40 ?    00:00:05 oraclewilson (local=no)
    oracle  5774   1 0 17:42 ?    00:00:00 oraclewilson (local=no)
    oracle  5776   1 0 17:43 ?    00:00:00 ora_p000_wilson
    oracle  5778   1 0 17:43 ?    00:00:00 ora_p001_wilson
    oracle  5820   1 1 17:44 ?    00:00:00 ora_w000_wilson
    由于此時(shí)查詢已經(jīng)結(jié)束,對應(yīng)的并行會(huì)話信息,已經(jīng)消失不可見。
    sql> select * from v$px_session;
    saddr      sid  serial#   qcsid qcserial#
    -------- ---------- ---------- ---------- ----------
    但是,如果任務(wù)的時(shí)間長,是可以捕獲到對應(yīng)信息的。
    從上面的情況看,我們執(zhí)行一個(gè)并行操作時(shí),oracle會(huì)從伺候進(jìn)程池中獲取到對應(yīng)的并行進(jìn)程,來進(jìn)行操作。當(dāng)操作完成后,伺候進(jìn)程還會(huì)等待一定時(shí)間,之后回收。
    并行操作進(jìn)程的資源消耗,通過v$px_sysstat視圖查看。
    sql> col statistic for a30;
    sql> select * from v$px_process_sysstat;
    statistic              value
    ------------------------------ ----------
    servers in use             0
    servers available            0
    servers started             2
    servers shutdown            2
    servers highwater            2
    servers cleaned up           0
    server sessions             6
    memory chunks allocated         4
    memory chunks freed           0
    memory chunks current          4
    memory chunks hwm            4
    buffers allocated           30
    buffers freed             30
    buffers current             0
    buffers hwm               8
    15 rows selected
    下面,我們檢查一下執(zhí)行計(jì)劃信息。
    sql> set pagesize 10000;
    sql> select * from table(dbms_xplan.display_cursor('2jkn7rpsbj64t',format => 'advanced',cursor_child
    _no => 1));
    plan_table_output
    ----------------------------------------------------------------------------------------------------
    sql_id 2jkn7rpsbj64t, child number 1
    -------------------------------------
    select count(*) from t
    plan hash value: 3126468333
    ----------------------------------------------------------------------------------------------------
    | id | operation       | name   | rows | cost (%cpu)| time   |  tq |in-out| pq distrib
    ----------------------------------------------------------------------------------------------------
    |  0 | select statement    |     |    | 2478 (100)|     |    |   |     
    |  1 | sort aggregate    |     |   1 |      |     |    |   |     
    |  2 |  px coordinator    |     |    |      |     |    |   |     
    |  3 |  px send qc (random) | :tq10000 |   1 |      |     | q1,00 | p->s | qc (rand)
    |  4 |   sort aggregate   |     |   1 |      |     | q1,00 | pcwp |     
    |  5 |   px block iterator |     | 1160k| 2478  (1)| 00:00:30 | q1,00 | pcwc |     
    |* 6 |    table access full| t    | 1160k| 2478  (1)| 00:00:30 | q1,00 | pcwp |     
    ----------------------------------------------------------------------------------------------------
    predicate information (identified by operation id):
    ---------------------------------------------------
    6 - access(:z>=:z and :z<=:z)
    從執(zhí)行計(jì)劃的條件(6 - access(:z>=:z and :z<=:z))中,我們可以看到任務(wù)分配,之后分別進(jìn)行全表掃描。最后排序計(jì)算count,合并結(jié)果的過程。
    4、結(jié)論
    oracle parallel query是經(jīng)常使用到的一種并行操作技術(shù)。相對于ddl、dml等類型操作,并行查詢更可以作為系統(tǒng)功能的一個(gè)步驟來進(jìn)行。
    進(jìn)行并行查詢最大的風(fēng)險(xiǎn)就是并行濫用和失控的出現(xiàn)。這也是oracle一直致力解決的問題。在oracle11gr2中,引入了parallel statement queuing(psq)技術(shù)特性。通常,只要并行伺候池允許,oracle會(huì)引入盡可能多的并行進(jìn)程進(jìn)行操作。psq技術(shù)的出現(xiàn),就是從資源角度加入了并行控制。
    當(dāng)系統(tǒng)繁忙的時(shí)候,psq會(huì)將一些要進(jìn)行的并行操作進(jìn)入等待狀態(tài),防止并行環(huán)境的惡化。當(dāng)環(huán)境好轉(zhuǎn)之后,等待隊(duì)列中的并行語句就進(jìn)入執(zhí)行狀態(tài)。這個(gè)特性就可以有效的防止并行濫用的出現(xiàn)。