A worldwide e-Infrastructure for NMR and structural biology

手動執行HADDOCK所需產生的必要條件侷限檔案

HADDOCK中你可以建立以下種類的條件限制參數

  1. 不明確的交互作用限制參數Ambiguous Interaction Restraints (AIRs)
  2. 明確的距離限制參數Unambiguous Distance Restraints
  3. 二面角的限制參數Dihedral Angle Restraints
  4. 氫鍵的限制參數 Hydrogen Bond Restraints
  5. 殘留殘存偶極矩的限制參數 Residual Dipolar Coupling (RDC) Restraints
  6. 擴散非勻性的限制參數 Diffusion Anisotropy (DANI) Restraints

以下你可以找到對每一種類型條件限制參數的解釋:


1. 不明確的交互作用限制參數Ambiguous Interaction Restraints (AIRs)

HADDOCK利用實驗上亦或生物資訊學上的訊息於電腦運算中建構複合體(complex)的形成(利用由核磁共振化學位移擾動chemical shift perturbation CSP 的資料,你可以參考此反本中的範例研究選項 [1] )。實驗與預測的資料被用來定義主動與被動的蛋白質殘基。

主動的殘基(active residue)是利用實驗上被定義或預測可與溶劑分子交互作用或可接觸的介面殘基(蛋白質分子中主鏈或支鏈的相對溶劑可接觸性relative solvent accessibility基本上需大於40~50%)。利用相對溶劑可接觸性排除法並不是一個嚴格的限制參數,你應該仔細檢查那些殘基位於介面,同時包括具有較低溶劑但在蛋白質辨識結合上具有重要功能的殘基。那些被動的殘基(passive residue)即為所有位於表面溶劑可接觸且鄰近主動殘基旁的所有殘基。

這裡該注意的是所謂主動與被動的殘基必須由使用者從他們的實驗與資料解釋上來定義,尤其是在核磁共振滴定實驗(一種由化學位移顯著性去計算平均擾動且考慮那些高於平均值的擾動是否為顯著的方法)所獲得的結構數據。

主動與被動殘基被用來定義在分子與被接合(docking)分子間AIRs中的網絡。一個AIR即為當兩分子間能形成複合體時,位於生物分子表面的一個殘基與另一個交互分子上鄰近的一個或多個殘基的組合。一般而言這裡以一個不明確的距離限制參數來描述那些在複合物介面上來源殘基與目標殘基所有原子間的關係,如以下圖示:

air_def.gif
根據圖示,一個AIR即一個在A蛋白上主動i 殘基中任一原子與所有在蛋白B上的主被動殘基x,y,z。這些指定殘基間的計算距離即為有效距離diABeff (effective distance)可表示為:

AIR-def.png

這裡NAatom 指在A蛋白上來源殘基中所有原子,NresB NBatom分別指標的蛋白B中在交互界面的所有殘基與與殘基中所有原子。1/r6的總加成有時可以模擬Lennard-Jone作用勢中描述引力的部分且確保AIRs在兩原子接觸時能滿足一切條件。至於如何產生與AIR的細節在計劃設定(Project Setup)部分有詳細介紹。

當你已經定義好你的主動與被動殘基時,

  1. 到manual-HADDOCK首頁: http://www.nmr.chem.uu.nl/haddock/ [2]
  2. 選擇 Project Setup 且點選 Generate AIR file
  3. 進入對每個分子對應到的主動與被動的殘基數目
  4. 對AIRs定義一個較高的距離限制參數(在一分子內的主動殘基的任一原子到另一分子上主被動殘基原子間的最大距離)。該注意的是在內建值給定一個較高距離限制參數2 Å,這看似相當緊密,但記住,當根據方程式的總合運算,有效距離將總是比最短距離來得緊密,除此之外,當距離的不確定性程度非常高時 (當幾千個距離資訊可以被輸入疊加時),當考慮diABeff (effective distance)的疊加時,有效距離較於最短距離可以變得相當短。
  5. 最後,點選 Generate AIR restraints 的選項,由此,一個以CMS 模式的AIR restraints 檔便可產生。為了儲存這個檔案,可以利用copy& paste 複製其內容至一個新的檔案,或是利用File>Save as 選項來選擇儲存路徑。生物資訊上的介面條件預測Use of bioinformatics interface predictions

在交互介面的辨別上沒有任何實驗上的資訊時,你或許可以藉由一些生物資訊學的方法來預測交互介面的殘基。為此我們發展出兩個介面預測軟體:WHISCY [3]CPORT [4]。WHISCY的運算邏輯法則是根據蛋白質序列保守性;CPORT則利用許多既有的運算邏輯法則計算結果取得保守介面預測的交集 。此兩種軟體都具有非常簡易的使用者介面,可以提供輸出主動與被動殘基的列表,其格式可以直接用於HADDOCK上。另外,CPORT的網站介面上也提供使用者調整預測時的靈敏度與專一性的選項。

S.J. de Vries, A.D.J. van Dijk and A.M.J.J. Bonvin, "WHISCY: WHat Information does Surface Conservation Yield? Application to data-driven docking.", Proteins: Struc. Funct. & Bioinformatics, 63, 479-489 (2006). http://www.nmr.chem.uu.nl/whiscy [3]

S.J. de Vries and A.M.J.J. Bonvin, "CPORT: a Consensus Interface Predictor and its Performance in Prediction-driven Docking with HADDOCK", PloS One, DOI:10.1371/journal.pone.0017695 (2011). http://haddock.chem.uu.nl/services/CPORT/cport.html [4]


1.1. 使用隨機AIRs 的定義(ab-initio mode)

在沒有任何實驗或生物資訊學的資訊來執行分子間接合(Docking)時,HADDOCK 2.1 提供一個利用由溶劑可接觸性殘基(>20% 相對可接觸性)隨機定義AIRs的選擇。每一個接合的計算會使用不同的AIRs。這裡的限制參數檔案會由 randomairs.cns 這個指令檔(script)所定義,在啟動ab-initio mode前,你應該先修改run.cns這個檔案。如果你想要手動修改,你應該改變設定參數由 randair=falserandair=ture。關於參數設定的細節,在Settings/random_interface的章節有詳細的解釋與說明。

如果在剛體rigid-body接合階段(it0)能產生足夠數量的結構,這些結構將成為在ab-initio mode裡根據內建設定辨識溶劑可接觸性殘基的依據。如果結合隨機AIR與半動態(semi-flexible)區塊的的定義,你可以限制參數對所選定的一個表面區域的採樣(例如CDR Loop在抗體-抗原的複合體中是主要參與分子結合的區塊)。為了定義半動態的部分,我們需要再一次修改run.cns這個檔案(改變nseg_X的值與相關的參數)。 關於參數設定的細節,在Settings/ semi_flexible 的章節有詳細的解釋與說明。

隨機的AIRs被定義為在分子內一隨機選定的批次(半徑5 Å內)與另一個分子上隨機選定的批次(半徑7.5 Å內)之間的關係,反之亦然,這定義被編譯在 randimairs.cns中。此類AIRs的產生如下(只有在完全無動態體rigid-body能量最小化階段才正確):

  • 隨機選擇在每個分子上的一個殘基(Ai,Bi)。

  • 所有分布在表面於此殘基旁者(半徑5 Å內)也須選取。

  • AIRs 由分子A (Ai + 於半徑5 Å內所有殘基)上選定的每個殘基與第一個由分子B上隨機選定的殘基與其半徑7.5 Å內的所有殘基(Bi+於半徑7.5 Å內所有殘基)之間所定義。

  • AIRs 由分子B (Bi + 於半徑5 Å內所有殘基)上選定的每個殘基與第一個由分子A上隨機選定的殘基與其半徑7.5 Å內的所有殘基(Ai+於半徑7.5 Å內所有殘基)之間所定義。被選定的殘基以下結構/it0被寫入fileroot_1.disp,...

至於半動態(semi-flexible)檢驗的階段,所有介於分子間介面半徑5 Å內的殘基會被自動定義為AIRs。在最後水分子精算(water refinement)的階段,將沒有AIR的限制參數定義。由於第一階段剛體對接(rigid body docking)產生的結構數目決定於有多少延展表面被採樣,為確保分子互動表面可能結構組合的完整採樣,使用者應該增加第一階段剛體對接產生的結構數目 (比方說10000)。
      


1.2. 表面接觸限制參數的使用Use of Surface Contacts Restraints

使用者若需要讓程式來自動定義表面接觸限制參數,可以修改run.cns檔案中的surfrest參數為true (surfrest=true,詳見Settings/surface_contact 章節) 。這些限制參數檔被定義在surf-restraint.cns指令檔中,其輸出檔案可以完全與所有其他限制參數檔相容。

一旦surfrest參數被啟動,一個不明確的距離限制參數將被用來定義每個分子對間的表面接觸限制參數。這個接觸限制參數將以加成平均的方式來計算(如同AIRs)其中一個分子的CA或磷酸(P)原子(蛋白亦或DNA)與另外一個分子的所有CA或磷酸(P)原子間距。如果單一一個分子含有CA或磷酸(P)原子數小於三,該分子中所有原子將會被選擇。這些不明確的距離限制參數的最高上限距離將被限制參數為7 Å (兩分子都含有CA亦或P原子)4.5 Å (只有一分子內含有CA亦或P原子)或2Å (沒有分子含有CA亦或P原子)。

在多體分子(N>2)接合(Docking)時,這些限制參數能有效確保所有分子會互相接觸,因此促進分子錯合物的緊致性。至於隨機的AIRs,表面接觸限制參數可以用在ab-initio接合的計算。此時,大量的計算剛體接合結構數目是很重要的。
 


1.3. 質量中心限制參數的利用 Use of Center of Mass Restraints

HADDOCK 2.1可以啟動run.cns中的cmrest參數,讓多分子間質量中心的限制參數可以自動被定義: cmrest=true (詳見Settings/center_mass)。這些限制參數定義在cm-restraint.cns script中且可以與其他不同的限制參數相容。


2. 明確距離限制參數 Unambiguous Distance Restraints

如果你有NOE (nuclear Overhouser Effect)的距離限制參數或任意種類關於任何原子對間距離的資訊,你可以以CNS (crystallography and nuclear magnetic resonance system)語法建立一個距離限制參數檔。關於明確距離限制參數檔案的格式說明,請參見以下網址: http://cns.csb.yale.edu/v1.1/tutorial/formats/noe/text.html [5]
 


3. 二面角限制參數 Dihedral Angle Restraints

如果你能取得複合體結構中的二面角資訊,HADDOCK可以針對這類型的資訊限制參數來執行接合。關於二面角限制參數的格式說明,請參見以下網址: http://cns.csb.yale.edu/v1.1/tutorial/formats/dihedral/text.html [6]
 


4. 氫鍵限制參數 Hydrogen bond (H-bond) restraints

利用已知氫鍵來接合你的複合體,你可以建立一個氫鍵的限制參數檔案,其語法與之前提及的明確距離限制參數(unambiguous distance restraints)相同。


5. 殘留殘存偶極矩限制參數 Residual dipolar coupling (RDC) restraints

殘留殘存偶極矩可以提供許多分子位向的有用資訊,用以提供接合計算。HADDOCK載入殘留殘存偶極矩資訊的方法有兩種:
i. 直接作為殘留殘存偶極矩的限制參數(CNS程式內的SANI定義)
ii. 間接藉著定義交互向量投射角度(inter-vector projection angle)的限制參數(CNS程式內的VEAN定義)

由我們的實驗中兩種方法都可以在接合中拿到好的結果,使用交互向量投射角度的限制參數(Meiler et al., 2000, J. Biomol. NMR 17, 185, 2000)避免用張量(tensor)於結構中計算分析時產生的大量負擔。另一個好處是可以區分分子內或分子間的限制參數。既然部分系統一般在接合時將被保持在無動態的剛體狀態,採用分子內的限制參數或許沒有這麼大的必要性。

總而言之,張量的成分需要先被決定,在複合體的情況下,這可以簡單地利用已知的單一結構來完成。Pales (Zweckstetter and Bax 2000, J. Am. Chem. Soc. 122, 3791-3792) 這個軟體可以用來完成此目的。為此你需要產生一個具有你的RDC於Pale的輸入檔。haddock/tools的路徑中含有一個稱為ana_pdb_Q-factor.csh的指令檔(C-shell script)可以用來計算實驗上殘留殘存偶極矩的理論值。所有儲存於該目錄下的蛋白質結構座標檔案(PDB)的張量參數都可以透過該程式取得。該指令檔的使用方法如下:

$HADDOCK/tools/ana_pdb_Q-factor.csh pales.inp

輸出檔將被寫入PDBfilename.pales的延伸檔。利用以下命令可得到張量的參數Axx,Ayy與Azz:

grep Axx *.pales | gawk '{print $4,$5,$6}' > xx-yy-zz.dat

由結構所得到的最適化組成成分可以提供接下使用,或者該平均值也可以透過以下指令進行計算:

cat xx-yy-zz.dat | awk '{print $1}' | $HADDOCKTOOLS/average.perl
cat xx-yy-zz.dat | awk '{print $2}' | $HADDOCKTOOLS/average.perl
cat xx-yy-zz.dat | awk '{print $3}' | $HADDOCKTOOLS/average.perl

在平均前以上數據之前,請檢查xx-yy-zz.dat檔中的數值,確保它們的正負號是一致的。利用下列命令可以由Pales 1.2的輸出檔中截取axial (Da)與rhombic (Dr)參數並進而平均:

grep Da *.pales | awk '{print $3}' | $HADDOCKTOOLS/average.perl
grep Dr *.pales | awk '{print $3}' | $HADDOCKTOOLS/average.perl

注意: HADDOCK與CNS中所使用的張量成分應該以Hertz表示,同時經由Pales所計算的參數值應該依據核種的不同來調整。如對N-H的殘留殘存偶極矩需要適當的調校係數(21700)。此外,不同的程式會採用不同的轉換法、表示法、甚至單位。因此在參數轉換上必須特別小心。
 


5.1. 直接使用殘留殘存偶極矩(RDC)作為接合時的限制參數

適當的RDC限制參數檔案格式如下

assi ( resid 999 and name OO )
   ( resid 999 and name Z )
   ( resid 999 and name X )
   ( resid 999 and name Y )
   ( resid  20 and name N and segid A )
   ( resid  20 and name HN and segid A )  2.981  0.200

給定一個CNS格式具有residue_number RDC_value and segid RDC的限制參數檔案,可以在HADDOCK/RDCtools路徑下利用提供的gawk script generate_sani來產生

$HADDOCK/RDCtools/generate_sani rdc_data_file

在RDCs上內建誤差被設定為0.2 Hz。使用者可以透過以下指令給定不同的誤差值:

$HADDOCK/RDCtools/generate_sani ERR=0.4 rdc_data_file

HADDOCK 2.1可同時讀入至多五個不同的SANI限制參數檔,每個檔案對應一個獨立的張量。張量的殘基數應在999-995範圍內。你可以藉著編輯或修改generate_sani script來改變張量數。如果要在HADDOCK計算中包含殘留殘存偶極矩限制參數,請在run.cns檔案內的殘存偶極矩(dipolar coupling)部分使用SANI,且定義適當的Da與參數R (R = Dr/Da)。殘留殘存偶極矩的限制參數先被使用於剛體能量最小化的步驟中作為一熱變化中外部的作用力常數。為了保持在AIR與SANI能量項上的平衡,作用力常數需保持在很小的狀態(內設值為0.02)。

注意事項

  1. HADDOCK目前只能在SANI模式下採用一組殘存偶極矩(對應到一個校對張量)作為限制參數。如果須要同時採用多組殘存偶極矩數據,則必須以向量間投射角度的型式作為限制參數。
  2. 為求得適當的接合結果,不同分子殘存偶極矩的限制參數應該合併在同一組檔案作為來輸入檔(在每個分子間不能被分開為多組)。但是合併檔案得前提是多組殘存偶極矩數據共享一個校對張量。
     

5.2. 接合時向量間投射角度(Intervector projection angle)的限制參數

向量間投射角度限制參數 (Meiler et al., 2000, J. Biomol. NMR 17, 185)可以藉著殘存偶極矩數據的取得與產生向量間角度限制參數 (與二面角有些相似)。這類限制參數不需要決定偶極向量對應到校對張量中的相對角度。相反的,它們決定了兩個偶極向量間的夾角,因此會產生兩個能量最小值。因此兩個作用力常數需要被另外定義:一個定義邊界位能方程,另一個定義兩最小值間的中心點。

感謝來自劍橋大學的Helen Mott與Wayne Boucher,我們在HADDOCK/RDCtools目錄下提供一python script(dipole_segid.py)。該檔案可用來產生由殘存偶極矩數據等資訊而計算出來的限制參數。該程式需要一個包含殘基序列(residue_number),殘存偶極矩數值(RDC_value)與片斷辨識碼(segid)的殘存偶極矩資料列表且提供張量中DxxDyyDzz (以Hertz表示) 的成分。蛋白質氨基骨架NH的耦合,等於21700乘上由Pales給定的特徵值 (eigenvalues) 矩正。其計算程序可透過以下指令完成:

python $HADDOCK/RDCtools/dipolar_segid.py rdc_data_file vean_output_file Dxx Dyy Dzz

輸出限制參數結果如下:

assign (residue 19 and name N and segid B) (residue 19 and name NH and segid B) (residue 27 and name N and segid B) (residue 27 and name NH and segid B) 13.1 2.9 166.9 2.9 excluded 0.935
assign (residue 75 and name N and segid A) (residue 75 and name NH and segid A) (residue 27 and name N and segid B) (residue 27 and name NH and segid B) 13.1 2.9 166.9 2.9 ! excluded 0.935

最後一行提供利用限制參數排除的角度空間,可以用來選定顯著的限制參數,也就是說限制參數多於25%的扭轉空間。該注意的是,產生的限制參數量非常高,因為對N殘存偶極矩就有N*(N-1)種可能組合

以下範例,選定所有分子間與分子內限制參數,排除多於25%角度空間外的限制參數,可以輸入:

awk’{if ($27==$9&&$44 >0.25) {print $0}}’ vean_output_file >vean_intra_25.tbl
awk’{if ($27==$9&&$44 >0.25) {print $0}}’ vean_output_file >vean_inter_25.tbl

若要在HADDOCK中使用向量間投射角度限制參數,可以利用run.cns中殘存偶極矩部分的VANGLE參數。VANGLE的限制參數是在初始階段進行剛體接合時的能量最小化的加熱過程中所引進的作用力常數。這個限制參數則在第二次旋轉能量最小化階段被啟用(因此是在SANI給定限制參數之前便出現)。
 


6. 散非勻性的限制參數 Diffusion Anisotropy (DANI) Restraint

DANI的資料(弛豫的資料)可以在被接合的分子位向上提供非常有用的資訊(相較於RDC)。於HADDOCK中DANI的資訊可以被引入作為一直接的限制參數 (DANI狀態於CNS中)。對此,張量的成分需要先被決定,在複合體的情況下,這可以簡單地利用已知的單一結構來完成。 Tensor2 (Dosset, Marion and Blackledge, 2000, . J. Biomol. NMR 16, 23-28) 這個軟體可以用來完成此目的。為此於Tensor2你需要產生一個具有你弛豫資料的輸入檔。一個csh script稱為ana_pdb_tensor2.csh提供位於haddock/DANItools,將被用來計算實驗上弛豫的資料。所有現存於PDB中張量的參數在當下的路徑中對應其三維結構來做最適化。利用:

$HADDOCK/DANItools/ana_pdb_tensor2.csh tensor2.inp

注意: 你需要手動定義於Tensor2 GUI中最適化選項。Tensor2將其每個結構的輸出寫為一個檔案,稱為resaniso.0;每個檔案以當下對應到pdb檔案相同的名稱被移至另一個次路徑。

這個script拿到關於張量的參數Dx,Dy與Dz且最適化後的chi-square值,這些動作可以被結合,利用以下命令:

paste D?_all.tmp chi2_all.tmp | awk '{print $1,$8,$16,$24,$27*100/100}' | sort -n +4 >tensor2_fit.lis

由結構得到的成分拿來最適化可使用的實驗數據後,可以被用來計算張量的參數,在具有script calc_ten.cshrun.cns中需要 (haddock/DANItools路徑下有提供)。利用:

$HADDOCK/DANItools/calc_tens.csh dx dy dz

這裡dx,dy與dz 是由tensor2_fit.lis 這個檔案中的值,輸出檔calc_tens.csh可以直接在run.cns作為旋轉相關時間dan1_tc,不勻性 (anisotropy) dan1_anis,對應到旋轉擴散張量的rhombicity dan1_r,相對地,平均值也可以使用,利用以下計算出:

cat tensor2_fit.lis | awk’{print $2}’ | $HADDOCKTOOLS/average.perl
cat tensor2_fit.lis | awk’{print $3}’ | $HADDOCKTOOLS/average.perl
cat tensor2_fit.lis | awk’{print $4}’ | $HADDOCKTOOLS/average.perl

確認於tensor2_fit.lis檔中的值,在平均前確保它們是相符的 (同一符號表示),也確保不勻性模型與你的資料是一致的。

利用弛豫現象(relaxation)作為接合時的限制參數:

適當DANI格式如下:

assi ( resid 999 and name OO )
   ( resid 999 and name Z )
   ( resid 999 and name X )
   ( resid 999 and name Y )
   ( resid  20 and name N and segid A )
   ( resid  20 and name HN and segid A )  8.705  0.200

這個限制參數利用R1/R2 商值,應該要除去具有化學交換與動態影響的殘基。給定一個檔案具有residue_number R1/R1value與Segid 的CNS格式限制參數檔,這個檔案可以利用HADDOCK/DANItools目錄中的gawk script (generate_dani)來產生:

$HADDOCK/DANItools/generate_dani dani_data_file

起始誤差植被設定為0.2,可以由不同根據給定的誤差值來論述。

$HADDOCK/DANItools/generate_dani ERR=0.5 dani_data_file

2.1 版 HADDOCK 支援至少5種不同的SANI限制參數設定,每個具有一個分別的張量。張量的殘基數應在999-995範圍內。你可以藉著編輯或修改generate_dani script來改變張量數。於HADDOCK中利用DANI限制參數,於DANI部分使用run.cns的DANI且定義適當的擴散不勻性(anisotropy)與由calc_ten.csh script計算輸出的張量參數。DANI的限制參數先被使用於剛體能量最小化的步驟中作為一熱相變化中的作用力常數。
 


來源URL:
http://www.wenmr.eu/wenmr/generating-necessary-restraint-files-running-haddock-manually

參考連結:

  1. http://www.wenmr.eu/wenmr/../346/edit%23Case%20Study
  2. http://www.nmr.chem.uu.nl/haddock/

  3. http://www.nmr.chem.uu.nl/whiscy

  4. http://haddock.chem.uu.nl/services/CPORT/cport.html
  5. http://cns.csb.yale.edu/v1.1/tutorial/formats/noe/text.html

  6. http://cns.csb.yale.edu/v1.1/tutorial/formats/dihedral/text.html
0
Your rating: None

Cite WeNMR/WestLife

 
Usage of the WeNMR/WestLife portals should be acknowledged in any publication:
 
"The FP7 WeNMR (project# 261572) and H2020 West-Life (project# 675858) European e-Infrastructure projects are acknowledged for the use of their web portals, which make use of the EGI infrastructure and DIRAC4EGI service with the dedicated support of CESNET-MetaCloud, INFN-PADOVA, NCG-INGRID-PT, RAL-LCG2, TW-NCHC, SURFsara and NIKHEF, and the additional support of the national GRID Initiatives of Belgium, France, Italy, Germany, the Netherlands, Poland, Portugal, Spain, UK, South Africa, Malaysia, Taiwan and the US Open Science Grid."
 
And the following article describing the WeNMR portals should be cited:
Wassenaar et al. (2012). WeNMR: Structural Biology on the Grid.J. Grid. Comp., 10:743-767.

EGI-approved

The WeNMR Virtual Research Community has been the first to be officially recognized by the EGI.

European Union

WeNMR is an e-Infrastructure project funded under the 7th framework of the EU. Contract no. 261572

WestLife, the follow up project of WeNMR is a Virtual Research Environment e-Infrastructure project funded under Horizon 2020. Contract no. 675858

West-Life