DNA芯片技術能夠在基因組水平分析基因表達,檢測許多基因的轉錄水平及在不同條件下的基因轉錄變化,顯示反映特征組織類型、發育階段、環境條件應答、遺傳改變的基因譜。基因芯片產生了海量的數據,僅僅進行差異表達分析還遠遠不夠,如何管理分析這些數據、從中挖掘信息已經成為利用這一技術的新的難點。芯片數據大量出現,新的問題隨之而來。如果將所有獲得的數據集中起來,我們能否將未知功能的新基因歸類到已知功能分類中?能否將基因表達與基因功能聯系起來?能否發現新類型的共調控基因?能否從芯片表達數據中得出完整的基因調控網絡?
為了解決這些問題,聚類分析這種統計方法在生物芯片數據研究方面得到廣泛應用。一旦通過實驗確定了表達水平,接下來的聚類分析主要是找到那些有相似表達模式的基因(共表達基因)。因為許多功能相關的基因具有相似的表達模式,例如編碼蛋白質復合物的基因很可能有相似的表達模式,通過這些共表達基因的尋找可以對一些未知基因的功能研究給予提示。另外,共表達基因與共調控基因也可能相關,例如受控于同一個調節過程中的兩個基因很可能是共表達的,通過共表達基因的研究可以對基因調節途徑的研究給予啟發。