کد مقاله | کد نشریه | سال انتشار | مقاله انگلیسی | نسخه تمام متن |
---|---|---|---|---|
2784479 | 1153820 | 2007 | 16 صفحه PDF | دانلود رایگان |

A method is proposed to represent and to analyze complete genome sequences (52 species from procaryotes and eukaryotes), based upon n-gram sequence's frequencies of amino acid pairs (bigrams), separated by a given number of other residues. For each of the species analyzed, it allows us to construct over-abundant and over-deficient occurrence profiles, summarizing amino acid bigram frequencies over the entire genome. The method deals efficiently with a sparseness of statistical representations of individual sequences, and describes every gene sequence in the same way, independently of its length and of the genome sizes. The frequency of over-abundant and over-deficient occurrences of bigrams presents a singular periodicity around 3.5 peptide bonds, suggesting a relation with the alpha helical secondary structure. To cite this article: J.P. Radomski, P.P. Slonimski, C. R. Biologies 330 (2007).
RésuméNous avons développé une méthode d'analyse des séquences, dite des bigrames (n -tuples avec n=2n=2), représentant les 400 combinaisons des 20 acides aminés, séparées par un nombre variable de liaisons peptidiques. Un ensemble de 52 génomes, procaryotes et eucaryotes, a été étudié. Une analyse statistique approfondie permet de dégager, pour chaque génome, un profil caractéristique de combinaisons d'acides aminés significativement surreprésentées ou sous-représentées. La fréquence de ces déviations présente une périodicité de 3,5 liaisons peptidiques, ce qui suggère une relation avec l'hélice alpha de la structure secondaire. Pour citer cet article : J.P. Radomski, P.P. Slonimski, C. R. Biologies 330 (2007).
Journal: Comptes Rendus Biologies - Volume 330, Issue 1, January 2007, Pages 33–48