сасава

Микробна метапротеомика: от обработка на проби, събиране на данни до анализ на данни

Wu Enhui, Qiao Liang*

Катедра по химия, Университет Фудан, Шанхай 200433, Китай

 

 

 

Микроорганизмите са тясно свързани с болестите и здравето на човека. Как да разберем състава на микробните общности и техните функции е основен въпрос, който трябва да бъде проучен спешно. През последните години метапротеомиката се превърна във важно техническо средство за изследване на състава и функцията на микроорганизмите. Въпреки това, поради сложността и високата хетерогенност на пробите от микробната общност, обработката на пробите, събирането на данни от масовата спектрометрия и анализът на данни се превърнаха в трите основни предизвикателства, пред които в момента е изправена метапротеомиката. При метапротеомичния анализ често е необходимо да се оптимизира предварителната обработка на различни типове проби и да се приемат различни схеми за разделяне, обогатяване, екстракция и лизиране на микроби. Подобно на протеома на един вид, режимите за получаване на данни от масспектрометрия в метапротеомиката включват режим на придобиване, зависимо от данни (DDA) и режим на независимо придобиване на данни (DIA). Режимът за събиране на данни DIA може напълно да събере пептидната информация от пробата и има голям потенциал за развитие. Въпреки това, поради сложността на метапротеомните проби, неговият DIA анализ на данни се превърна в основен проблем, който възпрепятства дълбокото покритие на метапротеомиката. По отношение на анализа на данните най-важната стъпка е изграждането на база данни с протеинови последователности. Размерът и пълнотата на базата данни оказват голямо влияние не само върху броя на идентификациите, но и върху анализа на видово и функционално ниво. Понастоящем златният стандарт за изграждане на база данни за метапротеоми е база данни за протеинови последователности, базирана на метагенома. В същото време е доказано, че методът за филтриране на публична база данни, базиран на итеративно търсене, има силна практическа стойност. От гледна точка на специфични стратегии за анализ на данни, пептидно-центрираните методи за анализ на данни DIA са заели абсолютен мейнстрийм. С развитието на дълбокото обучение и изкуствения интелект, това значително ще насърчи точността, покритието и скоростта на анализа на анализа на макропротеомични данни. По отношение на биоинформатичния анализ надолу по веригата, през последните години бяха разработени серия от инструменти за анотация, които могат да извършват анотация на видове на ниво протеин, пептидно ниво и генно ниво, за да се получи съставът на микробните общности. В сравнение с други omics методи, функционалният анализ на микробните общности е уникална характеристика на макропротеомиката. Макропротеомиката се превърна във важна част от мултиомичния анализ на микробните общности и все още има голям потенциал за развитие по отношение на дълбочината на покритие, чувствителността на откриване и пълнотата на анализа на данните.

 

01 Предварителна обработка на пробата

Понастоящем технологията на метапротеомиката се използва широко в изследването на човешки микробиом, почва, храна, океан, активна утайка и други области. В сравнение с анализа на протеома на един вид, предварителната обработка на метапротеома на сложни проби е изправена пред повече предизвикателства. Микробният състав в действителните проби е сложен, динамичният диапазон на изобилие е голям, структурата на клетъчната стена на различните видове микроорганизми е много различна и пробите често съдържат голямо количество протеини на гостоприемника и други примеси. Следователно при анализа на метапротеома често е необходимо да се оптимизират различни типове проби и да се приемат различни схеми за разделяне, обогатяване, екстракция и лизиране на микроби.

Екстракцията на микробни метапротеоми от различни проби има определени прилики, както и някои разлики, но в момента липсва унифициран процес на предварителна обработка за различни типове метапротеомни проби.

 

02 Събиране на данни от масспектрометрия

При анализ на протеом с пушка, пептидната смес след предварителна обработка първо се отделя в хроматографската колона и след това влиза в масспектрометъра за събиране на данни след йонизация. Подобно на анализа на протеома на един вид, режимите за получаване на данни от масспектрометрия в анализа на макропротеома включват режим DDA и режим DIA.

 

С непрекъснатото повторение и актуализиране на инструментите за масова спектрометрия, инструменти за масова спектрометрия с по-висока чувствителност и разделителна способност се прилагат към метапротеома, а дълбочината на покритие на анализа на метапротеома също непрекъснато се подобрява. Дълго време серия от инструменти за масспектрометрия с висока разделителна способност, ръководени от Orbitrap, са били широко използвани в метапротеома.

 

Таблица 1 от оригиналния текст показва някои представителни проучвания върху метапротеомиката от 2011 г. до момента по отношение на тип проба, стратегия за анализ, инструмент за масспектрометрия, метод на придобиване, софтуер за анализ и брой идентификации.

 

03 Анализ на данни от масспектрометрия

3.1 DDA стратегия за анализ на данни

3.1.1 Търсене в база данни

3.1.2de novoстратегия за последователност

3.2 DIA стратегия за анализ на данни

 

04 Класификация на видовете и функционална анотация

Съставът на микробните общности на различни таксономични нива е една от ключовите изследователски области в изследването на микробиома. През последните години бяха разработени серия от анотационни инструменти за анотиране на видове на ниво протеин, пептидно ниво и генно ниво, за да се получи съставът на микробните общности.

 

Същността на функционалната анотация е да се сравни целевата протеинова последователност с базата данни с функционалната протеинова последователност. Използвайки бази данни за генни функции като GO, COG, KEGG, eggNOG и т.н., различни анализи на функционални анотации могат да бъдат извършени върху протеини, идентифицирани от макропротеоми. Инструментите за анотации включват Blast2GO, DAVID, KOBAS и др.

 

05 Резюме и перспектива

Микроорганизмите играят важна роля в човешкото здраве и болести. През последните години метапротеомиката се превърна във важно техническо средство за изследване на функцията на микробните общности. Аналитичният процес на метапротеомиката е подобен на този на едновидовата протеомика, но поради сложността на изследователския обект на метапротеомиката, трябва да се приемат специфични изследователски стратегии във всяка стъпка на анализ, от предварителната обработка на пробата, събирането на данни до анализа на данни. Понастоящем, благодарение на подобряването на методите за предварителна обработка, непрекъснатите иновации на технологията за масспектрометрия и бързото развитие на биоинформатиката, метапротеомиката постигна голям напредък в дълбочината на идентификацията и обхвата на приложение.

 

В процеса на предварителна обработка на проби от макропротеоми първо трябва да се вземе предвид естеството на пробата. Как да се отделят микроорганизмите от клетките и протеините на околната среда е едно от ключовите предизвикателства, пред които са изправени макропротеомите, а балансът между ефективността на разделяне и загубата на микроби е спешен проблем, който трябва да бъде решен. Второ, извличането на протеини от микроорганизми трябва да вземе предвид разликите, причинени от структурната хетерогенност на различните бактерии. Пробите от макропротеоми в обхвата на следи също изискват специфични методи за предварителна обработка.

 

По отношение на инструментите за масова спектрометрия, основните инструменти за масова спектрометрия са преминали през преход от масови спектрометри, базирани на масови анализатори Orbitrap като LTQ-Orbitrap и Q Exactive, към масови спектрометри, базирани на масови анализатори, свързани с подвижността на йони, като timsTOF Pro . Серията инструменти timsTOF с информация за размерите на подвижността на йони имат висока точност на откриване, ниска граница на откриване и добра повторяемост. Те постепенно се превърнаха във важни инструменти в различни изследователски области, които изискват откриване с масспектрометрия, като протеома, метапротеома и метаболома на един вид. Струва си да се отбележи, че за дълго време динамичният обхват на инструментите за масспектрометрия е ограничил дълбочината на протеиново покритие на метапротеомните изследвания. В бъдеще инструментите за масспектрометрия с по-голям динамичен обхват могат да подобрят чувствителността и точността на идентифицирането на протеини в метапротеомите.

 

За събиране на данни от масова спектрометрия, въпреки че режимът за събиране на данни DIA е широко възприет в протеома на един вид, повечето настоящи анализи на макропротеоми все още използват режима за събиране на данни DDA. Режимът за събиране на данни DIA може напълно да получи информацията за фрагментните йони на пробата и в сравнение с режима за събиране на данни DDA, той има потенциала да получи напълно информацията за пептида от пробата на макропротеома. Въпреки това, поради високата сложност на данните от DIA, анализът на данните за макропротеомите на DIA все още е изправен пред големи трудности. Очаква се развитието на изкуствения интелект и дълбокото обучение да подобри точността и пълнотата на анализа на данните от DIA.

 

При анализа на данни на метапротеомиката една от ключовите стъпки е изграждането на база данни с протеинови последователности. За популярни изследователски области като чревна флора могат да се използват бази данни за чревни микроби като IGC и HMP и са постигнати добри резултати при идентификация. За повечето други метапротеомични анализи, най-ефективната стратегия за изграждане на база данни все още е да се създаде база данни за специфична протеинова последователност, базирана на данни за метагеномно секвениране. За проби от микробна общност с висока сложност и голям динамичен диапазон е необходимо да се увеличи дълбочината на секвениране, за да се увеличи идентифицирането на видове с ниско изобилие, като по този начин се подобри покритието на базата данни с протеинови последователности. Когато липсват данни за последователност, може да се използва итеративен метод за търсене за оптимизиране на публичната база данни. Итеративното търсене обаче може да повлияе на контрола на качеството на FDR, така че резултатите от търсенето трябва да бъдат внимателно проверени. В допълнение, приложимостта на традиционните модели за контрол на качеството на FDR в анализа на метапротеомиката все още си струва да се проучи. По отношение на стратегията за търсене, стратегията на хибридната спектрална библиотека може да подобри дълбочината на покритие на метапротеомиката на DIA. През последните години прогнозираната спектрална библиотека, генерирана въз основа на дълбоко обучение, показа превъзходна производителност в DIA протеомиката. Базите данни на метапротеомите обаче често съдържат милиони протеинови записи, което води до голям мащаб от прогнозирани спектрални библиотеки, консумира много компютърни ресурси и води до голямо пространство за търсене. В допълнение, сходството между протеиновите последователности в метапротеомите варира значително, което затруднява осигуряването на точността на модела за прогнозиране на спектралната библиотека, така че прогнозираните спектрални библиотеки не са били широко използвани в метапротеомиката. В допълнение, трябва да се разработят нови стратегии за извод на протеини и анотации за класификация, за да се приложат към метапротеомичен анализ на силно подобни на последователности протеини.

 

В обобщение, като нововъзникваща технология за изследване на микробиома, метапротеомната технология е постигнала значителни изследователски резултати и също има огромен потенциал за развитие.


Време на публикуване: 30 август 2024 г