Arbetsflöde

Mål och status

Det övergripande målet för Human Protein Atlas-projektet är att genom antikroppsbaserad proteomik i kombination med genomik och transkriptomik, kartlägga proteinuttrycket av människans runt 20.000 proteinkodande gener i en stor mängd normala vävnader, cancerformer och celltyper. Den strategi som används för att uppnå målet involverar storskalig framställning och validering av antikroppar mot minst en isoform av samtliga proteinkodande gener. Dessa antikroppar används därefter i en mängd olika analyser, inklusive immunhistokemisk färgning av mänskliga vävnader och cancerprover, immunofluorescens i cellinjer samt för Western blot. Denna kartläggning av det mänskliga proteomet kan ses som en naturlig fortsättning på kartläggningen av det mänskliga genomet och projektet baseras i mycket hög grad på den information som vi redan har om människans arvsmassa.

Human Protein Atlas-projektet initierades 2003 och finansieras i huvudsak av Knut och Alice Wallenbergs stiftelse. Den första online-versionen av Atlasen blev publikt tillgänglig 2005. Den innehöll då data från strax över 700 antikroppar. I den senaste versionen av the Human Protein Atlas (v.21, släppt i november 2021) har proteinuttrycket från mer än 17.100 mänskliga gener analyserats med över 26.900 antikroppar, vilket motsvarar 87% av människans protein-kodande genom.

Antigen och antikroppar

Human Protein Atlas-projektet har producerat sammanlagt mer än 50,000 polyklonala antikroppar specifika mot en stor mängd olika humana rekombinant framställda proteinfragment (100-150 aminosyror), så kallade PrEST:ar (Protein Epitope Signature Tags). Samtliga antikroppar affinitetsrenas med hjälp av de proteinspecifika PrEST-fragmenten för att säkerställa att alla antikroppar binder till målproteinet. Utöver de egenproducerade antikropparna, har Human Protein Atlas även tillgång till mer än 12,000 antikroppar från över 100 olika kommersiella aktörer, tillhandahållna genom samarbeten.

Framställning av data till Tissue, Pathology, Single Cell Type och övriga sektioner

Alla antikroppar som godkänts för kartläggning av proteinuttryck färgas på en serie bestående av 8 olika tissue microarrays (TMAs) som innehåller sammanlagt 44 olika normala vävnader (i triplikat) och 20 olika former av cancer (vanligen 12 patienter per cancer, i duplikat). För varje antikropp färgas totalt 576 olika prov som därefter skannas in som högupplösta digitala bilder. Vävnadsbilderna annoteras manuellt av specialutbildad personal för att kartlägga antikropparnas färgningsmönster.

Efter annoteringssteget utvärderas kvalité och samstämmighet bland all tillgänglig data kopplad till en specifik gens uttryck, vilket mynnar ut i en trovärdighets-rankning (reliability score) av proteinuttryckets kartläggning. Följande data utvärderas:

  • Annoterade färgningsmönster hos de antikroppar som är riktade mot det korresponderande proteinet.

  • Normaliserade mRNA-uttrycksvärden (nTPM) för samtliga vävnader/organ.

  • Tillgänglig genrelaterad forskningslitteratur.

Slutligen publiceras kartläggningen tillsammans med alla vävnadsbilder, antikroppsannoteringsdata och övrig antikroppsrelaterad information i den nästföljande versionen av The Human Protein Atlas (www.proteinatlas.org).

Figur 1: Illustration av arbetsflödet i Human Protein Atlas Uppsala-grupp, uppdelat i 3 huvudsteg: 1) Först genereras data i form av scannade antikroppsfärgade tissue-microarrays. 2) Sedan analyseras och utvärderas vävnadsbilderna genom att jämföra färgningsmönstret med tillgänglig mRNA-uttrycksvärden och genrelaterad forskningslitteratur. 3) Slutligen presenteras utvärderingen som uttrycksprofiler tillsammans med samtliga bilder, vilket publiceras i den nästföljande versionen av Human Protein Atlas.

Senaste åren har stora mängder transkriptomik-data genererats och importerats till Human Protein Atlas. Uttrycksnivåer för mRNA från tre olika projekt (HPA, GTEx, FANTOM5) i de flesta organ- och vävnadstyper för samtliga proteinkodande gener finns nu tillgängligt i Tissue-sektionen. Datat från HPA och GTEx har även slagits samman för att bilda en normaliserad uttrycksnivå i form av normaliserad TPM (nTPM). Med hjälp av de nTPM-baserade mRNA-nivåerna har varje gens mRNA-uttryck kategoriserats enligt grad av specificitet och distribution i kroppens olika organ, vävnader och celltyper. I tillägg har varje gens mRNA-uttryck kategoriserats i uttryckskluster, där gener som har liknande uttrycksprofil i kroppens samtliga organ har grupperats ihop i kluster, vilket visualiseras i UMAP-klusterdiagram. Uttryckskluster är även gjort för mRNA-datat i fyra andra sektioner: Single Cell Type, Brain, Immune Cell och Cell Line.

I Pathology-sektionen återfinns förutom antikroppsbaserad analys av protein-uttrycket i vävnader från 20 olika cancrar även mRNA-uttrycksdata för varje gen i vävnader från 17 olika cancerformer importerat från The Cancer Genome Atlas (TCGA). Varje gens cancer-relaterade mRNA-uttryck kategoriseras enligt grad av specificitet. Utöver analys av mRNA-uttryckets specificitet för olika cancrar, finns även prognostiska analyser av mRNA-uttryckets association med överlevnad visualiserat i Kaplan-Meier-diagram. Varje gen kategoriseras sedan som gynnsam eller ogynnsam för de cancerformer där associationen når statistisk säkerhet (p<0.001). I övriga cancrar kategoriseras genuttrycket som icke-prognostiskt.

I Single Cell Type-sektionen, finns mRNA-uttrycksdata på singelcell-nivå för 25 olika vävnader, framtaget med hjälp av så kallad singelcell-RNA-sekvensering (scRNA-seq), tillsammans med antikroppsfärgade vävnadsbilder som visar det associerade proteinuttrycksmönstret i den aktuella vävnaden. Singelcell-analysen baseras på fritt tillgänglig uttrycksdata från olika publikationer som inkluderar hela genomets proteinkodande gener i 444 individuella singelcell-kluster. Dessa kluster har analyserats med hjälp av över 500 välkända celltyp-specifika markörer och bedömts omfatta 15 celltypsgrupper med totalt 78 olika celltyper. Uttrycket av varje gen kan utforskas i de olika celltyperna via interaktiva UMAP-diagram och stapeldiagram, som har inbyggda länkar till korresponderande antikroppsfärgade vävnadsbilder. I tillägg till UMAP-diagram för singelcell-kluster, finns även UMAP-diagram för att visualisera en uttrycksklusteranalys som grupperar gener som har liknande uttrycksprofil i de olika celltyperna.

Övriga sju sektionerna sköts huvudsakligen av andra grupper inom Human Protein Atlas, varav fyra är nya kreationer sedan version 21.

I Brain-sektionen kombineras mRNA-uttrycksdata och antikroppsbaserad analys av proteinuttryck för att kartlägga genuttrycket i däggdjurshjärnans olika delar. Transkriptomikdata för varje gen i över 200 olika hjärnregioner i människa och över 10 hjärnregioner i gris och mus, kombineras med högupplöst spatiell antikroppsbaserad proteinuttrycksdata i mushjärna (hela hjärnsnitt) och människohjärna (människovävnad från Tissue Atlas).

Tissue Cell Type-sektionen bygger på en korrelationsanalys av mRNA-uttrycket från bulk-RNA-data i 14 olika organ. Analysen är ett komplement till Single Cell Type-datat genom att bidra till att identifiera gener som i huvudsak uttrycks av enstaka celltyper inom ett organ. Genom att korrelera mRNA-uttrycket av genmarkörpaneler, bestående av tre celltypspecifika markörgener (virtuella referens-transkript) per celltyp, med uttrycket av övriga gener, har man skapat predikteringar för celltypspecificitet av genuttrycket inom ett organ för samtliga proteinkodande gener. Specificitetsberäkningen resulterar i ett värde upp till 1, där 1 innebär fullständig korrelation. För att underlätta utforskning av datat har korrelationsvärdena kategoriserats in i tre olika grader av anrikad (eng: enriched) celltypspecificitet (moderate, high, very high), vilket belyser hur mycket mer en gen är uttryckt i en viss celltyp jämfört med övriga celltyper inom samma organ.

Tidigare sektionen Blood Atlas har delats upp i två separata sektioner: Immune Cell och Blood Protein. I Immune Cell utforskas genuttrycket i blodceller. Transkriptomikdata från tre olika projekt (HPA, Monaco, Schmiedel) för mRNA-uttryck i olika blodcelltyper har genererats med hjälp av en kombination av cellsortering och RNA-seq. Blodcellsdatat kompletteras i Blood Protein-sektionen av proteomikdata i form av proteinkoncentrationer i plasma och blod som tagits fram med hjälp av masspektrometri och/eller antikroppsbaserad immunanalys. Utöver analys av plasmaprotein-koncentration, har även människans distribution av utsöndrade protein, “The Human Secretome”, kartlagts och publicerats i Blood Protein-sektionen. Slutdestinationen för utsöndrade protein har annoterats för 2793 kandidater med hjälp av tillgänglig forskningslitteratur.

Parallellt med den immunhistokemiska analysen i vävnader, utförs även en analys av antikroppens subcellulära inbindningsmönster med hjälp av immunfluorescens och konfokalmikroskopi med 36 olika cellinjer som utgångspunkt. Den subcellulära lokaliteten har annoterats manuellt till en eller flera av 35 olika organeller eller subcellulära strukturer i tre utvalda cellinjer för över 13 000 proteiner. Datat och bilderna publiceras i Subcellular-sektionen.

En Cell Line-sektion har även skapats för utforskningen av mRNA-uttrycket för samtliga proteinkodande gener i 69 etablerade cellinjer från människa. Så som i andra sektioner, har även detta mRNA-uttryck kategoriserats enligt grad av specificitet och distribution samt grupperats i uttryckskluster.

Metabolic-sektionen är en tillbyggnad till Human Protein Atlas, importerad från metabolicatlas.org för att utforska genuttryck och proteiners funktion i förhållande till de molekylära nätverken inom människans metabolism. Över 120 olika manuellt kurerade kartor över metaboliska nätverk har importerats. För varje gen tillhandahålls eventuell metabol information i form av en sammanfattande text och samtliga metabola nätverk, reaktioner och subcellulära lokaler kopplade till det korresponderade proteinet. Varje metabolt nätverk kan i sin tur utforskas i sin helhet tillsammans med mRNA-uttrycket (nTPM) för samtliga ingående gener i 256 olika vävnader.

Hemsidan

Allt data görs fritt tillgängligt gratis på The Human Protein Atlas hemsida (www.proteinatlas.org), en databas med över 150,000 unika besökare per månad och som uppdateras årligen med nya data och funktioner. Data angående det önskade proteinet hittas genom en sökning. Möjliga söktermer inkluderar namnet på det protein man är intresserad av (enkel sökning), men även avancerade sökningar med filtrering på uttryck bland vävnader, celltyper, cellinjer, proteinklasser, subcellulär lokalisation, med mera. En sökning (Figur 2) leder till en sida där matchande gener listas och summeras med de viktigaste resultaten från kartläggningen av det korresponderande proteinuttrycket. Genom att klicka på en gen i listan, kommer man till en gen-centrisk sammanfattnings-sida, som ger en bred överblick över hur proteinet uttrycks på mRNA- och proteinnivå. Från sammanfattningssidan kan man sedan göra djupare efterforskning angående specifika uttrycksmönster via de 10 olika sektionerna.

I tillägg till sökfunktionen, är det även möjligt att navigera igenom Human Protein Atlas-webbsidans data via kunskapssidor som innehåller omfattande sammanfattningar, t.ex. celltyps- eller organspecifika proteom (Figur 2), klickbara diagram eller exempel. Databasen bidrar även med ett 30-tal olika nerladdningsbara dataset till storskaliga bioinformatiska analyser, samt programmatisk tillgång till allt Human Protein Atlas-data.

Figur 2: Illustration av den globala strukturen hos Human Protein Atlas webbsida. Datat på Human Protein Atlas kan utforskas genom ett systematiskt eller ett gencentriskt tillvägagångssätt, båda tolkade genom tio sammankopplade sektioner. Det systematiska tillvägagångssättet innebär utforskning av det mänskliga proteomet via de olika sektionerna. Varje sektion utforskar proteomet från ett unikt perspektiv, baserat på plats, fenotyp eller aktivitet inom kroppen, såsom proteiner som uttrycks i ett specifikt organ eller celltyp, alternativt proteiner som utsöndras till blod eller andra delar av kroppen. Genom att klicka på bilderna för de olika sektionerna på startsidan, kommer man till respektive sektion-sida. Det gencentriska tillvägagångssättet innebär istället att man gör en sökning efter den gen man är intresserad av i startsidans sökfält, vilket kan kombineras med olika filter för att begränsa sökningen. Sökningen leder besökaren till en sökresultat-sida där man kan klicka på den gen man letar efter för att ta sig till en sida med gen-specifik information. Denna information finns summerad i en flik samt uppdelad i sektion-specifika flikar med mer detaljerad information. Genom startsidans meny kan besökaren även komma åt annat kunskapsmaterial, såsom en lista över de protein som är associerade med SARS-COV-2, fritt nedladdningsbart omikdata och utbildningsmaterial i form av bl.a. en histologi-dictionary.

Läs mer i länkarna nedan:

Tillbaka till huvudsidan

Senast uppdaterad: 2022-03-09