Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
GENOME EDITING COMPOSITION COMPRISING CPF1, AND USE THEREOF
Document Type and Number:
WIPO Patent Application WO/2017/099494
Kind Code:
A1
Abstract:
The present invention relates to a genome editing composition comprising Cpf1, a genome editing method using the same, and a technique for preparing transformed eukaryotic organisms.

Inventors:
KIM JIN-SOO (KR)
HUR JUN HO (KR)
KIM DAESIK (KR)
KIM JUNG EUN (KR)
KIM KYOUNGMI (KR)
KIM HYERAN (KR)
KOO TAEYOUNG (KR)
Application Number:
PCT/KR2016/014379
Publication Date:
June 15, 2017
Filing Date:
December 07, 2016
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
INST BASIC SCIENCE (KR)
International Classes:
C12N15/63; C12N9/22; C12N15/09; C12N15/113
Foreign References:
KR20150101476A2015-09-03
Other References:
ZETSCHE ET AL.: "Cpfl is a Single RNA-guided Endonuclease of a Class 2 CRISPR-Cas System", CELL, vol. 163, no. 3, 25 September 2015 (2015-09-25), pages 759 - 771, XP055267511
CHO ET AL.: "Analysis of Off-target Effects of CRISPR/Cas-derived RNA-guided Endonucleases and Nickases", GENOME RESEARCH, vol. 24, no. 1, 19 November 2013 (2013-11-19), pages 132 - 141, XP055227885
FAGERLUND ET AL.: "The Cpf1 CRISPR-Cas Protein Expands Genome-editing Tools", GENOME BIOLOGY, vol. 16, no. 251, 17 November 2015 (2015-11-17), pages 1 - 3, XP002757560
MAKAROVA ET AL.: "An Updated Evolutionary Classification of CRISPR-Cas Systems", NATURE REVIEWS MICROBIOLOGY, vol. 13, no. 11, 28 September 2015 (2015-09-28), pages 722 - 736, XP055271841
Attorney, Agent or Firm:
YOU ME PATENT AND LAW FIRM (KR)
Download PDF:
Claims:
【청구범위】

【청구항 1】

Cpfl 단백질 또는 이를 암호화하는 DNA, 및

유전자의 표적 부위의 15nt (nucleotide) 내지 30nt의 뉴클레오타이드 서열 (표적 서열;)과 흔성화 가능한 뉴클레오타이드 서열을 포함하는 crRNA또는 이를 암호화하는 DNA

를 포함하는 유전체 교정용 조성물.

【청구항 2】

거 U항에 있어서, 상기 Cpfl 단백질은 캔디다투스 Candidatus) 속, 라치노스피라 Lachnospira) 속, 뷰티리비브리오 But y vibrio) 속,

페레그리니박테리아 Peregrinibacteria) , 액시도미노코쿠스 Acick inococcus) 속 포르파이로모나스 Porphyromonas) 속, 프레보텔라 (Prevotella) 속, 프란시셀라 {Franc i sell a) 속, 캔디다투스 메타노플라스마 :andidatus Methanoplasma) , 또는 유박테리움 iEubacterium) 속 미생물 유래의 것인, 유전체 교정용 조성물.

【청구항 3】

제 2항에 있어서, 상기 Cpfl 단백질은 Parcubacteria bacterium

(GWC2011_GWC2_44_17), Lachnospiraceae bacterium (MC2017) , Butyri vibrio proteoclasi icus, Per egri'ni bacteria bacterium (GW2011_GWA_33_10) ,

Acidaminococcus sp. (BV3L6) , Porphyromonas macacae, Lachnospiraceae bacterium (ND2006) , Porphyromonas crevi or / can! s, Prevotella disiens, Moraxella bovoculi (237), S iihella sp. (SC— K08D17), Leptospira inadai , Lachnospiraceae bacterium (MA2020) , Francisel la novicida (U112) , Candidatus Methanoplasma termituw, Candidatus Paceibacter, 또는 Eubacterium el i gens유래의 것인, 유전체 교정용 조성물.

【청구항 4】

게 1항에 있어서, 상기 표적 서열은 5' 말단에 ΠΤΝ또는 ΊΤΝ (N은 A, T, C, 또는 G)의 PAM(protospacer— adjacent motif)와 연결되어 있거나,

이에 더하여, 3' 말단에 상기 PAM서열과 역방향으로 상보적인 서열 (NAM 또는 NAA; N은 A, T, C, 또는 G)과 연결된 것인, 유전체 교정용 조성물.

[청구항 5】 제 4항에 있어서, 상기 crRNA (CRISPR R A)는 다음의 일반식 1로 표현되는 것인, 유전체 교정용 조성물:

5 ' -nl-n2-A-U-n3-U-C-U-A-C-U-n4-n5-n6-n7-G-U-A-G-A-U-(Ncpfl)q-3 ' (일반식 1; 서열번호 60)

상기 일반식 1에서,

nl은 존재하지 않거나, II, A, 또는 G이고, n2는 A또는 G이고, n3은 U, A, 또는 C이고, n4는 존재하지 않거나 G, C, 또는 A이고, n5는 A, U, C, G, 또는 존재하지 않고, n6은 U, G또는 C이고, n7은 U'또는 G이고,

Ncpn는 표적 서열과 흔성화 가능한 뉴클레오타이드 서열을 포함하는 타겟팅 서열 부위로서 표적 유전자의 표적 부위에 따라서 결정되며,

q는 상기 타겟팅 서열에 포함된 뉴클레오타이드 수를 나타내는 것으로 15 내지 30의 정수임.

【청구항 6】

저 15항에 있어서, 상기 crRNA는 5' 말단에 1 내지 3개의 구아닌 (G)을 추가로 포함하는 것인, 유전체 교정용 조성물.

【청구항 7]

제 1항에 있어서, 상기 Cpfl 단백질은 아래의 표에 기재된 미생물들에서 선택된 미생물로부터 유래하는 것인, 유전체 교정용 조성물:

Parcubacteria bacterium GWC2011_GWC2_44_17

(PbCpfl)

Peregr inibacteria bacterium GW2011_GWA_33_10

(PeCpfl)

Acidaminococcus sp. BVBLG (AsCpf 1)

Porphyromonas macacae (PmCpf 1)

Lachnospiraceae bacterium ND2006 (LbCpil)

Porphyromonas crevior i canis(PcCpf 1 )

Prevotel la disiens (PdCpf 1)

Moraxella bovoculi 237 (MbCpfl)

Leptospira inadai (LiCpf 1) Lachnos i raceae bacter ium MA2020 (Lb2Cpf 1)

Franci sel l a novi cida U112 (FnCpf 1)

Candidatus Methanoplasma tend turn (CMtCpf 1)

Eubacter ium el igens (EeCpf 1)

【청구항 8】

제; l항에 있어서, 상기 Cpfl 단백질은 Cpfl 단백질이 적어도 하나 이상의 임의와위치에서 절단되어 생성된 두 개 이상의 절단 단편들 중 하나 이상을 포함하는 것인, 유전체 교정용 조성물.

【청구항 9]

제 8항에 있어세 상기 Cpf l 단백질은 두 개 이상의 절단 단편을 포함하며, 상기 두 개 이상의 절단단편은 각각 N-말단 또는 C-말단에 결합 단백질과

결합되어 있으며, 상기 결합 단백질은 동일한 생체활성물질의 서로 다른 부위에 결합하는서로 다른 단백질인, 유전체 교정용 조성물.

【청구항 10】

제 9항에 있어서, 상기 생체활성물질은 rapamycin이고, 상기 결합 단백질은 FRB 단백질 및 FKBP 단백질로 이루어진 군에서 선택된 것인, 유전체 교정용 조성물.

[청구항 11】

거 U항 내지 제 10항 중 어느 한 항에 있어서, 상기 crRNA를 암호화하는 DNA는 백터에 포함된 형태인, 유전체 교정용 조성물.

【청구항 12】

제 1항 내지 제 10항 중 어느 한 항에 있어서, 상기 crRNA는 플라스미드

(pl asmid)를 주형으로 하여 시험관 내 ( in vi tro) 전사된 crRNA인, 유전체 교정용 조성물.

【청구항 13]

제 1항 내지 제 10항 중 어느 한 항에 있어서, 상기 crRNA는 5 ' 말단에 인산- 인산 결합을 포함하지 않는 것인, 유전체 교정용 조성물.

【청구항 14】

제 1항 내지 제 10항 중 어느 한 항에 있어서, 상기 Cpf l 단백질 또는 이를 암호화하는 DNA는 핵 위치 신호 (nuclear local i zat ion signal , NLS) 서열 또는 이를 암호화하는 DNA를 추가로 포함하는 것인, 유전체 교정용 조성물.

【청구항 15】

제 11항에 있어서, 상기 Cpf l 단백질을 암호화하는 DNA를 포함하는 재조합 백터, 및 상기 crRNA을 암호화하는 DNA를 포함하는 재조합 백터를 포함하는, 유전체 교정용 조성물.

【청구항 16】

제 15항에 있어서, 상기 Cpfl 단백질의 암호화 DNA 및 crRNA의 암호화 DNA는 하나의 재조합 백터에 함께 포함되거나 별개의 백터에 각각 포함된 것인, 유전체 교정용 조성물.

【청구항 17】

게 1항 내지 제 10항 중 어느 한 항에 있어서, 진핵 세포 또는 진핵 유기체의 유전자 교정에 적용하기 위한, 유전체 교정용 조성물.

【청구항 18】

제 17항에 있어서, 상기 진핵 유기체는 진핵 동물 또는 진핵 식물인, 유전체 교정용 조성물.

【청구항 19】

제 1항 내지 제 10항 중 어느 한 항의 유전체 교정용 조성물을 세포 또는 유기체에 도입하는 단계를 포함하는, 유전체 교정 방법.

【청구항 20】

제 19항에 있어서, 상기 유전체 교정용 조성물은 crRNA를 암호화하는 DNA를 백터에 포함된 형태로 포함하는 것인, 유전체 교정 방법.

【청구항 21】

제 19항에 있어서, 상기 유전체 교정용 조성물에 포함된 crRNA는 플라스미드 (pl asmid)를 주형으로 하여 시험관 내 ( in vi tro) 전사된 crRNA인, 유전체 교정 방법.

【청구항 22】

제 19항에 있어서, 상기 유전체 교정용 조성물에 포함된 crRNA는 5 ' 말단에 인산 -인산 결합을 포함하지 않는 것인, 유전체 교정 방법.

【청구항 23】

제 19항에 있어서, 상기 유전체 교정용 조성물에 포함된 상기 Cpfl 단백질 또는 이를 암호화하는 DNA는 핵 위치 신호 (nuclear local izat ion signal , NLS) 서열 또는 이를 암호화하는 DNA를 추가로 포함하는 것인, 유전체 교정 방법.

【청구항 24】

제 19항에 있어서, 상기 유전체 교정용 조성물을도입하는 단계는 국소 주입법, 마이크로주입법 (microinject ion) , 전기천공법 (electroporat ion) 또는 리포펙션 ( l ipofect ion) 방법에 의하여 수행되는 것인, 유전체 교정 방법.

【청구항 25]

제 19항에 있어서, 상기 세포 또는 유기체는 진핵 세포 또는 진핵 유기체인, 유전체 교정 방법 .

【청구항 26】 '

제 25항에 있어서, 상기 진핵 세포는 진핵 동물 또는 진핵 식물로부터 분리된 세포인, 유전체 교정 방법 .

【청구항 27】

제 25항에 있어서, 진핵 유기체는 진핵 동물 또는 진핵 식물인, 유전체 교정 방법.

【청구항 28】

제 1항 내지 제 10항 중 어느 한 항의 유전체 교정용 조성물을 세포 또는 유기체에 도입하는 단계를 포함하는, 형질 전환체의 제조 방법.

【청구항 29】

제 28항에 있어서, 상기 유전체 교정용 조성물은 crRNA를 암호화하는 DNA를 백터에 포함된 형태로 포함하는 것인, 형질 전환체의 제조 방법.

【청구항 30】

제 28항에 있어서, 상기 유전체 교정용 조성물에 포함된 crRNA는 플라스미드 (plasmid)를 주형으로 하여 시험관 내 ( in vi tro) 전사된 crRNA인, 형질 전환체의 제조 방법 .

【청구항 31】

제 28항에 있어서, 상기 유전체 교정용 조성물에 포함된 crRNA는 5 ' 말단에 인산 -인산 결합을 포함하지 않는 것인, 형질 쟌환체의 제조 방법.

【청구항 32】

제 28항에 있어서, 상기 유전체 교정용 조성물에 포함된 상기 Cpfl 단백질 또는 이를 암호화하는 DNA는 핵 위치 신호 (nuclear local i zat ion signal , NLS) 서열 또는 이를 암호화하는 DNA를 추가로 포함하는 것인, 형질 전환체의 제조 방법. 【청구항 33】

제 28항에 있어서, 상기 유전체 교정용 조성물을 도입하는 단계는 국소 주입법, 마이크로주입법 (microinject ion) , 전기천공법 (electroporat ion) , 또는 리포펙션 ( l ipofect ion) 방법에 의하여 수행되는 것인, 형질 전환체의 제조 방법. 【청구항 34]

제 28항에 있어서, 상기 형질 전환체는 유전자 절단, 뉴클레오타이드의 삽입, 뉴클레오타이드의 치환, 또는 뉴클레오타이드의 결실이 유도된 것인ᅳ 형질

전환체의 제조 방법 .

【청구항 35]

제 28항에 있어서, 상기 세포 또는 유기체는 진핵 세포 또는 진핵 유기체인, 형질 전환체의 제조 방법.

【청구항 36】

제 35항에 있어서, 상기 진핵 유기체는 진핵 동물 또는 진핵 식물인, 형질 전환체의 제조 방법 .

【청구항 37】

제 28항의 방법에 의하여 제조된 형질 전환체.

【청구항 38】

제 37항에 있어서, 상기 형질 전환체는 유전자 절단, 뉴클레오타이드의 삽입, 또는 뉴클레오타이드의 결실이 유도된 진핵 세포, 진핵 동물 또는 진핵 식물인, 형질 전환체 . ·

【청구항 39】

RNA 가이드 엔도뉴클레아제 (RNAᅳ guided endonuc lease ; RGEN) 및 가이드 RNA를 포함하는 흔합물 또는 리보핵산 단백질을 국소주입법 (예컨대, 병변 또는 표적 부위 직접 주입), 미세주입법, 전기천공법 (electroporat ion) , 또는

리포펙션에 의하여 진핵 세포 또는 진핵 유기체에 도입시키는 단계를 포함하는, RNA 가이드 엔도뉴클레아제 및 가이드 R A의 진핵 세포 또는 진핵 유기체에

전달하는 방법 .

【청구항 40】 Cpfl 단백질 또는 이를 암호화하는 DNA, 및

Hifl-alpha 유전자의 표적 부위의 연속하는 15nt 내지 30nt의

뉴클레오타이드 서열 (표적 서열)과 흔성화 가능한 뉴클레오타이드 서열을 .

포함하는 crRNA 또는 이를 암호화하는 DNA

를 포함하는, 안구 질환의 예방 또는 치료ᅳ용 약학 조성물.

【청구항 41】

제 40항에 있어서, 상기 crRNA (CRISPR RNA)는 다음의 일반식 1로 표현되는 것인, 안구 질환의 예방또는 치료용 약학 조성물:

5 ' -nl-n2-A-U-n3-U-C-U-A-C-U-n4-n5-n6-n7-G-U-A-G-A-U-(Ncpfl)q-3 ' (일반식 1; 서열번호 60)

상기 일반식 1에서,

nl은 존재하지 않거나, U, A, 또는 G이고, n2는 A또는 G이고, n3은 U, A, 또는 C이고, n4는 존재하지 않거나 G, C, 또는 A이고, n5는 A, U, C, G, 또는 존재하지 않고, n6은 U, G또는 C이고, n7은 U또는 G이고,

Ncpfl는 표적 서열과흔성화 가능한 뉴클레오타이드 서열을 포함하는 타겟팅 서열 부위로서 표적 유전자의 표적 부위에 따라서 결정되며,

q는 상기 타겟팅 서열에 포함된 뉴클레오타이드 수를 나타내는 것으로 15 내지 30의 정수임.

【청구항 42】 .

제 40항에 있어서, 상기 Cpfl 단백질은 아래의 표에 기재된 미생물들 중에서 선택된 미생물로부터 유래하는 것인, 안구 질환의 예방또는 치료용 약학 조성물: Parcubacteria bacterium G C2011_GWC2_44_17

(PbCpfl)

Peregr inibacter ia bacterium GW2011_GWA_33_10

(PeCpfl)

Acidaminococcus sp. BVBLG (AsCpf 1)

Porphyromonas macacae (PmCpf 1)

Lachnos iraceae bacterium ND2006 (LbCpi 1)

Porphyromonas crevior icanis(PcCpf 1) Prevotel la disiens (PdCpf 1)

Moraxella bovoculi 237 (MbCpfl)

Leptospira inadai (LiCpf 1)

Lachnospiraceae bacterium MA2020 (Lb2Cpf 1)

Francisel la novicida U112 (FnCpf 1)

Candidatus Methano lasma termitum (CMtCpf 1)

Eubacter ium el igens (EeCpf 1)

【청구항 43]

제 40항에 있어서, 상기 약학 조성물은 상기 Cpfl 단백질올 암호화하는 DNA 및 상기 crRNA를 암호화하는 DNA를 별도의 백터에 각각 포함하거나 하나의 백터에 함께 포함하는 재조합 백터를 포함하는 것인, 안구 질환의 예방또는 치료용 약학 조성물.

【청구항 44】

.제 43항 중 어느 한 항에 있어서, 상기 백터는 아데노부속 바이러스 (AAV)인, 안구 질환의 예방 또는 치료용 약학조성물.

【청구항 45】

제 40항 내지 제 44항 증 어느 한 항에 있어서, 상기 crRNA는 서열번호 69 내지 서열번호 79의 Hifl-a 유전자의 표적 서열 중에서 선택된 서열과 흔성화 가능한 뉴클레오타이드 서열을 포함하는 것인, 안구 질환의 예방또는 치료용 약학 조성물.

【청구항 46】

제 40항 내지 제 44항 중 어느 한 항에 있어서, 상기 안구 질환은 당뇨성 망막병증 또는 노인성 황반변성인, 안구 질환의 예방 또는 치료용 약학 조성물. 【청구항 47]

Cpfl 단백질 또는 이를 암호화하는 DNA, 및

Hifl-alpha 유전자의 표적 부위의 연속하는 15nt 내지 30nt의

뉴#레오타이드 서열 (표적 서열)과 흔성화 가능한 뉴클레오타이드 서열을 포함하는 crRNA또는 이를 암호화하는 DNA 를 안구 질환의 예방 또는 치료를 필요로 하는 대상에 투여하는 단계를 포함하는, 안구 질환의 예방또는 치료 방법 .

【청구항 48】 ᅳ '

제 47항에 있어서 , 상기 crRNA (CRISPR RNA)는 다음의 일반식 1로 표현되는 것인, 안구 질환의 예방 또는 치료 방법:

51 -nl-n2-A-U-n3-U-C-U-A-C-U-n4-n5-n6-n7-G-U-A-G-A-U-(Ncpfl)q-3 ' (일반식 1; 서열번호 60)

상기 일반식 1에서,

nl은 존재하지 않거나 U, A, 또는 G이고, n2는 A또는 G이고 n3은 U, A, 또는 C이고, n4는 존재하지 않거나 G, C, 또는 A이고, n5는 A, U, C, G, 또는 존재하지 않고, n6은 U, G또는 C이고, n7은 U또는 G이고,

Ncpfi는 표적 서열과 흔성화 가능한 뉴클레오타이드 서열을 포함하는 타겟팅 서열 부위로서 표적 유전자의 표적 부위에 따라서 결정되며,

q는 상기 타겟팅 서열에 포함된 뉴클레오타이드 수를 나타내는 것으로 15 내지 30의 정수임 .

【청구항 49]

제 47항에 있어서, 상기 Cpfl 단백질은 아래의 표에 기재된 미생물들 중에서 선택된 미생물로부터 유래하는 것인, 안구 질환의 예방 또는 치료 방법:

Parcubacteri bacterium G C2011_GWC2_44_17

(PbCpfl)

Peregrinibacteria bacterium GW2011_GWA_33_10

(PeCpfl)

Acidaminococcus sp. BVBLG (AsCpf 1)

Porphyromonas macacae (PmCpf 1)

Lachnospiraceae bacterium ND2006 (LbCpi 1)

Porphyromonas crevior i canis(PcCpf 1 )

Prevotel l disiens (PdCpf 1)

Moraxella bovoculi 237 (MbCpfl)

Leptospira inadai (LiCpf 1) Lachnospi raceae bacter ium MA2020 (Lb2Cpf 1)

Franci sel l a novi cida U112 (FnCpf 1)

Candidatus Methanopl sma termi tum (CMtCpf 1)

Eubacter ium el igens (EeCpf 1)

【청구항 50】

제 47항에 있어서, 상기 투여하는 단계는 상기 Cpf l 단백질을 암호화하는 DNA 및 상기 crRNA를 암호화하는 DNA를 별도의 백터에 각각 포함하거나 하나의 백터에 함께 포함하는 재조합 백터를 투여하는 것인, 안구 질환의 예방 또는 치료 방법. 【청구항 51】 '

제 50항 중 어느 한 항에 있어서, 상기 백터는 아데노부속 바이러스 (AAV)인, 안구 질환의 예방 또는 치료 방법 .

【청구항 52】

제 47할 내지 제 51항 중 어느 한 항에 있어서, 상기 crRNA는 서열번호 69 내지 서열번호 79의 Hi f l-a 유전자의 표적 서열 중에서 선택된 서열과 흔성화 자능한 뉴클레오타이드 서열을 포함하는 것인, 안구 질환의 예방 또는 치료 방법. 【청구항 53】

제 47항 내지 제 51항 증 어느 한 항에 있어서 , 상기 안구 질환은 당뇨성 망막병증 또는 노인성 황반변성인, 안구 질환의 예방 또는 치료 방법.

【청구항 54】

제 47항 내지 제 51항 중 어느 한 항에 있어서, 상기 투여하는 단계는

Cpf l 단백질 또는 이를 암호화하는 DNA를 포함하는.재조합 백터, 및 Hi fl- alpha 유전자의 표적 부위의 연속하는 15nt 내지 30nt의 표적 서열과 흔성화 가능한 뉴클레오타이드 서열을 포함하는 crRNA또는 이를 암호화하는 DNA를 포함하는 재조합 백터를 포함하는 흔합물 또는 리보핵산 단백질을 망막 주입에 의하여 수행되는 것인, 안구 질환의 예방 또는 치료 방법.

Description:
【발명의 설명】

【발명의 명칭】

CPF1을 포함하는 유전체 교정용 조성물 및 그 용도 【기술분야】

Cpfl을 포함하는 유전체 교정용 조성물, 이를사용하는 유전체 교정 방법, 및 형질 전환 진핵 유기체 제작 기술에 관한 것이다.

【발명의 배경이 되는 기술】

유전체 교정 (genome editing)된 동물 및 식물을 만드는 것은 긴 시간과 노력이 필요했고 표적 유전자마다 따로 제작해야 하는 reagent 들이 많아 어려운 일이었다. 최근 Cas9 단백질과 guide RNA의 결합을 통해 표적 유전자를

효과적으로 절단하는 type II CRISP -Cas9 시스템이 다양한 방법으로 폭넓게 사용되고 있다. 최근 들어서는 가장 많이 쓰이는 S. pyogenes유래의 Cas9뿐만 아니라 다른 종의 ortholog Cas9들 또한 유전자가위로써 사용하는 방법들이 개발되고 있는 추세이다. 이 기술은 기존의 mutant 제작 방법에 비해 빠르고 효율적이며 표적 유전자에 따른 guide RNA만 제작하면 되는 장점이 있다.

Cas9-system은 많은 장점이 있지만 제한 적인 면도 있는데 그 증 대표적인 것은 표적 DNA가 protospacer adjacent motif (PAM)이라고 불리는 서열을 가지고 있어야 한다는 점이다. S. pyogenes Cas9을 비롯하여 최근에 사용되기 시작한 다른 종류의 Cas9 단백질들은 모두 표적 서열의 3' 위치의 PAM을 인식한다. 널리 사용되는 S. pyogenes Cas9 의 경우 표적 유전자부위의 3' NGG PAM을 인식하여, 이 서열을 가지지 않는 표적에는 사용 될 수 없다는 한계가 있다. S. pyogenes Cas9와 같은 Cas9-system의 또 다른 특징은 단일 단백질에 nuclease domain을 두 개 가지고 있어 표적 DNA의 양쪽 strand를 blunt end로 절단한다는 점이다. 이런 경우 non-homologous end joining(NHEJ)를 통한 insertion 및 deletion(indel)을 통하여 유전자의 knock-out 효율은 높은데 반해, homologous recombination(HR)을 이용한 knock-in은 효율이 낮다는 한계가 있다.

한편, CRISPR-Cas9 시스템을사용한유전체 교정을 위하여 embryo에 CRISPR- Cas9 ribonucleoprotein (RNP)을 microinjection 방법으로 주입하는 방법이 보고된 대체용지 (규칙 제 26조) RO/KR 바가 있다. 이 방법은 RNP를 embryo에 확실히 전달할 수 있는 방법이지만, 각각의 embryo 를 microscope를 통해 확인하면서 하나씩 처리해야 하는 단점이 있다.

특히 많은 수의 embryo를 순서대로 처리할 때는 긴 시간이 필요한데, 이는 embryo 가 1 cel l stage에서 유지되는 시간이 짧다는 점에서 기술적인 장애가 되고 있다. 따라서, CRISPR— Cas9 시스템의 한계를 극복하고 이를 대체할 수 있는 효율적인 유전자 교정 기술의 개발 및 이를 효과적으로 수행할 수 있는 RNP의 세포 내 전달 기술의 개발이 요구된다.

【발명의 내용】

【해결하고자 하는 과제】

본 명세서에서는 type I I CRISPR-Cas9 시스템의 단점을 보완할 수 있는, Cpf l을 이용한 type V CRISPR-Cpfl 시스템을 사용하여 동물 및 식물과 같은 진핵 유기체에서 유전체를 교정하는 기술이 제공된다.

일 예는 Cpf l 단백질 또는 이를 암호화하는 DNA, 및 가이드 RNA또는 이를 암호화하는 DNA를 포함하는 복합체를 제공한다.

다른 예는 Cpfl 단백질 또는 이를 암호화하는 DNA, 및 가이드 RNA또는 이를 암호화하는 DNA를 포함하는 유전체 교정용 조성물을 제공한다.

다른 예는 Cpfl 단백질 또는 이를 암호화하는 DNA, 및 가이드 RNA또는 이를 암호화하는 DNA를 이용한 유전체 교정 방법을 제공한다.

상기 복합체 또는 유전체 교정용 조성물 또는 유전체 교정 방법에

포함되거나 사용되는 Cpfl 단백질 또는 이를 암호화하는 DNA, 및 가이드 RNA또는 이를 암호화하는 DNA는, Cpfl 단백질 및 가이드 RNA를 포함하는 흔합물 또는 이들이 복합체를 형성하는 리보핵산 단백질 (ribonucleioprotein; RNA) 형태로 사용되거나, Cpf l 단백질을 암호화하는 DNA, 및 가이드 RNA를 암호화하는 DNA를 별도의 백터에 각각 포함하거나 또는 하나의 백터에 함께 포함되어 사용될 수 있다. 상기 조성물 및 방법은 진핵 유기체에 적용되는 것일 수 있다. 상기 진핵 유기체는 진핵 세포 (예컨대, 효모 등의 균류, 진핵 동물 및 /또는 진핵 식물 유래 세포 (예컨대, 배아세포, 줄기세포, 체세포, 생식세포 등) 등), 진핵 동물 (예컨대, 인간, 원숭이 둥의 영장류 개, 돼지, 소, 양, 염소, 마우스, 래트 등), 및 진핵 식물 (예컨대, 녹조류 등의 조류, 옥수수, 콩, 밀, 벼 등)로 이루어진 군에서 선택된 것일 수 있다.

다른 예는 Cpf l 단백질 또는 이를 암호화하는 DNA 및 가이드 RNA또는 이를 암호화하는 DNA를 이용한유전체 교정에 의한 형질 전환 유기체의 제조 방법을 제공한다.

다른 예는 상기 형질 전환 유기체의 제조 방법에 의하여 제조된 형질 전환 유기체를 제공한다. 상기 형질전환 유기체는 모든 진핵 세포 (예컨대, 효모 등의 균류, 진핵 동물 및 /또는 진핵 식물 유래 세포 (예컨대, 배아세포, 줄기세포, 체세포, 생식세포 등) 등) , 진핵 동물 (예컨대, 인간, 원숭이 등의 영장류, 개, 돼지, 소, 양, 염소, 마우스, 래트 등), 및 진핵 식물 (예컨대 녹조류 등의 조류ᅳ 옥수수, 콩, 밀, 벼 등)로 이루어진 군에서 선택된 것일 수 있다.

다른 예는 RNA 가이드 엔도뉴클레아제 (RNA-guided endonuc lease; RGEN) 또는 이를 암호화하는 DNA 및 가이드腿또는 이를 암호화하는 DNA를 포함하는 복합체를 유기체에 전달하는 방법에 있어서, 국소주입법 (예컨대, 병변 또는 표적 부위 직접 주입), 미세주입법 , 전기천공법 (electroporat ion) , 또는 리포펙션 등을 사용하는 것을 특징으로 하는 방법을 제공한다.

【과제의 해결 수단】

본 명세서에서는 type I I CRISPR-Cas9 시스템의 단점 한계점들을 극복하기 위한 방법 중 하나로 type V CRISPR ' system 단백질인 Cpfl올 사용하는 기술이 제공된다.

Cpfl은 type V CRISPR 시스템 단백질로서 단일 단백질이 crRNA과 결합하여 표적 유전자를 절단한다는 점은 type I I CRISPR시스템 단백질인 Cas9과

유사하지만 그 작동 방식에는 차이가 크다. 특히 Cpfl 단백질은 하나의 crRNA로 작동하기 때문에 Cas9의 경우와 같이 crRNA와 trans— act ivat ing crRNA

(tracrRNA)를 동시에 사용하거나 인위적으로 tracrRNA와 crRNA를 합친 single guide RNA (sgRNA)를 제작할 필요가 없다. 또한 Cpfl 시스템은 Cas9과 다르게 PAM이 표적 서열의 5' 위치에 존재하고, 표적을 결정하는 guide RNA 의 길이도 Cas9 에 비해 짧다. 이러한 특징을 활용하면, Cpfl은 Cas9이 사용될 수 없는 표적 염기서열에도 유전체 교정이 가능하고, 가이드 RNA인 crRNA를 제작하는 Cas9와 비교하여 것도 상대적으로 쉽다는 이점을 갖는다. 또한, Cpf l은 표적 DNA가 절단된 위치에 blunt-end가 아닌 5' overhang (st icky end)이 발생시키므로, 보다 정확하고 다양한 유전자 교정이 가능하다는 이점올 갖는다.

본 명세서에서는 Cpfl 시스템을 이용한 보다 편리하면서 정확하고

효과적으로 표적 유전체를 교정하는 기술이 제공된다.

본 명세서에서, 용어 '유전체 교정 (genome edi t ing) 1 은, 특별한 언급이 없는 한, 표적 유전자의 표적 부위에서의 절단에 의한 핵산 분자 (하나 이상, 예컨대, 1-100, OOObp, 1-10, OOObp, 1-1000, 1-lOObp, l-70bp, l-50bp, l-30bp, 1- 20bp, 또는 l-10bp)의 결실, 삽입, 치환 등에 의하여 유전자 기능을 상실, 변경, 및 /또는 회복 (수정) 시키는 것을 의미하기 위하여 사용될 수 있다.

일 구현예에 따르면, Cpfl 단백질을 이용한 type V CRISPR-Cpfl 시스템으로 표적 DNA의 원하는 위치에서의 절단이 가능하다. 다른 구현예에 따르면, Cpfl 단백질을 이용한 type V CRISPR-Cpfl 시스템으로 세포 내 특정 유전자의 교정이 가능하다.

또한ᅳ CRISPR-Cpfl 리보핵산단백질 (r ibonucleoprotein; RNP) 또는 이를 암호화하는 DNA를 세포에 전달하는 기술에 있어서, 기존의 microinject ion 방법의 단점을 극복하기 위한 방안이 제공된다. 그 일 예로서, electroporat ion 방식, 리포펙션 ( Hpofect ion) 등의 방식으로 한 번에 많은 수의 세포에 리보핵산단백질 또는 이를 암호화하는 DNA를 플라스미드에 포함시켜 전달하여 유전체를 교정하는 기술이 제공되지만, 상기 Cpfl 시스템올 이용한 유전체 교정 기술이 이에 제한되는 것은 아니다.

CRISPR-Cpfl 리보핵산단백질은 Cpfl을 코딩하는 DNA를 포함하는 재조합 백터 및 crRNA를 코딩하는 DNA를 포함하는 재조합 백터의 형태로 세포 또는 유기체에 도입되거나, Cpf l 단백질 및 crRNA를 포함하는 ^합물 또는 이들이 복합체를 이루는 리보핵산단백질 형태로 세포 또는 유기체에 도입될 수 있다.

일 예는 Cpfl 단백질 또는 이를 암호화하는 DNA 및 가이드 RNA (CRISPR RNA; crRNA) 또는 이를 암호화하는 DNA를 포함하는 리보핵산단백질을 포함하는 유전체 교정용 조성물을 제공한다.

다른 예는 Cpf l 단백질 및 가이드 RNA (CRISPR RNA; crRNA)를 포함하는 리보핵산단백질을 유기체에 전달하는 단계를 포함하는, 유기체의 유전체 교정 방법을 제공한다. 상기 유전체 교정용 조성물 또는 유전체 교정 방법에 포함되거나사용되는

Cpfl 단백질 또는 이를 암호화하는 DNA, 및 가이드 RNA또는 이를 암호화하는 DNA는, Cpf l 단백질 및 가이드 RNA 를 포함하는 흔합물 또는 이들이 복합체를 이루는 리보핵산 단백질 (ribonucleioprotein; RNA) 형태로 사용되거나, Cpfl 단백질을 암호화하는 DNA, 및 가이드 R A를 암호화하는 DNA를 별도의 백터에 각각 포함하거나 또는 하나의 백터에 함께 포함되어 사용될 수 있다.

싱-기 조성물 및 방법은 진핵 유기체에 적용되는 것일 수 있다. 상기 진핵 유기체는 진핵 세포 (예컨대, 효모 등의 균류, 진핵 동물 및 /또는 진핵 식물 유래 세포 (예컨대, 배아세포, 줄기세포, 체세포, 생식세포 등) 등), 진핵 동물 (예컨대 척추동물 또는 무척추동물, 보다 구체적으로, 인간, 원승이 등의 영장류, 개, 돼지 소, 양, 염소, 마우스, 래트 등을 포함하는 포유류 등), 및 진핵 식물 (예컨대, 녹조류 등의 조류 옥수수, 콩, 밀, 벼 등의 단자엽 또는 쌍자엽 식물 등)로 이루어진 군에서 선택된 것일 수 있다.

다른 예는 Cpf l 단백질을 이용한 유전체 교정에 의한 형질 전환유기체의 제조 방법을 제공한다. 보다 구체적으로, 상기 형질 전환유기체의 제조 방법은 Cpfl 단백질 또는 이를 암호화하는 DNA 및 가이드 RNA (CRISPR RNA; crRNA) 또는 이를 암호화하는 DNA를 진핵 세포에 전달하는 단계를 포함할 수 있다. 상기 형질 전환 유기체가 형질전환 진핵 동물 또는 형질전환 진핵 식물인 경우, 상기 제조 방법은 상기 전달하는 단계와 동시 또는 그 이후에 상기 진핵 세포의 배양 및 /또는 분화 단계를 추가로 포함할 수 있다.

다른 예는 상기 형질 전환 유기체 제조 방법에 의하여 제조된 형질 전환 유기체를 제공한다.

상기 형질전환 유기체는 모든 진핵 세포 (예컨대, 효모 등의 균류, 진핵 동물 및 /또는 진핵 식물 유래 세포 (예컨대, 배아세포, 줄기세포, 체세포, 생식세포 등) 등), 진핵 동물 (예컨대, 척추동물 또는 무척추동물, 보다 구체적으로, 인간, 원승이 등의 영장류, 개, 돼지, 소, 양, 염소, 마우스, 래트 등을 포함하는 포유류 등), 및 진핵 식물 (예컨대, 녹조류 등의 조류, 옥수수, 콩, 밀, 벼 등의 단자엽 또는 쌍자엽 싀물 등)로 이루어진 군에서 선택된 것일 수 있다.

본 명세서에서 제공되는 유전체 교정 방법 및 형질 전환 유기체 제조 방법 있어서, 상기 진핵 동물은 인간을 제외한 것일 수 있으며, 상기 진핵 세포는 인간을 포함한 진핵 동물에서 분리된 세포를 포함할 수 있다.

본 명세서에서 사용된 용어 "리보핵산단백질 1 '은 RNA 가이드

엔도뉴클레아제인 Cpfl 단백질과 가이드 RNA (crRNA)를 포함하는 단백질-리보핵산 복합체를 의미한다.

Cpfl 단백질은 상기 CRISPR/Cas 시스템과는 구별되는 새로운 CRISPR 시스템의 엔도뉴클레아제로서 , Cas9에 비해 상대적으로 크기가 작고, tracrRNA가 필요 없으며, 단일 가이드 RNA에 의해 작용할 수 있다. 또한, Cpfl 단백질은, PAM (protospacer-adjacent motif) 서열로서, 5' 말단에 위치하는, 5'— TTN-3' 또는 5'- TTTN-3 1 (N은 임의의 뉴클레오타이드로서 , , T, G, 또는 C의 염기를 갖는 뉴클레오타이드임)와 같은 티민 (thymine)이 풍부한 DNA 서열을 인식하고 DNA의 이중 사슬을 잘라 점착종단 (cohesive end; cohesive double-strand break)을 생성한다. 이와 같이 생성된 점착 종단은 표적 위치 (또는 절단 위치)에서의 NHE J -mediated transgene knock-in을 용이하게 할 수 있다.

예컨대, 상기 Cpfl 단백질은 캔디다투스 {Candidatus) 속, 라치노스피라 (Lachnospira) 속, 뷰티리비브리오 (Butyri vibrio) 속, 페레그리니박테리아

(Peregrini bacteria) , 액시도미노코쿠스 (Acidoiriinococcus) 속, 포르파이로모나스 {Porphyromonas) 속, 프레보텔라 Prevotella) 속, 프란시셀라 Franci sella) 속, 캔디다투스 메타노플라스마 iCandidatus Methanoplasma , 또는 유박테리움

(Eubacterium) 속 유래의 것일 수 있고, 예컨대, Parcubacteria bacterium

(GWC2011_GWC2_44_17), Lachnospiraceae bacterium (MC2017) , Butyri vibrio proteoclasi icus, Peregrini bacteria bacterium (GW2011_GWA_33_10) ,

Acidaminococcus sp. (BV3L6) , Porphyromonas macacae, Lachnospiraceae bacterium (ND2006) , Porphyromonas crevi or J cam ' s, Prevotella disiens, Moraxella bovoculi (237), Smiihella sp. (SC_K08D17) , Leptospira inadai , Lachnospiraceae bacterium (MA2020), Francisel la novicida (U112) , Candidatus Methanoplasma termitum, Candidatus Paceibacter, Eubacterium el i gens등의 미생물 유래의 것일 수 있으나, 이에 제한되는 것은 아니다 . 일 예에서, 상기 Cpfl 단백질은

Parcubacteria bacterium (GWC2011_G C2_44_17) , Peregrini bacteria bacterium ( GW2011_GWA_33_ 10), Acidaminococcus sp. (BV3L6) , Porphyromonas macacae, Lachnospiraceae bacterium (ND2006) , Porphyromonas crevwri cam ' s, Prevotella disiens, Moraxella bovoculi (237) , Leptospira inadai, Lachnospiraceae bacterium (MA2020) , Franci sella novicida (U112) , Candidatus Methanoplasma termitum, 또는 Eubacterium eligens유래의 것일 수 있으나, 이에 제한되는 것은 아니다.

상기와 같은 Cpf l 단백질의 예를 유래 미생물 별로 아래의 표 1에 정리하였다:

【표 1】

방법으로 비자연적 생산된 것 (non-natural ly occurring)일 수 있다. 상기 Cpfl 단백질은 진핵세포의 핵 내 전달을 위하여 통상적으로 사용되는 요소 (예컨대, 핵위치신호 (nuclear localization signal; NLS) 등)를 추가로 포함하는 것일 수 있으나, 이에 제한되는 것은 아니다. 상기 Cpfl단백질은 정제된 단백질 형태로 사용되거나, 이를 암호화하는 DNA, 또는 상기 DNA를 포함하는 재조합 백터의 형태로 사용될 수 있다.

상기 가이드 R A는 복합체를 형성할 Cpfl 단백질 종류 및 /또는 그 유래 미생물에 따라서 적절히 선택될 수 있다.

일 예에서, Cpfl 시스템에 사용되는 crR A는 다음의 일반식 1로 표현될 수 있다:

5 ' -nl-n2-A-U-n3-U-C-U-A-C-U-n4-n5-n6-n7-G-U-A-G-A-U-(N C p f i) p -3 ' (일반식 1; 서열번호 60).

상기 일반식 1에서, nl은 존재하지 않거나, U, A , 또는 G이고, n2는 A또는 G이고, n3은 U, A, 또는 C이고, n4는 존재하지 않거나 G, C, 또는 A이고, n5는 A, U , C , G, 또는 존재하지 않고, n6은 U, G또는 C이고, n7은 U또는 G이며,

N cpil 는 유전자 표적 부위와흔성화 가능한 뉴클레오타이드 서열을 포함하는 타겟팅 서열로서 표적 유전자의 표적 서열에 따라서 결정되며, q는 포함된 뉴클레오타이드 수를 나타내는 것으로, 15 내지 30의 정수, 15 내지 29의 정수, 15 내지 28의 人

¾ᄀ—, 15 내지 27의 15 내지 26의 정수 15 내지 25의 ¾丁, 15 내지 24의 정수, 15 내지 23의 성丁, 15 내지 22의 ¾ᅳ厂, 15 내지 21의 ¾丁, 15 내지 20의 정수, 16 내지 30의 16 내지 29의 ¾ τ , 16 내지 28의 청丁, 16 내지 27의 ¾ᅳ厂 , 16 내지 26의 겨

" 厂, 16 내지 25의 청丁, 16 내지 24의 ¾丁, 16 내지 23의 16 내지 22의 ¾丁, 16 내지 21의 정수, 16 내지 20의 정수, 17 내지 30의 정수, 17 내지 29의 17 내지 28의 정수, 17 내지 27의 정수, 17 내지 26의 정수, 17 내지 25의 人 17 내지 24의 정수, 17 내지 23의 청ᄀ―, 17 내지 22의 ¾丁, 17 내지 21의 17 내지 20의 ¾수ᅵ , 18 내지 30의 ¾丁, 18 내지 29의 ¾丁, 18 내지 28의 ¾ τ 18 내지 27의 정ᄋ수, 18 내지 26의 청ᄀ一, 18 내지 25의 청ᅳ厂, 18 내지 24의 18 내지 23의 정수, 18 내지 22의 18 내지 21의 또는 18 내지 20의 정수일 수 있다. 상기 . S적 유전자의 표적 서열 (crRNA와 흔성화 하는 서열)은 ΡΑΜ서열 (5 ' - ' ΓΤΝ-3 1 또-는 5 ' -TTTN-3 '; N은 임의의 뉴클레오타이드로서, A, Τ, G, 또는 C의 염기를 갖는 뉴클레오타이드임)의 3 ' 방향으로 인접하여 위치하는 (예컨대, 연속하는) 15 내지 30개, 15 내지 29 개, 15 내지 28 개, 15 내지 27 개, 15 내지 26 개, 15 내지 25 개, 15 내지 24 개, 15 내지 23 개 , 15 내지 22 개 , 15 내지 21 개, 15 내지 20 개, 16 내지 30 개, 16 내지 29 개, 16 내지 28 개 , 16 내자 27 개, 16 내지 26 개 ' 16 내지 25 개 , 16 내지 24 개, 16 내지 23 개 , 16 내지 22 개ᅳ 16 내지 21 개, 16 내지 20 개, 17 내지 30 개, 17 내지 29 개 , 17 내지 28 개, 17 내지 27 개, 17 내지 26 개, 17 내지 25 개, 17 내지 24 개 , 17 내지 23 개, 17 내지 22 개, 17 내지 21 개, 17 내지 20 개 , 18 내지 30 개 , 18 내지 29 개, 18 내지 28 개 , 18 내지 27 개, 18 내지 26 개 ' 18 내지 25 개 , 18 내지 24 개, 18 내지 23 개, 18 내지 22 개, 18 내지 21 개, 또는 18 내지 20 개 ᄋ

의 표적 전자의 표적 부위의 뉴클레오타이 서열이다. 상기 일반식 1에서 5 ' 말단에서 카운팅하여 6번째부터 10번째까지의 5개의 뉴클레오타이드 (5 ' 말단 스템 부위)와 15번째 (π4가 존재하는 경우 16번째)부터 19번째 (η4가 존재하는 경우 20번째)까지의 5개 뉴클레오타이드 (3 1 말단 스템 부위)은 서로 역평행 (ant iparal l el )하게 상보적 뉴클레오타이드로 이루어져 이중 가닥 구조 (스템 구조)를 형성하고, 상기 5 ' 말단 스템 부위와 3 ' 말단 스템 부위 사이의 3 내지 5개 뉴클레오타이드가루프 구조를 형성할 수 있다.

상기 Cpf l 단백질의 crRNA (예컨대, 일반식 1로 표현됨)는 5 ' 말단에 1 내지 3개의 구아닌 (G)을 추가로 포함할 수 있다.

본 명세서에서, 유전자 표적 부위와 흔성화 가능한 뉴클레오타이드 서열은 유전자 표적 부위의 뉴클레오타이드 서열 (표적 서열)과 50% 이상, 60% 이상, 70% 이상, 80% 이상 90% 이상, 95% 이상, 99% 이상, 또는 100%의 서열 상보성을 갖는 뉴클레오타이드 서열을 의미한다 (이하, 특별한 언급이 없는 한 동일한 의미로 사용되며, 상기 서열 상동성은 통상적인 서열 비교 수단 (예컨대 BLAST)를 사용하여 확인될 수 있다) . 예컨대, 상기 표적 서열과 흔성화 가능한 crRNA는 상기 표적 서열 (PAM서열이 위치하는 가닥과 동일한 가닥에 위치)이 위치하는 핵산 가닥 (즉 PAM서열이 위치하는 가닥)의 반대 가닥에 위치하는 대응 서열과 상보적 서열을 갖는 것일 수 있으며, 이를 다르게 설명하면, crRNA은 DNA서열로 표시된 표적 서열에서 T를 U로 치환한 서열을 타겟팅 서열 부위로 포함하는 것일 수 있다.

본 명세서에서, crRNA를 표적 서열로 표현할 수 있으며, 이 경우 별도의 언급이 없어도, crRNA서열은 표적 서열에서 T를 U로 치환한서열인 것으로 해석될 수 있다.

상기 유전자 표적 부위의 뉴클레오타이드 서열 (표적 서열)은 5 ' 말단에 TTTN또는 TTN (N은 A, T, C, 또는 G) , 또는 이들과 50% 이상, 66% 이상, 또는 75% 이상의 서열 상동성을 갖는 PAM(protospacer-adj ' acent mot i f )와 연결 (예컨대, 표적서열의 5 ' 말단과 PAM서열이 직접 연결되거나 (Ont 거리) , 1 내지 10nt 거리를 두고 연결)되어 있거나, 상기 5 ' 말단 PAM서열에 더하여, 3 ' 말단에 상기 PAM서열과 역방향으로 상보적인 서열 (NAM또는 NAA , 또는 이들과 50% 이상, 66% 이상, 또는 75% 이상의 서열 상동성을 갖는 서열; N은 A , T, C, 또는 G; 3 ' 말단의 inverted PAM서열)과 연결 (예컨대, 표적서열의 3 ' 말단과 inverted PAM서열이 직접 연결되거나 (Ont 거리), 1 내지 lOnt 거리를 두고 연결될 수 있음)된 것일 수 있다.

Cpfl 유래 미생물에 따라사용 가능한 Cpfl 단백질의 crR A서열의 5' 말단 부위 서열 (타겟팅 서열 부위 제외한 부분)을 표 2에 예시적으로 기재하였다:

【표 2]

(-: 뉴클레오타이드가존재하지 않음을 의미)

일 예에서, 상기 crRNA는 플라스미드 (plasmid)를 주형으로 하여 시험관 내 (in vitro) 전사된 crRNA일 수 있다.

다른 예에서, 상기 crRNA는 5' 말단에 인산 -인산 결합 (예컨대,

다이포스페이트 또는 트리포스페이트)을 포함하지 않는 것일 수 있다. crRNA가 5' 말단에 인산 -인산 결합을포함하지 않음으로써, 이를 포함하는 경우와 비교하여, 면역 반웅 유도능 및 /또는 세포 독성이 현저히 감소된 것일 수 있다. 상기 세포 독성 감소는 면역 반웅 ( innate immuni ty)을 유발하지 않음; 및 /또는 세포 생존 저해, 세포 증식 저해, 및 /또는 세포의 손상, 용혈, 및 /또는 사멸 유도의 완화 (감소) 및 /또는 제거 (해소)를 의미할 수 있다. 예컨대, 상기 5 1 말단에 인산 -인산 결합을 포함하지 않는 가이드 R A는 5 ' 말단에 모노포스페이트기 또는 0H기를 포함하거나, 이 외에도, 바이러스 또는 박테리아와 같은 pathogen과 구별되는 진핵 세포 또는 진핵 생물 내에 세포 독성 유발 없이 존재 가능한 모든 RNA의 5 ' 말단의 변형된 형태 (예컨대, 면역 억제, 안정성 증진, 표지 등의 이유로 자연적 또는 인공적으로 변형된 5 1 말단 형태)를 갖는 것을 의미할 수 있다. 상기 crRNA는 T7 R A폴리머라아제, T3 RNA 폴리머라아제, SP6 RNA 폴리머라아제와 같은 원핵 세포의 R A 폴리머라아제를 사용하는 in vi tro 전사에 의하여 제작된 후 5 ' 말단의 3개의 인산기 중 2개 이상의 인산기, 예컨대 3개의 인산기가 제거 (즉,

트리포스페이트 및 /또는 다이포스페이트가 제거)된 것, 또는 5 ' 말단에 인산 -인산 결합 (예컨대, 다이포스페이트 및 /또는 트리포스페이트)을 포함하지 않도록 화학 합성된 것일 수 있다. 상기 5 1 말단의 인산기의 제거, 예컨대, 2개 이상의 인산기 (즉, 트리포스페이트 및 /또는 다이포스페이트)의 제거는 인산기와의 에스테르 결합을 분해하여 2개 또는 3개의 인산기를 RNA로부터 유리시키는 모든 통상적인 모든 방법에 의할 수 있으며, 예컨대, 포스파타아제 (phosphatase)를 처리하여 수행할 수 있으나, 이에 제한되는 것은 아니다. 상기 포스파타아제는 Cal f

Intest inal alkal ine Phosphatase (CIP) , Shr imp Alkal ine Phosphatase (SAP) , Antarct i c Phosphatase 등으로 이루어진 군에서 선택된 1종 이상일 수 있으나, 이에 제한되는 것은 아니며, RNA로부터 인산기를 유리시키는 모든 효소들 중에서 선택될 수 있다.

일 예에서, 본 명세서에서 제공되는 유전체 교정 조성물, 유전체 교정 방법, 형질전환체 제조용 조성물, 및 형질전환체 제조 방법에서 사용되는 Cpf l 단백질 및 crRNA는 정제된 Cpf l 단백질 및 5 ' 말단에 인산 -인산 결합을 포함하지 않은

(예컨대, 화학 합성된) crRNA를 포함하거나 이를 사용하는 것일 수 있다.

한편, Cpf l 단백질을 코딩하고 있는 유전자사이즈가크기 때문에, 백터 (예컨대, AAV (Adeno-associ ated vi rus) 등의 바이러스 백터)를 이용하여 Cpf l 단백질을 세포 내 또는 유기체 내로 전달하는 경우 효율이 떨어지는 문제가 있을 수 있고, 이는 Cpf l 기술을 적용하는 데 장애가 될 수 있다. 특히, AAV 백터와 같은 바이러스 백터의 경우, 백터의 패키징 한계 때문에, 패키징 한계를 넘는 유전자가 클로닝된 경우 바이러스 생산 효율 및 세포 내 전달 효율이 떨어지는 현상이 보편적으로 잘 알려져 있다 .

이러한 문제를 해결하기 위해서, 본 명세서에서 사용되는 Cpfl 단백질 또는 이를 암호화하는 DNA는 적어도 하나 이상 (예컨대 하나)의 임의의 위치에서

절단되어 생성된 두 개 이상 (예컨대, 두 개)의 절단 단편들 중 하나 이상 (예컨대 두 개)을 포함하는 것일 수 있다. 상기 두 개 이상의 Cpfl 절단 단편은 전장 Cpfl를 중복없이 cover하는 것일 수 있다. 상기 두 개 이상의 절단 단편 (DNA 단편)은 하나의 백터에 함께 포함되거나 두 개 이상의 백터에 각각 포함되어 세포 또는 유기체에 전달될 수 있다.

상기 Cpf l 단백질 또는 이를 암호화하는 DNA의 절단 지점은 Cpf l 단백질의 3차 구조상 외부 노출 부위 또는 소정의 기능을 갖는 도메인 이외의 부위 (예컨대 도메인 간 링커 (domain-domain l inker) , 또는 상기 외부 노출 부위 또는 도메인 이외의 부위를 암호화하는 DNA서열 내에 위치할 수 있다.

예컨대, Acidaminococcus sp. BVBLG유래 Cpfl (AsCpfl)의 경우, 단백질 상의 절단 지점은, AsCpfl 아미노산서열 (Genbank Accession No . P_021736722.1; 1307 아미노산 길이) 중, 9이번째 아미노산과 902번째 아미노산사이, 886번째 아미노산과 887번째 아미노산사이, 399번째 아미노산과 400번째 아미노산사이, 및 526번째 아미노산과 527번째 아미노산사이로 이루어진 군에서 선택된 하나 이상의 지점일 수 있다.

예컨대, 상기 절단 단편은, AsCpfl 아미노산서열 (1307 아미노산 길이) 중, 1) 첫번째 아미노산부터 901번째 아미노산까지의 제 1 단백질 단편 또는 이를 암호화하는 제 1 DNA 단편 및 902번째 아미노산부터 1307번째 아미노산까지의 제 2 단백질 단편 또는 이를 암호화하는 제 2 DNA 단편;

2) 첫번째 아미노산부터 886번째 아미노산까지의 제 1 단백질 단편 또는 이를 암호화하는 게 1 DNA 단편 및 887번째 아미노산부터 1307번째 아미노산까지의 제 2 단백질 단편 또는 이를 암호화하는 게 2 DNA 단편;

3) 첫번째 아미노산부터 399번째 아미노산까지의 제 1 단백질 단편 또는 이를 암호화하는 게 1 DNA 단편 및 400번째 아미노산부터 1307번째 아미노산까지의 제 2 단백질 단편 또는 이를 암호화하는 제 2 DNA 단편 ; 또는 4) 첫번째 아미노산부터 526번째 아미노산까지의 제 1 단백질 단편 또는 이를 암호화하는 제 1 DNA 단편 및 527번째 아미노산부터 1307번째 아미노산까지의 제 2 단백질 단편 또는 이를 암호화하는 제 2 DNA 단편

을 포함하는 것일 수 있다.

상기 절단 위치 및 절단 단편을 AsCpfl를 예를 들어 설명하였지만, 상기 절단 위치 및 절단 단편은 다른 유기체에서 유래하는 Cpfl에서의 해당 위치에 적용될 수 있다. 상기 "다른 유기체에서 유래하는 Cpfl에서의 해당 위치 1 '는

AsCpfl 아미노산서열 또는 이를 암호화하는 DNA서열과 당해 유기체의 Cpfl의 아미노산 서열 또는 이를 암호화하는 DNA서열을 통상적인 서열 비교 수단 (예컨대 BLAST (Basic Local Alignment Search Tool; 예컨대, PS I -BLAST (Position- Specific Iterative BLAST); blast .ncbi .nlm.nih.gov/Blast .cgi ) 등)을 이용하여 결정될 수 있으며, 이는 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자가 명확하게 알 수 있는 사항이다.

상기 Cpfl 단백질 또는 또는 이를 암호화하는 유전자의 절단 단편은 두 개 이상의 절단 단편을 포함할 수 있으며 , 상기 두 개 이상의 절단 단편은 각각 N- 말단 및 /또는 C-말단 (단백질 단편의 경우) 또는 5' 말단 및 /또는 3' 말단 (유전자 단편의 경우)에 결합 단백질 또는 결합 단백질을 암호화하는 핵산 분자와 결합되어 있을 수 있다. 상기 결합 단백질은 동일한 생체활성물질의 서로 다른 부위에 결합하는 서로 다른 단백질일 수 있다. 일 예에서, 상기 생체활성물질은

rapamydn이고 상기 결합 단백질은 FRB 단백질 및 FKBP 단백질로 이루어진 군에서 선택된 것일 수 있으나, 이에 제한되는 것은 아니다.

상기 두 개 이상의 Cpfl 단백질 단편을 암호화하는 유전자 단편 (절단 유전자 단편)이 재조합 백터를 통하여 전달되는 경우, 상기 두 개 이상의 절단 유전자 단편은 별개의 백터에 각각 포함되거나 하나의 백터에 함께 포함될 수 있다. 다른 예에서, 상기 백터에 포함된 절단 별개의 백터에 각각 또는 함께 포함된 절단 유전자 단편은 각각의 절단 유전자 단편의 5' 말단 또는 3' 말단

(예컨대, 5 1 말단) 방향에 crRNA 암호화 DNA와 연결된 것일 수 있다. 일 예에서, 제 1 DNA 단편을 포함하는 백터는, 5'에서 3' 방향으로, 프로모터, crRNA 암호화 DNA, 프로모터, 및 Cpfl 단백질의 제 1 단백질 단편을 암호화하는 제 1 DNA 단편을 포함하고, 제 2 DNA 단편을 포함하는 백터는, 5'에서 3' 방향으로, 프로모터, crRNA 암호화 DNA, 프로모터, 및 Cpf l 단백질의 제 2 단백질 단편을 암호화하는 게 2 DNA 단편을 포함하는 것일 수 있다 (도 32a 참조) .

본 명세서에서 제공되는 유전체 교정 방법 및 형질 전환 유기체 제조 방법에서 수행되는 모든 단계는 세포 내 또는 세포 외, 또는 생체 내 또는 생체 외에서 수행되는 것일 수 있다.

본 발명의 다른 예는 mi croinject i on 방법에 의한 리보핵산단백질의 세포 (예컨대 embryo) 전달시 각각의 embryo 를 microscope를 통해 확인하면서 하나씩 처리해야 하는 단점, 특히 많은 수의 embryo를 순서대로처리할 때는 긴 시간이 필요한데, 이는 embryo 가 1 cel l stage에서 유지되는 시간이 짧다는 점에서 야기되는 기술적인 장애를 극복하기 위한 기술을 제공한다.

또한, crRNA가 PCR산물 ( amp 1 i con) 형태가 아닌 백터 (에컨대,

플라스미드)에 포함된 형태 (재조합 백터)로 사용됨으로써 PCR산물 (ampl icon) 형태로 사용되는 경우와 비교하여 유전자 교정 (절단, 삽입, 결실 등) 효율이 증진됨을 확인하여 (도 14a 및 14b 참조), crRNA를 백터에 포함된 (클로닝된) 형태로 사용하는 기술을 제공한다. 상기 백터는 crRNA 코딩 DNA 및 /또는 이와 작동 가능하게 연결된 프로모터 등의 전사조절서열을 포함하는 crRNA 발현 카세트를 포함하는 것일 수 있다.

구체적으로, 다른 예는 RNA 가이드 엔도뉴클레아제 (RNA-guided endonuc lease ; RGEN)과 가이드 RNA를 포함하는 흔합물 또는

리보핵산단백질 (r ibonucl eoprotein ; RNP) , 이들올 암호화하는 DNA , 또는 상기 D 를 포함하는 재조합 백터를 세포 (예컨대, 진핵 세포) 또는 유기체 (예컨대, 진핵 유기체)에 전달하는 것은 국소주입법 (예컨대, 병변 또는 표적 부위 직접 주입) , 미세주입법 (mi croinject ion) , 전기천공법 (electroporat ion), 리포펙션 (예컨대, 리포펙타민 사용) 등에 의할 수 있다.

다른 예는 RNA 가이드 엔도뉴클레아제 (RNA-guided endonuc 1 ease; RGEN)와 가이드 RNA를 포함하는 흔합물 또는 리보핵산단백질 (r ibonucleoprotein; RNP) , 이들을 암호화하는 DNA , 또는 상기 DNA를 포함하는 재조합 백터를 이용하는 세포 (예컨대, 진핵 세포) 또는 유기체 (예컨대, 진핵 유기체)의 유전체 교정 방법 및 형질전환유기체의 제조 방법에 있어서, 상기 흔합물, 리보핵산단백질, DNA, 또는 재조합 백터는 국소주입법 (예컨대, 병변 또는 표적 부위 직접 주입)ᅳ 미세주입법 (microinject ion) , 전기천공법 (electroporat ion), 리포펙션 ( l ipofect ion; 예컨대 , 리포펙타민 사용) 등에 의하여 세포 (예컨대, 진핵 세포) 또는 유기체 (예컨대, 진핵 유기체)에 전달될 수 있다. 전달 대상 세포가 식물 세포인 경우, 상기 식물 세포를 폴리에틸렌글리콜 (polyethylene glycol ; PEG) 등의 계면활성제와 흔합한 후, 상기 엔도뉴클레아제와 가이드 RNA를 포함하는 흔합물 또는 리보핵산단백질과 흔합하여 전달할 수 있다.

다른 예는 RNA 가이드 엔도뉴클레아제 (RNA-guided endonuc lease ; RGEN)와 가이드 RNA를 포함하는 흔합물 또는 리보핵산단백질 (r ibonucleoprotein; RNP) , 이들을 암호화하는 DNA, 또는 상기 DNA를 포함하는 재조합 백터를 세포 (예컨대, 진핵 세포) 또는유기체 (예컨대, 진핵 유기체)에 전달하는 방법에 있어서, 상기 흔합물, 리보핵산단백질, DNA, 또는 재조합 백터를 세포 (예컨대, 진핵 세포) 또는 유기체 (예컨대, 진핵 유기체)에 국소주입법 (예컨대, 병변 또는 표적 부위 직접 주입 )ᅳ 미세주입법 (microinject ion) , 전기천공법 (electroporat ion), 리포펙션

( l ipofect ion; 예컨대, 리포펙타민 사용) 등에 의하여 세포 (예컨대, 진핵 세포) 또는 유기체 (예컨대, 진핵 유기체)에 도입시키는 단계를 포함하는 것을 특징으로 하는, 전달 방법을 제공한다. 전달 대상 세포가 식물 세포인 경우, 상기 식물 세포를 폴리에틸렌글리콜 (polyethylene glycol ; PEG) 등의 계면활성제와흔합한 후, 상기 엔도뉴클레아제와 가이드 RNA를 포함하는 흔합물 또는 리보핵산단백질과 흔합하여 전달할 수 있다.

상기 " 기재된 방법에 있어서, 상기 엔도뉴클레아제 (예컨대, Cpf l , Cas9 등) 또는 이를 암호화하는 DNA 및 가이드 RNA (예컨대, crRNA, sgRNA등) 또는 이를 암호화하는 DNA를 포함하는 흔합물 또는 리보핵산단백질, 또는 이를 암호화하는 DNA의 전달은 생체 외 ( in vi tro)에서 발현된 (정제된) 엔도뉴클레아제 및 가이드 RNA의 흔합물 또는 이들이 접합된 리보핵산단백질을 미세주입법 (microinject ion) , 전기천공법 (electroporat ion) , 리포펙션 등의 방식으로 진핵 세포 및 /또는 진핵 유기체에 전달함으로써 수행할 수 있다. 다른 예에서, 상기 엔도뉴클레아제

(예컨대, Cpflᅳ Cas9 등) 또는 이를 암호화하는 DNA 및 가이드 RNA (예컨대, crRNA, sgRNA 등) 또는 이를 암호화하는 DNA를 포함하는 흔합물 또는 리보핵산단백질의 전달은 엔도뉴클레아제를 암호화하는 DNA을 포함하는 발현 카세트 및 가이드 RNA를 암호화하는 DNA를 포함하는 발현 카세트를 별도의 백터에 각각 포함하거나 하나의 백터에 함께 포함하는 재조합 백터를 국소주입법 (예컨대, 병변 또는 표적 부위 직접 주입), 미세주입법 (microinjection), 전기천공법 (electroporat ion),

리포펙션 등의 방식으로 진핵 세포 및 /또는 진핵 유기체에 전달함으로써 수행할 수 있다.

상기 발현 카세트는, 엔도뉴클레아제 코딩 DNA또는 crR A코딩 DNA에 더하여, 통상적인 유전자 발현 조절 서열을 상기 엔도뉴클레아제 코딩 DNA또는 crRNA코딩 DNA과 작동 가능하게 연결된 형태로 포함하는 것일 수 있다. 상기 용어 "작동 가능하게 연결된 (operatively linked)"은 유전자 발현 조절 서열과 다른 뉴클레오타이드 서열 사이의 기능적인 결합 (cis)을 의미한다.

상기 유전자 발현 조절 서열은 복제원점 (replication origin), 프로모터, 전사 종결 서열 (terminator) 등으로 이루어진 군에서 선택된 1종 이상일 수 있다. 본 명세서에 시재된 프로모터는 특정 유전자의 전사 개시를 조절하는 전사 조절 서열 중 하나로, 통상적으로 약 100 내지 약 2500 bp 길이의

폴리뉴클레오타이드 단편이다. 일 구체예에서, 상기 프로모터는 세포, 예컨대, 진핵 세포, (예컨대, 식물 세포, 또는 동물 세포 (e.g., 인간, 마우스 등의 포유류 세포 등) 등)에서 전사 개시를 조절할 수 있으면, 제한 없이 사용 가능하다.

예컨대, 상기 프로모터는 CMV프로모터 (cytomegalovirus promoter; (예컨대, 인간 또는 마우스 CMV i議 ediate-early프로모터), U6프로모터, EF1- a (elongat ion factor l-α) 프로모터, EFl-α short (EFS) 프로모터, SV40 프로모터,

아데노바이러스 프로모터 (major late promoter), pi/프로모터, r 프로모터, lac 프로모터, tac프로모터, T7 프로모터 , 백시니아 바이러스 7.5K프로모터, HSV의 프로모터, SV40E1 프로모터, 호흡기 세포융합 바이러스 (Respiratory syncytial virus; RSV) 프로모터, 메탈로티오닌 프로모터 (metal lothkmin promoter ), β-액틴 프로모터, 유비퀴틴 C프로모터, 인간 IL-2 (human interleukin-2) 유전자

프로모터, 인간 림포톡신 (human lymphotoxin) 유전자 프로모터, 인간 GM-CSF

(human granulocyte一 macrophage colony stimulating factor) 유전자 프로모터 등으로 이루어진 군에서 선택된 1 종 이상일 수 있으나, 이에 제한되는 것은 아니다. 일 예에서, 상기 프로모터는 CMV i隱 ediate-early프로모터, U6 프로모터, EF1- α (elongation factor 1- α ) 프로모터, EFl-α short (EFS) 프로모터 등으로

이루어진 군에서 선택된 것일 수 있다. 상기 전사 종결 서열은 폴리아데닐화 서열 (pA) 등일 수 있다. 상기 복제 원점은 Π 복제원점, SV40 복제원점, pMBl 복제원점 , 아데노 복제원점, MV복제원점 , BBV 복제원점 등일 수 있다.

본 명세서에 기재된 백터는 플라스미드 백터, 코즈미드 백터 및

박테리오파아지 백터, 아데노바이러스 백터, 레트로바이러스 백터 및 아데노 -연관 바이러스 백터와 같은 바이러스 백터로 이루어진 군에서 선택된 것일 수 있다.

상기 재조합 백터로 사용될 수 있는 백터는 당업계에서 사용되는 플라스미드 (예를 들면, pcDNA 시리즈, pSClOl, pGV1106, P ACYC177, ColEl, pKT230, pME290, pBR322, pUC8/9, pUC6, pBD9, pHC79, IJ61,. pLAFRl, pHV14, pGEX 시리즈, pET시리즈, pUC19 등), 파지 (예를 들면, λ^4λΒ, λ -Charon, λ Δζΐ, M13 등) 또는

바이러스 백터 (예를 들면, 아데노 -연관 바이러스 (AAV) 백터 등) 등을 기본으로 하여 제작될 수 있으나 이에 제한되는 것은 아니다.

상기 진핵 유기체는 진핵 세포 (예컨대, 효모 등의 균류, 진핵 동물 및 /또는 진핵 식물 유래 세포 (예컨대, 배아세포, 줄기세포, 체세포, 등)), 진핵 동물

(예컨대, 척추동물 또는 무척추동물, 보다 구체적으로, 인간, . 원승이 등의 영장류, 개, 돼지, 소, 양, 염소, 마우스, 래트 등을 포함하는 포유류 등), 및 진핵 식물 (예컨대, 녹조류 등의 조류, 옥수수, 콩, 밀, 벼 등의 단자엽 또는 쌍자엽 식물 등)로 이루어진 군에서 선택된 것일 수 있으나, 이에 제한되는 것은 아니다.

상기 RNA 가이드 엔도뉴클레아제는 단일 가이드 RNA (sgRNA) 또는 이중 가이드 RNA (dual guide RNA)와 함께 흔합물 또는 복합체 형태로 존재할 수 있으며, RNA에 포함된 유전자 표적부위의 타겟팅 서열을 절단하여 유전자 교정 작용을 하는 엔도뉴클레아제를 의미하는 것으로, 대표적으로 Cas9 단백질 (CRISPR associated protein 9), Cpfl 단백질 (CRISPR from Prevotella and Franci sella 1) 등과 같은 타입 Π , 및 /또는 타입 V의 CRISPR/Cas 시스템에 수반되는 엔도뉴클레아제일 수 있다.

Cas9 단백질은 스트랩토코커스 sp. {Streptococcus sp.), 예컨대,

스트렙토코커스 피요게네스 [Streptococcus pyogenes) 유래의 것 (SwissProt

Accession number Q99ZW2)일 수 있으나, 이에 제한되는 것은 아니다.

Cpfl 단백질은 앞서 설명한 바와 같다 (예컨대, 표 1 참조).

상기 Cas9 단백질, Cpfl 등의 엔도뉴클레아제는 미생물에서 분리된 것 또는 재조합적 방법 또는 합성적 방법으로 비자연적 생산된 것 (non-natural ly occurring)일 수 있다. 상기 엔도뉴클레아제는 진핵세포의 핵 내 전달을 위하여 통상적으로 사용되는 요소 (예컨대, 핵위치신호 (nuclear localization signal; NLS; 예컨대, PKKKRKV, K PAATKKAGQAKKKK, 또는 이를 암호화하는 핵산 분자) 등)를 N-말단 또는 C-말단 (또는 이를 암호화하는 핵산 분자의 5' 말단 또는 3' 말단)에 추가로 포함하는 것일 수 있으나, 이에 제한되는 것은 아니다. 상기

엔도뉴클레아제 단백질은 정제된 단백질 형태로 사용되거나, 이를 암호화하는 DNA, 또는 상기 DNA를 포함하는 재조합 백터의 형태로 사용될 수 있다.

상기 가이드 RNA는 복합체를 형성할 엔도뉴클레아제의 종류 및 /또는 그 유래 미생물에 따라서 적절히 선.택될 수 있다. 예컨대, 상기 가이드 RNA는 CRISPR RNA (crR A), i a^act ivat ing crRNA (tracrRNA), 및 단일 가닥 가이드 RNA (sgRNA)로 이루어진 군에서 선택된 1종 이상일 수 있으며, 엔도뉴클레오타이드 종류에 따라서, CRISPR RNA (crRNA) 단독, CRISPR RNA (crRNA) 및 ra ^activating crRNA

(tracrRNA)의 복합체, 또는 단일 가닥 가이드 RNA (sgRNA)일 수 있다.

예컨대, Cas9 단백질을 포함하는 복합체 (Cas9 시스템)은 목적하는 유전자 교정을 위하여 두 개의 가이드 RNA, 즉, 유전자의 표적 부위와흔성화 가능한 뉴클레오타이드 서열을 갖는 CRISPR RNA (crRNA)와 추가적인 ra? activating crRNA (tracrRNA)를 필요로 하며 , 이들 crRNA와 tracrRNA는 서로 결합된 이중 가닥 crRNA: tracrRNA 복합체 형태, 또는 링커를 통하여 연결되어 단일 가닥 가이드 RNA (single-stranded guide RNA; sgRNA) 형태로 사용된다. Cpfl 단백질을 포함하는 복합체 (Cpfl 시스템)은 목적하는 유전자 교정을 위하여 하나의 가이드 RNA, 즉, 유전자의 표적 부위와흔성화 가능한 뉴클레오타이드 서열을 갖는 crRNA을 필요로 한다.

상기 가이드 R A의 구체적 서열은 Cas9 단백질 또는 Cpfl 단백질의 종류 (유래 미생물)에 따라서 적절히 선택할 수 있으며, 이는 이 발명이 속하는 기술 분야의 통상의 지식을 가진 자가 용이하게 알 수 있는 사항이다.

일 예에서, Streptococcus pyogenes유래의 Cas9 단백질을 포함한 Cas9 시스템에 사용되는 crRNA는 다음의 일반식 2로 표현될 수 있다:

5 ' -(N cas9 ) GUUUUAGAGCUA-(X cas9 ) m -3 ' (일반식 2; 서열번호 61)

상기 일반식 2에서,

N cas9 는 유전자 표적 부위와 흔성화 가능한뉴클레오타이드 서열을 포함하는 타겟팅 서열 부위로서 표적 유전자의 표적 부위에 따라서 결정되는 부위이며, 1은 상기 타겟팅 서열 부위에 포함된 뉴클레오타이드 수를 나타내는 것으로 18 내지 22의 정수, 예컨대 20일 수 있고;

상기 타겟팅 서열 부위의 3 ' 방향으로 인접하여 위치하는 연속하는 12개의 뉴클레오타이드 (GUUUUAGAGCUA)를 포함하는 부위는 crRNA의 필수적 부분이고,

X cas9 는 crRNA의 3 1 쪽에 위치하는 (즉, 상기 crRNA의 필수적 부분의 3 ' 방향으로 인접하여 위치하는) m개의 뉴클레오타이드를 포함하는 부위로, m은 8 내지 12의 정수, 예컨대 10일 수 있으며, 상기 m개의 뉴클레오타이드들은 서로 같거나 다를 수 있으며 , A , U , C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있다.

일 예에서 , 상기 X cas9 는 UGCUGUUUUG를 포함할 수 있으나 이에 제한되지 않는다.

또한, Streptococcus pyogenes유래의 Cas9 단백질을 포함한 Cas9 시스템에 사용되는 tracrRNA는 다음의 일반식 3으로 표현될 수 있다:

5 ' -(Y cas9 ) p -

UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGG UGC-3 ' (일반식 3 ; 서열번호 62)

상기 일반식 3에서,

60개의 뉴클레오타이드

(UAGCMGUUAAMUAA(^UAGUCCGUUAUCMCUUGAAAMGUG :AC^ 포함하는 부위는 t racrRNA의 필수적 부분이고

Y cas9 는 상기 t racrRNA의 필수적 부분의 5 ' 말단에 인접하여 위치하는 p개의 뉴클레오타이드를 포함하는 부위로, p는 6 내지 20의 정수, 예컨대 8 내지 19의 정수일 수 있으며, 상기 P개의 뉴클레오타이드들은 서로 같거나 다를 수 있고, A , U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있다.

또한, Streptococcus pyogenes유래의 Cas9 단백질을 포함한 Cas9 시스템에 사용되는 sgRNA는 상기 Cas9의 crRNA의 타겟팅 서열 부위와 필수적 부위를 포함하는 crRNA 부위와 상기 Cas9와 t racrRNA의 필수적 부위를 포함하는 tracrRNA 부위가 뉴클레오타이드 링커를 통하여 헤어핀 구조를 형성하는 것일 수 있다. 보다 구체적으로, 상기 sgRNA는 crRNA의 타겟팅 서열 부위와 필수적 부위를 포함하는 crRNA 부위와 상기 Cas9의 t racrRNA의 필수적 부위를 포함하는 t racrRNA 부위가 서로 결합된 이중 가닥 RNA분자에서 crRNA부위의 3 ' 말단과 tracrRNA 부위의 5 ' 말단이 뉴클레오타이드 링커를 통하여 연결된 헤어핀 구조를 갖는 것일 수 있다.

crRNA의 타겟팅 서열 부위와 필수적 부위 및 tracrRNA의 필수적 부위는 앞서 설명한 바와 같다. 상기 sgRNA에 포함되는 뉴클레오타이드 링커는 3 내지 5개, 예컨대 4개의 뉴클레오타이드를 포함하는 것일 수 있으며, 상기

뉴클레오타아드들은 서로 같거나 다를 수 있고, A , U , C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있다. 일 예에서, 상기 링커는 ' GAAA '의

뉴클레오타이드 서열을 갖는 것일 수 있으나 이에 제한되는 것은 아니다.

예컨대, 상기 sgRNA는 다음의 일반식 2로 표현될 수 있다:

5 1 -(N cas9 )„rGUUUCAGUUG(:lJ- (링커;卜

AUGCUCUGUMUCAUUUAA GUAUUUUG CCXJACCUCUGUUUGACACGUCUG U CUAAA ' (일반식 4 ; 서열번호 63)

상기 일반식 4에서,

N cas9 는 유전자 표적 부위와 흔성화 가능한 뉴클레오타이드 서열을 포함하는 타겟팅 서열 부위로서 표적 유전자의 표적 부위에 따라서 결정되는 부위이며, m은 상기 타겟팅 서열 부위에 포함된 뉴클레오타이드 수를 나타내는 것으로 16 내지 24의 정수 또는 18 내지 22의 정수 일 수 있고;

상기 링커는 3 내지 5개, 예컨대 4개의 뉴클레오타이드를 포함하는 것일 수 있으며,

상기 타켓팅 서열 부위 및 링커에 포함된 뉴클레오타이드들은 서로 같거나 다를 수 있고, A , U , C 및 G로 이루어진 군에서 각각 독립적으로 선택된.것일 수 있고, 예컨대, ' GAAA 1 일 수 있다.

상기 Cas9 단백질의 crRNA (예컨대, 일반식 2로 표현됨) 또는 sgRNA (예컨대, 일반식 4로 표현됨)는 5 ' 말단 (즉, crRNA의 타겟팅 서열 부위의 5 ' 말단)에 1 내지 3개의 구아닌 (G)을 추가로 포함할 수 있다.

상기 Cas9 단백질의 tracrRNA또는 sgRNA는 tracrRNA의 필수적 부분 (60nt )의 3 ' 말단에 5개 내지 7개의 우라실 (U)을 포함하는 종결부위를 추가로 포함할 수 있다. 다른 예에서, Cpfl 단백질올 포함한 Cpfl 시스템에 있어서, 여기에 사용되는 crRNA는 앞서 설명한 바와 같다 (일반식 1 및 표 2 참조).

다른 예에세 Cpfl 단백질 및 Hifl-alpha 유전자를 타겟팅하는 crRNA의 안구 질환 치료 용도를 제공한다.

Hifl-alpha (Hypoxia-inducible factor 1-alpha)는 헤테로다이머 전사 인자인 hypoxia- inducible factor 1 (HIF-1)의 서브유닛으로, HIF1A유전자에 의하여 암호화된다. 상기 Hifl— alpha는 포유류, 예컨대 인간 Hifl-alpha일 수 있으며 , NCBI accession no. NP_001230013.1, NP_001521.1, P_851397.1,

NP_001521.1 등으로 표현될 수 있으나 이에 제한되는 것은 아니다. HIF1A유전자는 포유류, 예컨대 인간 HIF1A유전자일 수 있으며, NCBI accession no. 丽_181054.1, 匪_001243084.1, NM_001530.1 등으로 표현될 수 있으나 이에 제한되는 것은 아니다. 구체적으로, 일 예는

Cpfl 단백질 또는 이를 암호화하는 DNA, 및

Hifl-alpha 유전자의ᅳ표적 부위의 연속하는 15nt 내지 30nt의

뉴클레오타이드 서열 (표적 서열)과 흔성화 가능한뉴클레오타이드 서열을

포함하는 crRNA또는 이를 암호화하는 DNA

를 포함하는, 안구 질환의 예방 또는 치료용 약학 조성물을 제공한다.

다른 예는,

Cpfl 단백질 또는 이를 암호화하는 DNA, 및

Hifl-alpha 유전자의 표적 부위의 연속하는 15nt 내지 30nt의

뉴클레오타이드 서열 (표적 서열)과 흔성화 가능한뉴클레오타이드 서열을

포함하는 crRNA또는 이를 암호화하는 DNA

를 안구 질환의 예방 또는 치료를 필요로 하는 대상에 투여하는 단계를 포함하는, 안구 질환의 예방 또는 치료 방법을 제공한다.

상기 Cpfl 및 crRNA은 앞서 설명한 바와 같다.

상기 약학 조성물 및 예방또는 치료 방법에 있어서, 상기 Cpfl 단백질을 암호화하는 DNA 및 상기 crRNA를 암호화하는 DNA를 별도의 백터에 각각 포함하거나 하나의 백터에 함께 포함하는 재조합 백터가 포함또는 투여될 수 있다.

상기 백터로서, 앞서 설명한 종류의 백터를 사용할 수 있으며, 예컨대, 아데노부속 바이러스 (MV)를 사용할 수 있다. 상기 crRNA는 서열번호 69 내지 서열번호 79의 Hifl-a유전자의 표적 서열 중에서 선택된서열과 흔성화 가능한 뉴클레오타이드 서열을 포함하는 것일 수 있다.

상기 안구 질환은 당뇨성 망막병증 또는 노인성 황반변성일 수 있다.

상기 Cpfl 단백질 또는 이를 암호화하는 DNA를 포함하는 재조합 백터, 및

Hifl-alpha 유전자의 표적 부위의 연속하는 15nt 내지 30nt의 표적 서열과 흔성화 가능한 뉴클레오타이드 서열올 포함하는 crRNA또는 이를 암호화하는 DNA를 포함하는 재조합 백터를 포함하는 흔합물 또는 리보핵산 단백질은 정맥투여 또는 병변 국소 투여, 에컨대 망막주입 (예컨대, subretinal injection또는

intravitreal injection)에 의하여 투여될 수 있다.

상기 대상은 인간, 마우스 등의 포유 동물일 수 있다.

【발명의 효과】

본 발명은 Cpfl 시스템을 이용하여 보다효과적으로 진핵 세포 (예컨대, 인간, 마우스 등의 포유 동물 세포, 진핵 식물 세포)에서의 유전체 교정을 수행할 수 있고, 원하는 유전자가 knock-out 또는 knock-in된 형질전환 세포 및 /또는 형질전환 동물 /식물을 제조할 수 있다. 또한, RNA가이드 엔도뉴클레아제와 가이드 RNA를 포함하는 리보핵산단백질의 진핵 유기체 전달시, microinjection이 아닌 electroporation 방식을 채용함으로써 보다 효율적으로 리보핵산단백질을 진핵 유기체에 전달할 수 있다.

【도면의 간단한 설명】

도 1은 재조합 AsCpfl과 crRNA를 포함하는 RNP를 mouse blastocyst에 microinjection으로 전달하는 과정을 모식적으로 보여준다.

도 2는 T7E1 실험을 통해 blastocyst 에서 염기서열 변이가 있음을 확인한 결과이다.

도 3은 Cpfl RNP유전체 교정을 targeted deep sequencing으로 확인한 결과를 보여주는 것으로, Cpfl 이 유전체 절단을 일으킬 것으로 예상되는 염기서열 위치에 특이적으로 변이가 존재함이 확인되었다.

도 4 내지 6은 Cpfl RNP으로 유전체 교정된 생쥐에서 비특이적 염기서열 변이 분석 결과를 보여주는 것으로,

도 4는 Cpf l RNP 를 사용해 제작된 생쥐의 꼬리에서 gDNA를 정제하여

T7E1으로 특이적 위치에서 염기서열 변이 확인한 결과이고,

도 5는 변이된 염기서열을 targeted deep sequencing으로 확인한 결과이고, 도 6은 꼬리 gDNA를 genome wide sequencing 하여 비특이적 위치에

염기서열 변이가 없음을 확인한 결과이다.

도 7 내지 10은 Electroporat ion으로 SpCas9 과 AsCpf l RNP를 전달하여 mouse embryo 에서 유전체 교정하는 것과 관련된 것으로,

도 7은 SpCas9/AsCpf l 과 sgRNA/crRNA를 결합하여 다수의 mouse embryo 에 el ectroporat i on을 통해 전달하는 과정을 모식적으로 보여주는 것이고,

도 8은 SpCas9 RNP electroporat ion으로 일으킨 염기서열 변이를 T7E1으로 확인한 결과를 보여주는 것이고,

도 9는 SpCas9 RNP elect roporat ion 으로 만돌어진 염기서열 변이를

targeted deep sequencing으로 분석한 결과이고,

도 10은 AsCpf l RNP electroporat ion 에 의해 생긴 염기서열 변이를

targeted deep sequencing으로 분석한 결과이다.

도 11은 콩 원형질체에서 상동 FAD2 유전자들의 AsCpf l 과 LbCpf l 재조합 단백질에 의한 유전체 교정 방법을 보여주는 모식도이다.

도 12 및 도 13은 FAD2 유전자들의 염기서열 변이 분석 결과를 보여주는 것으로,

도 12는 AsCpf l 과 LbCpf l을 사용한 유전체 교정 효율을 보여주는 결과이고, 도 13은 targeted deep sequencing 을 통한 특이적 염기서열 변이 확인 결과이다.

도 14a 및 14b는 Pl asmid U6-crRNA와 PCR product U6-crRNA를 이용한 세포 유전체 교정 및 효율 비교한 결과를 보여주는 것으로,

14a는 T7E1 assay를 통하여 plasmid U6_crRNA를 사용한 경우와 PCR product U6-crRNA를 사용한 경우의 세포 유전체 교정 효율을 비교한 결과를 보여주는 전기영동 사진이고,

14b는 Targeted-de印 sequencing 방법올 이용한 세포 유전체 교정 효율의 정량 분석 결과를 보여주는 그래프이다. 도 15a 및 15b는 재조합 Cpfl 단백질 정제 및 activity 확인올 위한 in vitro cleavage assay 결과를 보여주는 것으로,

15a는 AsCpfl 및 LbCpf 1를 박테리아에서 발현 및 정제하여 SDS— PAGE 전기영동으로 확인한 결과이고,

15b는 정제한 재조합 Cpfl 단백질과 in vitro transcript ion(T7) 또는 합성한 (synthetic) crRNA를 사용하여 target DNA를 절단하고 TBE— agarose gel로 전기영동한 결과이다.

도 16a 내지 16c는 재조합 Cpfl과 crRNA로 이루어진 RNP를 통한 세포 유전체 교정 결과를 보여주는 것으로,

16a는 As-/Lb-Cpfl과 crRNA로 이루어진 RNP 전달에 의한 세포 유전체 교정을 T7E1 assay에 의하여 확인한 전기영동 사진이고,

16b는 targeted deep-sequencing 방식으로 Cpfl RNP의 세포 유전체 교정 효율을 측정하고 이를 정량한 결과를 보여주는 그래프이며,

16c는 화학적 합성 (synthetic) crRNA를 이용한 세포 유전체 교정을 T7E1으로 측정하여 in vitro transcript ion으로 만들어진 crRNA와 효율을 비교하여 보여주는 전기영동사진이다.

도 17a 내지 17c는 Cpfl과 crRNA를 이용한 세포 유전체의 in vitro cleavage 및 Digenome-seq 결과를 보여주는 것으로,

17 a는 Cpfl 단백질과 crRNA를 이용한 시험관 내 세포 유전체 절단을 통한 qPCR과 Digenome-seq의 모식도이고,

17b는 세포 유전체에 Lb-/As-cpfl 단백질 (3nM_300nM)과 crRNA(9nM- 900nM)으로 절단 처리한후 남아있는 표적위치 유전체를 qPCR로 정량한 결과를 보여주는 그래프이고,

17c는 세포 유전체를 시험관 내 절단 전과 후의 세포 유전체를 각각 전체 유전체 시퀀싱하여 표적위치 근처의 sequence read들을 IGV로 비교한 결과를 보여준다.

도 18a 및 18b는 Cpfl과 crRNA를 이용한 Digenome-seq 결과를 보여주는 것으로,

18a는 Digenome-seq 결과 검출된 비표적 후보의 유전체 상 위치 및 유전자 서열을 보여주고, 18b는 비표적 후보 위치의 보존된 서열 (conserved sequence)올 서열 로고 (sequence logo)로 표시한 것이다ᅳ

도 19a는 T7E1 assay를 통하여 plasmid crRNA를 사용한 경우와 PCR product crRNA를 사용한 경우의 세포 유전체 교정 효율을 비교한 결과를 보여주는 전기영동 사진이다.

도 19b는 4종의 Cpfl orthologs 각각에 대한 crRNA를사용하여 targeted deep sequencing방법으로 측정된 Indel f requencies(%)를 나타낸 그래프이다 (Error bars indicate s.e.m) .

도 19c 는 HEK293T세포 내의 10개의 내재 표적 위치 (endogenous target sites)에서 LbCpfl, AsCpfl, 및 SpCas9각각에 의하여 유도되는 변이 빈도

(Mutation frequencies; Indel frequencies (%))를 보여주는 그래프이다 (Mean indel frequencies 士 s.e.m. are shown) .

도 20a내지 20c는 HEK293T cell에서의 on target 에 대한 crRNA및 상기 on target과 하나 또는 2개의 mismatched nucleotide를 갖는 서열에 대한 crRNA를 사용한 경우의 Indel frequency(%)를 targeted deep sequencing로 측정하여, Cpfl의 Specificity를 보여주는 것으로,

20a는 /¾ 7 -3에 대한 결과를 보여주는 그래프이고,

20b는 D匪 T1-4에 대한 결과를 보여주는 그래프이며, _一

20c는 MVS1에 대한 결과를 보여주는 그래프이다 (Error bars indicate s.e.m).

도 21a내지 21f 는 Cpfl 및 Cas9뉴클레아제의 Genome-wide target specificity를 Digenome_seq 방식으로 측정한 결과를 보여주는 으로,

21a 및 21b는 whole-genome sequencing및 Digenome一 seq분석법에 의하여 얻어진 DNA cleavage scores를 보여주는 Genome-wide Circos plot으로, 본래의 유전체 DNA는 붉은 색으로 나타내고, LbCpfl로 절단된 유전체 DNA는 녹색, AsCpfl 로 절단된 유전체 DNA는 파란색, 및 SpCas9로 절단된 유전체 DNA는 노란색으로 각각 표시되어 있으며, 별표는 본래의 유전체 DNA에서 발견되는 하나의 false- positive site를 나타내고, 화살표는 on-target site을 나타내며, Sequence logos는 Digenome-seq에 의하여 동정된 in vitro cleavage site에서의 DNA서열을 이용한 WebLogo를 통하여 측정하였으며, 21c는 Digenome一 seq에 의하여 capture된 상동부위 (homologous sites)와 Fractions (왼쪽 Y축, 사각형 표시는 AsCpf 1에 대한 결과이고, 세모 표시는

LbCpfl에 대한 결과임) 및 8 Cpfl on-target sites에서부터 mismatch 개수에 의하여 bin되는 6 nucleotides까지 8 Cpfl orrtarget sites와상이한 homologous site의 개수 (오른쪽 Y축, bars)를 나타내며 (Error bars indicate s.e.m.),

21d는 targeted deep sequencing에 의하여 인간 세포에서 확인된 off- target site을 보여주는 그래프로서 , on-target과 off-target 부위의 DNA서열도 함께 나타나 있으며 (굵은 글씨는 PAM서열이고 Mismatched뉴클레오타이드는 소문자로 표시됨),

21e는 상기 off-target site에 흔성화하도록 재설계된 crRNA를 이용하여

AsCpf 1 off-target 부위에서 얻어진 Targeted mutagenesis (Indel frequency (%))를 보여주는 그래프이고,

21f 는 Cpfl 및 crRNA를 암호화하는 플라스미드를 사용한 경우와 Cpfl 및 crRNA가 복합체를 형성하는 RNP를 사용한 경우의 Cpfl off-target 효과를 보여주는 그래프로서, specificity ratio는 Cpfl RNP를 사용하여 얻어진 off- target indel frequency에 대한 on—target indel frequency의 비율과

풀라스미드를 사용한 경우의 비율 간 fold difference (RNA/plasmid)를 나타낸다. 도 22a 내지 22f 는 Cpf 1-mediated D i genome-c ap t ur ed site의 Sequence logos를 보여주는 것으로, 상단은 AsCpfl를 사용하여 얻어진 Di genome-captured site의 Sequence logos이고, 하단은 LbCpfl를 사용하여 얻어진 Digenome-captured site의 Sequence logos이다.

도 23은 Digenome-captured site의 Sequence logos를 나타낸 것이다.

도 24a 내지 24f 는 HEK293T17 세포에서의 Digenome-captured site에서의 Indel frequency를 나타낸 그래프로서, 진한 막대는 LbCpfl 플라스미드로

트랜스펙션된 ΗΕΚ293ΤΓ7 세포에서 얻어진 결과이고, 연한 막대는 AsCpfl

플라스미드로 트랜스펙션된 ΗΕΚ293ΊΊ7 세포에서 얻어진 결과이다.

도 25는 3' 말단에서 절단된 (truncated) 절단 crRNA (tru-crRNAs)와 전장 crRNA (full-length crRNA)를 사용한 경우의 on-target 부위 및 off-target 부위에서의 Indel frequencies를 보여주는 그래프이다 (Error bars represent mean 土 s.e.m). 도 26a 내지 26e는 Cpfl orthologs가 상이한 overhang 패턴 및 변이 특성을 나타냄을 보여주는 것으로,

26a는 DNTMl-?> target site 및 DNTMl- target site에서의 overhang pattern을 보여주는 대표적인 Integrative Genomics Viewer(IGV) 이미지이고, 26b는 염기쌍 내에서 deletion/insertion크기에 의하여 bin된 변이 서열 리드의 개수를 보여주는 그래프이며 ,

26c는 Cpfl 또는 Cas9의 target site에서 유도되는 변이 서열을 보여주는 것으로, 각각의 뉴클레아제에 대하여, 찻번째 줄의 서열은 원래의 target 서열이고, 두 번째 즐부터는 변이가도입된 서열을 보여주며, 첫 번째 줄 서열에서 PAM서열 (Cpfl: TTTC)은 굵은 글씨로 표시하고, crRNA/sgR A이 흔성화하는 표적 서열은 밑줄로 표시하였으며, 두 번째 줄부터의 서열에서 밑줄로 표시된 서열은 Microhomology sequences를 의미하고, 우측에 기재된 숫자는 결실 ('- '로 표시)되거나 삽입 (소문자로 표시)된 뉴클레오타이드의 개수를 의미하며,

26d 및 26e는 LbCpfl, AsCpfl 및 SpCas9에 의하여 유도되는 변이 특성을 보여주는 것으로, 26d는 변이 서열이 결실 vs. 삽입의 두 가지 fraction으로 나뉘어지는 경우의 각각의 비율을 보여주는 그래프이고, 26e는 변이 서열이 in- frame indels vs. out— of— frame indels의 두 가지 fraction으로 나뉘어지는 경우의 각각의 비율을 보여주는 그래프이다 (Data represent mean 士 s.e.m. (n = 10 target sites)) .

도 27a 및 27b은 LbCpfl, AsCpfl, 및 SpCas9에 의하여 유도되는 변이 특성을 보여주는 것으로,

27a는 염기쌍 내에서 deletion/insertion (Indel) size에 의하여 bin된 변이 서열 리드의 개수를 보여주는 그래프이고, 변이 특성은 LbCpfl, AsCpfl, 또는 SpCas9폴라스이드로 트랜스펙션된 HEK293T세포로부터 targeted deep sequencing 방식으로 측정하였으며,

27b는 EMX1-2 target site (CTGATGGTCCATGTCTGTTACTC; 서열번호 42)에서 유도되는 변이 서열을 보여주는 것으로, 각각의 뉴클레아제에 대하여, 첫 번째 줄의 서열은 원래의 target 부위 서열이고, 두 번째 줄부터는 변이가 도입된 서열을 보여주며, 첫 번째 줄 서열에서 PAM서열 (Cpfl: TTTG)은 굵은 글씨로 표시하고, crRNA/sgRNA이 흔성화하는 표적 서열은 밑줄로 표시하였으며, 두 번째 줄부터의 서열에서 밑줄로표시된 서열은 Microhomology sequences를 의미하고, 우측에 기재된 숫자는 결실 ('-'로 표시)되거나 삽입 (소문자로 표시)된

뉴클레오타이드의 개수를 의미한다.

도 28은 Di genome— Sequencing 과정을 모식적으로 보여준다.

도 29a 및 29b는 Cpfl 단백질의 split 위치와분리된 Cpfl 단백질를 발현시키는 재조합 백터 구성을 보여주는 것으로.

29a는 Wild type Acidaminococcus sp. Cpfl (AsCpfl) 단백질과 4 종류의 Split-Cpfl 정보를 보여주고,

29b는 Split-Cpfl의 각 하프 도메인을 발현시키는 재조합 백터를 모식적으로 보여준다.

도 30a 내지 30c는 Split Cpfl과 crRNA 발현 백터를 이용한 유전체 교정결과를 보여주는 것으로,

30a는 Split-Cpfl을 이용한 DNMT1- 표적 유전체 교정 결과를 T7E1 assay 방식으로 확인하여 보여주는 아가로스 겔 분석 결과로서 . 별 표시는 T7E1 효소에 잘린 DNA조각 위치를 나타내며 ,

30b는 Split 위치에 따른 유전체 교정 효율을 Targeted deep-sequencing 방식으로 정량한 결과를 비교하여 보여주는 그래프이고,

30c는 표적 위치에 따른 Split— Cpfl 유전체 교정 효율을 Targeted deep- sequencing 방식으로 정량한 결과를 비교하여 보여주는 그래프이다.

도 31a 내지 31e는 Split Cpfl의 각 하프 도메인의 결합조절을 이용한 유도적 유전체 교정 효율을 분석한 결과를 보여주는 것으로,

31a는 Inducible-Split-Cpfl의 각 하프도메인을 발현시키는 재조합 백터 구성을 모식적으로 보여주고

31b는 Rapamycin 처리에 따른 Split-Cpfl과 Inducible— Spl it—Cpfl을 이용한醒 ΊΊ-?> 표적 유전체 교정 효율을 targeted deep-sequencing 방식으로 확인한 결과를 보여주며,

31c 내지 31f 는 표적 위치에 따른 Inducible-Split-Cpfl에 의한유도적 유전체 교정 효율을 targeted deep-sequencing 방식으로 분석한 결과를 보여준다. 도 32a 및 32b는 Split Cpfl의 각 하프 도메인을 발현하는 바이러스 백터 제작 과정을 보여주는 것으로, 32a는 Spl i t— Cpfl(Spl i t-3-AsCpfl)의 각 하프도쩨인을 발현하는 AAV , 바이러스 백터 구성을 모식적으로 보여주고,

32b는 MV-Spl i t-Cpfl 백터를 이용한 Z¾W77-3 표적 유전체 교정 효율을 T7E1 assay 방식으로 확인한 결과를 보여준다.

도 33은 pU6-As-crRNA플라스미드의 뉴클레오타이드 서열을 보여주는 것으로, 밑줄로 표시된 부분은 AsCpf l crRNA에 해당하는 부위이다.

도 34은 pU6-Lb-crRNA플라스미드의 뉴클레오타이드 서열을 보여주는 것으로, 밑즐로 표시된 부분은 LbCpfl crRNA에 해당하는 부위이다.

도 35은 U6-As-crRNA-ampl icon의 뉴클레오타이드 서열올 보여주는 것으로 , 밑줄로 표시된 부분은 AsCpfl crRNA에 해당하는 부위이다.

도 36은 U6-Lb-crRNA-ampl icon 의 뉴클레오타이드 서열을 보여주는 것으로, 밑줄로 표시된 부분은 LbCpfl crRNA에 해당하는 부위이다.

도 37은 LbCpfl 단백질 및 Hi fl-a 유전자의 표적 서열과 흔성화 가능한 crRNA를 MV 백터를 통하여 293T 세포에 전달하여 얻어진 Indel frequency (%)를 사용하여 얻어진 Deep sequencing으로 분석한 결과를 보여주는 그래프이다.

도 38은 LbCpfl 단백질을 암호화하는 DNA와 Hi fl-a의 Lb-TS6올 타겟팅하는 crRNA를 암호화하는 DNA를 하나의 백터에 포함하는 재조합 MV 백터 (al 1-in-one AAV vector)를 예시적으로 보여주는 모식도이다.

도 39a 내지 39c는 LbCpfl 단백질을 암호화하는 DNA와 Hi fl-a의 Lb-TS6을 타겟팅하는 crRNA를 암호화하는 DNA를 하나의 백터에 포함하는 재조합 MV 백터의 뉴클레오타이드 서열을 5 1 에서 3' 방향으로 연속적으로 보여준다.

【발명을 실시하기 위한 구체적인 내용】

이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 보다 구체적으로 설명하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한되지 않는다는 것은 본 발명이 속하는

기술분야에서 통상의 지식을 가진 자에 있어 자명할 것이다. 실시예 1: 재조합 Cpfl 단백질의 생산 및 정제 AsCpfl 및 LbCpfl 각각의 E.coli codon optimized DNA서열 (서열번호 44: E.coli codon optimized AsCpfl coding nucleic acid; 서열번호 46: E.coli codon optimized LbCpfl coding nucleic acid)과, 핵위치화서열 (NLS)- (링커) -HA tag을 포함하는 단백질 발현 및 정제를 위한서열 (아미노산서열: (KRPAATKKAGQAKKKK)- ( GS ) - ( YPYDVPDYA )― ( YPYDVPDYA YPYDVPDYA ); DNA서열:

CGCTTATCCCTACGACGT( CTGATTAT( ATACCCATATGATGTCCC^ 갖는 pi asmi d

(pMAL-c5x, New England Biolabs; & pDEST-hisMBP)를 박테리아에서 (Rosetta; EMD Milipore)에 도입시키고 18 ° C에서 24시간동안 배양하여 AsCpfl 및 LbCpfl단백질을 발현시켰다. 50 mg/ml carbenicilin보층된 Luria broth (LB) 성장배지 2L에 상기 24시간 배양된 Cpfl plasmids를 포함하는 Rosetta 세포 10 ml를 넣고

인큐베이팅하였다. 상기 세포들을 37 ° C에서 0D600이 0.6이 될 때까지 배양한후, 16 ° C로 냉각한후, 0.5 mM IPTGdsopropyl beta-EKL— thiogalactopyranoside)로 14- 18 시간 동안 유도하였다. 그 후, 세포들을 수집하고 단백질 정제시까지 -80 ° C에서 동결시켰다.

단백질 정제는 다음의 과정으로 수행하였다: 상기 준비된 세포 펠렛올 lysozyme (Sigma) 및 protease inhibitor (Roche complete, EDTA—free)이 보중된 lysis buffer (50 mM, HEPES pH 7, 200 mM NaCl , 5 mM MgC12, ImM DTT, 10 mM imidazole) 50 ml에 넣고 소니케이션하여 용해시켰다. 상기 얻어진 세포

용해물 (cell lysate)을 16,000 g에서 30분 동안 원심분리한 후, syringe filter (0.22 micron)에 통과시켰다. 상기 얻어진 용해물 (cleared lysate)을 nickel column (Ni-NTA agarose, Qiagen)에 적용하고, 2M salt로 세척한 후, 250 mM 이미다졸로 용출시켰다. 상기 용출된 단백질 용액의 버퍼 교체하고 마그네슘 및 이미다졸을 포함하지 않는 lysis buffer를 사용하여 농축시켰다. 상기 정제된 Cpfl 단백질을 SDS-PAGE로 시험하고, 하기 실시예에 사용하였다. 하기 실시예 중, 인간 세포를 사용하는 경우, 상기 E.coli codon optimized Cpfl 단백질을

암호화하는 플라스미드를 대체하여 human codon optimized Cpfl 단백질을

암호화하는 플라스미드를 Addgene으로부터 입수하여 사용하였다.

상기 얻어진 SDS— PAGE 결과를 도 15a에 나타내었다. 실시예 2: 세포 배양 및 트랜스펙션

HEK293T cell를 10%(v/v) FBS (fetal bovine serum) 및 1%(ν/ν)

antibiotics ^층된 DMEM배지에 두었다. Cpfl-매개 유전체 교정을 위하여, HEK293T cell을 24-well plates에 70-80% confluency로 시딩한 후, 1 ipofectamine 2000 (Invitrogen)를 이용하여 Cpfl 발현 플라스미드 (500 ng) 및 cr醒

플라스미드 (500ng)를 상기 HEK293T cell에 트랜스펙션시켰다. 트랜스펙션

72시간 후에 DNeasy Blood & Tissue Kit (Qiagen)를 사용하여 유전체 DNA(genomic DNA)를 분리하였다. 실시예 3: RNP및 Di genome (digested genome) 준비 {In vitro cleavage of genomic DNA)

DNeasy Tissue kit (Qiagen)를 HeLa cell(ATCC)로부터 유전체 DNA를 정제하였다. Cpfl 단백질 (40 ug) 및 crRNA (2.7 ug each)을 실온에서 10분간 전배양 (pre-incubating)하여 리보핵산단백질 (r ibonucleoprotein; RNP) 복합체를 형성시켰다. 상기 정제된 유전체 DNA (8 ug)를 상기 RNP복합체와 함께 reaction buffer (100 mM NaCl , 50 mM Tris-HCl, 10 mM MgCl 2( 100 ug/ml BSA, pH 7.9)에 넣고 37 ° C에서 8시간동안 인큐베이됩하였다. 이렇게 얻어진 절단된 유전체 DNA (Digested genomic DNA)를 R ase A (50 ug/mL)로 처리하여 crRNA를 분해시키고, DNeasy Tissue kit (Qiagen)를 이용하여 다시 한번 더 정제하였다. 실시예 4: 전체 유전체 (Whole genome) 및 절단 유전체 (digenome)의 서열분석

Cas9또는 Cpfl에 의하여 절단된 (digested) 유전체 DNA에 대하여 whole genome sequencing (WGS)를 수행하였다. 상기 WGS는 Illumina HiSeq X Ten Sequencer (Macrogen, South Korea)를 사용하여 30X내지 40X시뭔싱 뎁스

(sequencing depth)로 수행하였다. WGS 데이터를 이용하여 DNA 절단 스코어

(cleavage score)는 전체 유전체에 걸쳐서 각 뉴클레오타이드 위치 별로 산정될 수 있다. 염색체 내의 i 위치에서의 절단 점수 (Cleavage Score at position /)는 다음의 수식으로 계산하였다 (도 28 참조):

Number of forward sequence reads starting at position i

Number of reverse sequence reads starting at position i

. 상기 수식은 Cas9이 , Munt end에 더하여, 5 1 및 3' 말단에 1-nt 내지 2- nt의 overhangs을 생성하고, Cpfl이 produces 5' 말단에 1-nt 내지 5_nt의 overhangs을 생성하는 것으로 가정한다. In vitro cleavage sites 중 상기 수식으로 얻어진 DNA cleavage scores가 컷오프 값인 2.5 이상인 것들을 컴퓨터로 확인하였다. 실시예 5: crRNA construct 차이에 따른 세포 유전체 교정 효율 비교 crRNA를 crRNA를 발현할 수 았는 cassette를 포함하는 PCR product (PCR amp 1 icon) 형태로 전달하는 경우와 crRNA를 발현할 수 있는 cassette를 포함하는 plasmid DNA 형태로 전달하는 경우의 세포 유전체 교정 효율을 비교하기 위하여, HEK293T/17 세포 (ATCC)에서 다음과 같이 lipofection실험을 진행하였다.

Cpfl 단백질 (AsCpfl 및 LbCpfl)을 암호화하는 DNA서열 및 이에

작동가능하게 연결된 CMV promoter (서열번호 64)를 포함하는 pcDNA3.1 백터

(Invitrogen) (AsCpfl plasmid또는 LbCpfl plasmid)를, crRNA를 암호화하는 DNA 서열 및 이에 작동가능하게 연결된 U6 promoter를 포함하는 pUC19 백터 (Addgene; As-crRNA plasmid (서열번호 65 및 도 33) 또는 Lb-crR A plasmid (서열번호 66 및 도 34)) 또는 PCR product ( amp Π con; As-crRNA amp 1 icon (서열번호 67 및 도 35) 또는 Lb-crRNA amp 1 icon (서열번호 68 및 도 36))와 함께 HEK293T/17 세포에 전달하였다. 도 33 내지 36에서, 밑줄로 표시한 부분은 crRNA을 암호화하는 유전자 부위이며 , 'NNNNNNNNNNNNNNNNNNNNNNN'은 target sequence에 따라 결정되는 부위이다. 상기 Cpfl 단백질 및 crRNA를 암호화하는 DNA의 전달은 모두 lipofection 방식으로 수행하였다. 상기한 세포 전달 조건을 아래의 표 3에 정리하였다: 【표 3】

또한, 상기 사용된 crRNA서열 및 표적 서열올 아래의 표 4에 정리하였다: 【표 4】

((1) 표 4를 비롯하여 본 명세서에 기재된 염기서열은, 특별한 언급이 없는 한, 5'에서 3'로의 방향으로 기재됨

(2) 이하 기재되는 모든 AsCpfl crRNA는 표 4에 기재된 서열번호 36의 타겟팅 서열 부위 (밑줄로 표시)를 표적 유전자의 표적 서열에 해당하는 서열 (즉, 상기 표적 서열에서 T를 U로 치환함)로 대체한 것임 (3) 이하 기재되는 모든 LbCpfl crR A는 표 4에 기재된 서열번호 37의 타겟팅 서열 부위 (밑즐로 표시)를 표적 유전자의 표적 서열에 해당하는 서열 (즉, 상기 표적 서열에서 T를 U로 치환함)로 대체한 것임)

DNA를 전달한 후, 세포들을 72 시간 동안 37° C에서 배양한 뒤, 각각의 세포들로부터 genomic DNA를 분리하고, T7E1 assay (유전체 DNA에 서 특정부분 PCR증폭이후 T7E1 7 Endonuc lease I)을 37 ° C에서 20분 처리한 후 전기영동)와 targeted deep-sequencing (타겟 유전자의 타겟 부분을 PCR로 증폭한 이후 이를 Deep-sequencing 용 PCR barcode primer 로 재차 PCR증폭한 후, 이를 DNA 정제 kit 를 사용하여 정제한 뒤에 시뭔싱 ) 방법으로 표적 DNA에 발생한 염기서열 변이 발생 (targeted mutagenesis) 빈도 (Indel frequencies; %)를 산출하여 그 결과를 도 14a (T7E1 assay 결과), 도 14b (targeted deep-sequencing 결과), 및 도 19a (T7E1 assay 결과)에 각각 나타내었다.

도 14a 및 14b에 나타난 바와 같이 , D匪 Π 유전자를 표적으로 하는 경우, AsCpfl과 LbCpfl 모두에서 crRNA를 plasmid 형태로 전달한 경우가 PCR product 형태로 전달하는 경우와 비교하여 보다높은 효율로 유전체 교정을 수행함을 확인하였다. 이러한 경항은 AAVS1 유전자를 표적으로 하는 경우에서도 유사하게 나타났다. 또한, 도 19a에 나타난 바와 같이, amplicon을 사용한 경우와

비교하여, crRNA plasmids 를 사용한 경우, 표적한 변이유발 (targeted mutagenesis) 빈도가 시험된 3개의 endogenous target site에서 2 내지 30배 정도 증가하였다. PCR amplicons은 synthesis一 fai led oligonucleotide templates로부터 잘못된 가이드 RNAs 전사체를 생산하였고, 이는 잠재적으로 RNA bulge를 갖는 것으로 보이는 위치에서 비표적 DNA 절단 (off-target DNA cleavages)을 야기할 것으로 것으로 생각된다. 이러한 결과는 crRNA 발현 cassette를 plasmid 형태로 전달하는 것이 PCR product 형태로 전달하는 것에 비하여 유전체 교정 효율을 높일 수 있는 수단임을 보여준다.

또한, 다 한 유래의 Cpfl or t ho logs {Lachnospiraceae bacterium (LbCpfl) , Acidaminococcus sp. (AsCpfl) , Francisel la novicida (FnCpf 1) , 및 Moraxella bovoculi ?7 (MbCpfl))에 대한 crRNA orthogonal ity를 시험하였다.

앞서 설명한 과정을 참조하여, 4종의 Cpfl or t ho logs (LbCpfl, AsCpfl, FnCpfl, 및 MbCpfl)를 각각 암호화하는 DNA를 포함하는 플라스미드를 이들 각각에 대한 crRNA를 암호화하는 플라스미드와 함께 다양한조합으로 HEK293T세포에 도입시킨 早, targeted deep sequencing 방법으로 변이유발 (targeted mutagenes i s) 빈도 ( Indel frequency (%) )를측정하였다.

이 때 사용된 FnCpf l 및 MbCpf l에 대한 crRNA서열올 아래의 표 5에 정리하였다:

【표 5】

(표 5에서, D丽 T1-4 및 MVS1의 crRNA는 서열번호 38 또는 서열번호 39의 서열 중, 타겟팅 서열 부위 (밑줄로 표시)를 표적 유전자의 표적 서열에 해당하는 서열 (즉, 상기 표적 서열에서 T를 U로 치환함)로 대체한 것임)

상기 얻어진 Indel frequency (%)를 도 19b에 나타내었다. LbCpfl 및 AsCpfl는 5'-ΓΓΤΝ-3' PAMs를 인식하는 반면, FnCpfl 및

MbCpfl는 5'-TTN-3' PAMs을 인식하는데, 기존에 인간 세포에서 효율적이지 않거나 불활성인 것으로 알려져 있다. 도 19b에서 보여지는 바와 같이 , 이들 Cpfl ortholog들을 crRNA orthologs를 암호화하는 플라스미드와 함께 다양한 조합으로 인간 세포에 공동 트랜스펙션 (co-transfected)시켰을 때, 각 Cpfl ortholog는 동족의 (cognate) crRNA와 함께 트랜스펙션된 경우에 가장 높은 효율을 보였다. 또한, FnCpfl 및 MbCpfl를 포함하는 4종의 Cpfl orthologs 모두 상이한

species로부터 유래한 unorthogonal crRNAs와 함께 조합되어 사용된 경우에도, 염색체의 표적 위치를 절단할 수 있는 것으로 나타났다. FnCpfl 및 MbCpfl의 유전체 교정 활성은 crRNA plasmid를 사용함으로써 rescue될 수 있으나, AsCpfl 및 LbCpfl Cpfl orthologs 보다 효율이 상대적으로 가장 좋기 때문에, 본 연구에서는 상기 두 종의 Cpfl (AsCpfl 및 LbCpfl)에 초점을 두었다.

두 개의 PAM서열 (하나는 Cpfl에 의하여 인식되는 PAM서열 (5'-ΉΤΝ- 3 1 )이고, 나머지 하나는 SpCas9에 의하여 인식되는 PAM서열 (5'-NGG-3' )임 )을 포함하는 HEK293T세포 내의 10개의 염색체 표적 부위 상에서의 LbCpfl 및

AsCpfl의 유전체 교정 효율을 측정하여 SpCas9와 비교하였다. 유전체 교정 효율은 앞서 설명한 방법을 참조하여 targeted deep sequencing에 의하여 측정된 Indel frequencies로서 산정하였다. 상기 시험에 사용된 10개의 표적 서열을 아래의 표 6에 나타내었다:

【표 6】

Gene Cpfl crRNA의 Target sequence SpCas9 sgRNA의 target

sequence

1 D匪 T1- CTGATGGTCCATGTCTGTTACTC (서열번호 AGTAACAGACATGGACCATC (서열번호 3 19) 50)

2 D匪 T1- TTTCCCnCAGCTAAAATAAAGG (서열번호 TTTCCOTCAGCTAAAATAA (서열번호

4 20) 51)

3 AAVS1 CTTACGATGGAGCCAGAGAGGAT (서열번호 TGOTACGATGGAGCCAGAG (서열번호

21) 52)

4 EMX1 TCCTCCGGTTCTGGAACCACACC (서열번호 AGGTGTGGTTCCAGAACCGG (서열번호 23) 53)

5 CCR5-1 GTGGGCAACATGCTGGTCATCCT (서열번호 TGGmTGTGGGCAACATGC (서열번호

24) 54)

6 CCR5-9 GCCTGAATMTTGCAGTAGCTCT (서열번호 TAGAGCTACTGCAATTATTC (서열번호

25) 55)

7 HPRT-1 CTGACCTGCTGGATTACATCAAA (서열번호 GTGC1TTGATGTAATCCAGC (서열번호

27) 56)

8 HPRT-4 TGTCCCCTGTTGACTGGTCATTC (서열번호 CTAGAATGACCAGTCAACAG (서열번호

28) 57)

9 HBB-1 AGTCCmGGGGATCTGTCCACT (서열번호 TCCACTCCTGATGCTGTTAT (서열번호

40) 58)

10 VEGFA CGTCCMCTCTGGGCTGTTCTC (서열번호 AGCGAGAACAGCCCAGAAGT (서열번호

41) 59) 상기 표 6에 나타낸 표적 서열을 기초로 표 4에서 설명한 방법으로 LbCpil crRNA 및 AsCpfl crRNA를 제작하여 시험에 사용하였다.

' SpCas9꾀 sgRNA는 아래의 서열 일반식 (서열번호 63) 중 ' (N cas9 ) ra '를 상기 표 6의 SpCas9의 Target sequence 중 T를 U로 치환한 서열로 대체하고, 링커로서 'G A'를 포함하는 서열을 갖도록 제작하였다 (이하, SpCas9의 sgRNA는 이와 동일한 방법으로 제작함):

5 1 -(N cas g GUUUCAGUUGClH링커) - AUGCUCUGU UCAUUUAA GUAUUUUG CGGACCUCUGUUUGACACGUCUGAAUAACUAAAAA-3 ' (일반식 4; 서열번호 63)

상기 얻어진 결과를 도 19c에 나타내었다. 도 19c에 나타난 바와 같이 시험에 사용된 모든 뉴클레아제 타입은 인간 세포 (HEK293 cell)에서 광범위한 변이빈도를 나타냈다 (SpCas9: 평균 37±5%; LbCpfl: 21士 6%; AsCpfl: 21土 5%). 실시예 6: 재조합 Cpfl 단백질 정제 및 리보핵산단백질 (RNP) 전달을 통한 세포 유전체 교정

6.1. 재조합 Cpfl 단백질을 이용한 in vitro cleavage assay 정제한 재조합 AsCpfl 과 LbCpfl 단백질이 crRNA 와 결합하여 DNA를 자르는 activity가 있는지 확인하기 위하여 , in vitro cleavage assay를 진행하였다. 이를 위하여, 상기 실시예 1 에서 얻어진 재조합 AsCpfl (1 uM) 또는 LbCpfl (1 uM) T7 RNA polymerase (New England Biolabs)에 의한 in vitro transcript ion으로 제작하거나 화학적으로 합성한 D画 T1을 표적으로 하는 crRNA (상기 표 4 참조) (1 uM), 및 상기 표적 (D MTl) DNA서열 (표 4 참조)을 갖는 DNA 단편을 함께 1 시간 동안 37 ° C에서 incubation한 다음, TBE— agarose gel 전기영동을 통해 표적 DNA가 절단되는 것을 확인하였다. T7 RNA polymer ase(New England Bio labs)에 의한 in vitro transcription으로 제작된 crRNA의 경우, 5' 말단에 트리포스페이트

(PPP)를 포함하는 반면, 화학적으로 합성된 crRNA는 이를 포함하지 않는다. 상기 전기 영동 결과를 도 15b에 나타내었다 07: T7 RNA polymerase에 의한 in vitro transcript ion으로 제작한 crRNA; synthetic: 화학적으로 합성한 crRNA).

도 15b에 나타난 바와 같이, Cpfl은 crRNA가 있는 경우에만 target DNA를 자르는 activity 를 보였다. 또한, 5' 말단에 phosphate를 갖지 않는 합성 crRNA와 5' 말단에 phosphate를 갖는 in vitro transcript ion으로 제작된 crRNA의 절단 효율이 유사한 것으로 확인되었으며, 이는 crRNA의 5' 말단의 phosphate 유무가 in vitro cleavage에 영향을 미치지 않음을 의미한다.

6.2. 재조합 Cpfl 단백질을 이용한 세포에서의 유전체 교정 시험

재조합 AsCpfl과 LbCpfl 단백질을 세포실험에 적용하여

ribonucleoprotein(R P) 전달을 통한 세포 유전체 교정올 시험하였다.

상기 실시예 1에서 정제된 재조합 Cpfl단백질 (AsCpfl또는 LbCpfl)과 D丽 T1-3 표적 crRNA (표 4 참조; in vitro transcript ion으로 제작된 crRNA)를 적정 비율로 섞어 RNP를 만들고, 이를 electroporation또는 lipofection 방식에 의하여 HEK293T/17 세포에 처리 (전달)하였다 (electroporation 의 경우 Cpfl 20 ug : crRNA 20 ug흔합, lipofection 의 경우 Cpfl 10 ug : crRNA 2 ug흔합). RNP 전달 후, 세포를 37 ° C 에서 72 시간동안 배양한 다음, genomic DNA를 분리하여 상기 실시예 5에 기재된 방법을 참조하여 T7E1 assay 및 targeted deep-sequencing 방식으로 표적 위치 (D醒 T1) 염기서열 변이의 발생 효율을 분석하여 빈도수 (%)로 산출하였다. 비교를 위하여 , SpCas9 (SwissProt Accession number Q99ZW2(NP_269215. D) 및 sgRNA (target sequence : AGTACGTTAATGTTTCCTGA)를 사용하여 상기와 동일한 시험을 수행하였다. 그 결과를 도 16a (T7E1 assay 결과) 및 ; 16b (targeted deep-sequencing 결과)에 각각 나타내었다.

도 16a 및 16b에 나타난 바와 같이 , AsCpfl 및 LbCpf 1이 crRNA와 결합한 RNP 전달에서 electroporat ion 방식을 사용하는 경우와 l ipofect ion을 사용하는 경우 모두 표적 위치 (D匪 T1) 에서 SpCas9과 유사한 수준의 변이 효율을 보였다.

5 ' 포스페이트가 없는 합성 (synthet ic) crRNA를 사용하여 상기한

electroporat ion 방식에 의한 R P 전달을 수행하고 유전체 세포 교정 효율을 측정하여, in vitro transcript ion으로 제작된 crRNA를 사용한 경우와 비교하였다. 상기 얻어진 결과를 도 16c에 나타내었다. 도 16c에 나타난 바와 같이, 합성 (synthet ic) crRNA를 사용한 경우에도 in vi tro tr ' anscr ipt ion으로 제작된

crRNA와 유사한 정도의 유전체 교정 효율올 얻을 수 있다.

상기에서 얻어진 결과는 재조합 Cpf l 단백질을 포함하는 RNP을

electroporat ion또는 1 ipofect ion를 통하여 세포에 전달하는 경우 모두에서 세포 유전체 교정에 효과적으로 사용될 수 있음을 보여준다. 이와 같은 R P 전달 방식은 DNA 플라즈미드 전달 방식에 비해 짧은 시간 안에 효과적인 유전체 교정을 할 수 있으며 , DNA가 사용되지 않아 세포의 유전체에 외부 DNA 가 끼여들 위험이 전혀 없다는 장점이 있다. 또한 Cpf l은 PAM이 Cas9 과 다른 서열을 가지고 있으므로 Cas9으로 표적할 수 없었 위치의 유전체 교정이 가능해진다. 그리고 Cas9 과 Cpfl 단백질을 orthogonal하게 사용하면 각각 다른 표적 유전자를 동시에 교정할 수 있으며, catalyt ic dead 형태의 Cpfl mutant (dCpfl)을 dCas9 과 함께 사용하면 복수의 표적 유전자들의 발현을 선택적으로 동시에 발현 및 억제하는 것도 가능하다. .. 실시예 7. Digenome-seq을 이용한 Cpfl의 inverted PAM repeat 규명

세포에서 분리한 유전체 (genomic DNA)를 재조합 Cpf l 단백질 (3nM-300nM)과 crRNA (9nM-900nM; 표 6의 1 내지 8번 서열 (서열번호 19, 20, 21 , 23, 24, 25, 27, 및 28) 각각에 대한 crRNA를 사용함)과 함께 12시간동안 인큐베이션

시켰다 (도 17a 참조) . 12시간 후, Cpfl 단백질과 crRNA를 각각 protease K와 RNase A로 제거한 후 유전체를 정제하고 qPCR (사용된 프라이머: Forward: AAG TCA CTC TGG GGA ACA CG, Reverse: TCC CTT AGC ACT CTG CCA CT; PCR조건: 2step (95C lOsec , 60C lOsec x 40cycle) )올 통해 표적위치에서 유전체의 절단 효율을

정량하였다. 그 결과를 도 17b에 나타내었다. 도 17b의 y축의 수치는 control올 1로 하였을 때의 절단되지 않은 유전체의 상대적 비율을 의미한다. 도 17b에 나타난 바와 같이, 3nM Lb-/As-cpfl 단백질과 9nM crRNA의 경우 표적위치 (On- target si te)의 유전체가 60%정도 잘렸으며ᅳ 30nM As-/Lb-Cpfl 단백질과 90nM crRNA 그리고 300nM Lb-/As-cpfl 단백질과 900nM crRNA을 이용하였을 경우

표적위치의 유전체가 95% 이상 잘리는 것을 확인하였다.

Cpf l 단백질과 crRNA에 의해 절단된 유전체를 이용하여 전체 유전체 시뭔싱 (whole genome sequencing)을 진행하고, 그 결과를 Integrat ive Genome

Viewer( IGV)를 이용하여 확인한 결과를 도 17c에 나타내었다. 도 17c에 나타난 바와 같이, Cpfl 단백질과 crRNA를 처리한 유전체에서는 표적위치에서 read들의 5' 말단이 수직 정렬된 형태가 나타난 반면, Cpfl 단백질과 crRNA를 처리하지 않은 유전체에서는 표적 위치에서 sequence read 들이 정렬되는 경향성이 보이지 않았다.

Cpf l 단백질과 crRNA에 의해 절단된 유전체를 이용하여 비표적 위치 (of f- target si te)를 찾기 위하여 digenome-seq을 수행하였다 (실시예 4 참조) . 상기 얻어진 결과를 도 18a에 나타내었다. 도 18a에 나타난 바와 같이, 표적위치

1개와 비표적 후보위치 25개를 찾을 수 있었다.

상기 얻어진 26개 위치의 서열 (sequence)을 이용하여 얻어진 서열 로고 (sequence logo)를 도 18b에 나타내었다. 도 18b에 나타난 바와 같이, 이미 알려진 Cpf l의 PAM서열 (TTTN) 이외에도 반대편에 inverted-PAM서열 (NAM)이 존재하는 것을 확인했다. Inverted-PAM은 AAA뿐만 아니라 AAG, AGA, GAA

형태로도 일부 나타났다. 이러한 결과는 Cpf l 단백질이 유전체 절단을 일으킬 때 하나의 Cpf l 단백질이 crRNA와 결합을 통해 유전체와의 결합을 유도하면서 다른 하나의 Cpfl과 이합체를 이루고, 이 Cpfl은 반대편의 PAM서열 (NAM)에 결합하여 작동할 수 있음을 의미한다. 위의 invertedᅳ PAM정보는 Cpfl의 절단 효율이 높은 표적위치를 선정하는 데 사용될 수 있으며 이와 같은 inverted-PAM서열을 가진 표적위치에서는 2개 이상의 Cpf l crRNA를 nickase와 비슷한 방법으로 동시에 사용했을 때 절단 효율이 높아질 가능성이 있다. 또한 이 정보를 사용하여 절단위치에 형성되는 overhang 길이를 조절하여 homologous recombination (HR) mediated knock- in효율을 높이는 방법도 가능할 수 있다. 실시예 8: Cpfl의 mismatch tolerance시험

LbCpfl와 AsCpfl 모두 5'-ΊΤΤΝ— 3' (Ν은 A, T, C, 또는 G) PAM서열 및 3' 방향으로 인접하여 위치하는 23-nt protospacer sequences (crRNA의 타겟팅 서열과 매칭됨 (즉, cr R A의 타겟팅 서열은 protospacer sequence에서 T를 U로 변환한 서열임)으로 이루어진 27-nt target DNA서열을 인식하고 절단한다.

3개의 endogenous target sites (D匪 ΊΊ-3, DNMT1-4, 및 MVS1)을 선정하고 (on target), 상기 표적 부위의 on target 서열 및 하나 또는 두 개의 mismatch를 포함하는 off-target 서열과 흔성화 가능한 다양한 crRNAs을 암호화하는

플라스미드와 LbCpfl 또는 AsCpfl를 암호화하는 플라스미드를 HEK293 eel Is에 트랜스펙션시키고 , targeted deep sequencing 식으로 Indel frequency (%)를 측정하여, Cpfl가 어느 정도까지의 on-target DNA서열과 crRNA서 , 열간 mismatch를 관용 (tolerate)할 수 있는지 시험하였다.

상기 선정된 3개의 endogenous target sites (on target)을 아래의 표 7에 나타내었다:

【표 7]

상기 선정된 3개의 endogenous target sites의 off-target 서열은 도 20a, 20b, 및 20c에 각각 나타내었다.

상기 표 7 및 도 20a 내지 20c에 나타낸 on-target 서열 및 off-target 서열을 기초로 표 4에서 설명한 방법으로 LbCpil crRNA 및 AsCpfl crRNA를 제작하여 시험에 사용하였다. 상기 얻어진 Indel frequency (%)를 도 20a (D匪Ί-3의 Indel frequency) , 20b (D匪 ΊΊ— 4의 Indel frequency) 및 20c (AAVS1의 Indel frequency)에 각각 나타내었다 (Error bars indicate s .e .m) .

도 20a-20c에 나타난 바와 같이, D匪 Tl— 3 (도 20a) 및 D匪 T1-4의 경우 (도 20b) , LbCpf l 및 AsCpf l 모두 하나의 mi smatch를 포함하는 경우 (특히 PAM (5' 말단으로부터의 거리)으로부터 거리가 20nt 이내인 경우)에도 Cpfl 활성을 거의 나타내지 못하였으며, 두 개의 mismatch를 포함하는 경우 (특히 PAM으로부터 거리가 20nt 이내인 경우)에는 거의 완전하게 Cpfl 활성을 상실하였다. 이러한 결과는 Cpf l가 인간 세포에서 높은 특이성을 가짐을 보여준다. . 실시예 9: 인간 유전체에서의 potent ial off-target site 동정

Cas-OFFinder를 사용하여 인간 유전체에서의 잠재적 off-target site을 동정하였다. 상기 시험된 10개의 on-target si tes (표 6)과 1 내지 4개 또는 1 내지 5개 뉴클레오타이드가 상이한 부위를 잠재적 off-target si te로 선정하였으며, HEK293 세포에서의 of f-target mutat ion ( Indel frequency (¾) )을 targeted deep sequencing 방식으로 측정하였다.

【표 8】

Indel frequency D-

(%) cap .

Mis

(- AsCp LbCp A L

Locat ion PAM-Target Sequence No . )Cpf fl fl s b

TTTCCTGATGGTCCATGTCTGT

0η- Chrl 102444 TACTC 0.01 47.1 34.4

target 9 42 (TTTC-서열번호 19) 0 % 6% 5% 0 0

D丽 Tl- 687779 ITTCCTGcTGGTCCATGTCTa 0.01 0.00 0.01

3_02 Chr7 05 aTACTC 3 % % % X X

D匪 Tl- Chrl 757458 TTTTCTGATGGTCCATacCTG 3 0.00 0.01 0.00 0 0 3_03 6 70 TTACaC % % %

D匪 Tl- 825498 TTTCCTGATGGTCCAcacCTG 0 .03 0.02 0.03 3—04 ChrX 85 TTACaC 4 % % % 0 X

D醒 Tl- Chr l 564688 TTTTCTt ATt GTaCATGTCTG 0.01 0.01 0.00 3_05 1 ^ 96 TaACTC 4 % % % X X

DNMT1- 721339 TTTCCTGATGGTCCAcacCTG 0.01 0.02 0.01 3_06 Chr8 67 TTgCaC 5 % % % X X

DNMTl- 968775 TTTTCTGcTt cTCCATGTtTG 0.00 0.01 0.01 3—07 Chr8 20 TTACTt 5 % % % X X

Chr l 317624 TTTCCTGATGGTCCAcacCTG 0.03 0.03 0.03 2 9 TTgCaC 5 % % % X X

D匪 ΊΊ- Chrl 611503 TTTCCTGAgGGTgCATt TgTG 0.02 0.01 0.01 3_09 2 24 TTtCTC 5 % % % X X

DNMT1- 853675 TTTTCTGtTtGTCCAatTCTG 0.01 0.00 0.01 3ᅳ 10 Chr3 21 TTACTg 5 % % % X X

DNMTl- 960504 TTTCCTGATGGTCCATactTG 0.01 0.00 0.00 3ᅳ 11 Chr3 81 TTgCaC 5 % % % X X

D匪 Tl- 140583 TTTTCTGcTGcTCCcTGTCTG 0.03 0.02 0.02 3ᅳᅳ 12 Chr3 435 TTt tTC 5 % % % X X

D丽 ΊΊ- 156104 TTTCCTGATGGTCCAcacCTG 0.00 0.00 0.01 3_13 Chr3 287 TTgCaC 5 % % % X X

D丽 Tl- 183313 TTTTCTGATGGTCCAcacCTG 0.00 0.00 0.00 3—14 Chr3 194 TTgCaC 5 % % . % X X

D蘭 Tl- 189760 TTTGCTaATaGgCCATGTaTG 0.03 0.02 0.02 3_15 Chr3 807 gTACTC 5 % % . % . X X

D匪 Tl- 179010 TTTCCTGATGGTCCAcagCTG 0.01 0.01 0.02

S Ghr7 53 TcACaC 5 % % % X X

D丽 ΊΊ- 474599 TTTCCTGATGGTCCAcGcCTa 0.03 0.01 0.01 3_17 Chr7 50 TTgCaC 5 % % % X X D醒Ί- 542296 TTTCCTGATGGTCCAcacCTG 0.00 0.00 0.01 3_18 Chr7 03 TTgCaC 5 % % % X X

D匪 Tl- 105875 ITTCCTGATGGTtCAcaTCTG 0.08 0.07 0.07 3ᅳ 19 Chr7 645 TTgCaC 5 % % % X X

D匪 Tl- 113376 TTTTCTGATGtTCCAaGTCTG 0.02 0.04 0.04 3_20 Chr7 854 cTtCTt 5 % % % X X

D匪 Tl- 658577 TTTCCTGATGGTCCAcacCTG 0.01 0.00 0.01 3_21 Chr4 5 TTgCaC 5 % % % X X

DNMT1- 103567 TTTCCTGATGGTCCAcacCTG 0.00 0.00 0.01 3_22 Chr4 02 TTgCaC 5 % % % X X

DNMT1- 661662 TT TCTGATGGTCCAcacCTG 0.00 0.01 0.00 3_23 Chr4 14 TTtCaC 5 % % % X X

D醒 Tl- 115245 TTTCCTGATGGTCCAcacCTG 0.01 0.01 0.02 3_24 Chr4 817 TTgCaC 5 % % % X X

D匪 Tl- 117890 TTTCCTGATaGTCCAcaTCTG 0.00 0.00 0.00 3_25 Chr4 965 TTgCaC 5 % % % X X

D匪 Tl- 128766 TTTCCTGATGGTCCAcacCTG 0.02 0.01 0.02 3_26 Chr4 667 TTgCcC 5 % % % . X X

D匪Ί- 201240 TTTACTGtatGTtCATGTCTG 0.00 0 , 01 0.00 3—27 Chr5 84 TTtCTC 5 % % % X X

D匪 Tl- 358911 TTTCCTGATGGTCtAcacCTG 0.00 0.00 0.01 3_28 Chr5 14 T CTC 5 % % % X X

D醒 ΊΊ- 541194 TTTCCTGATGGTCCAcacCTG 0.02 0.00 0.00 3_29 Chr5 62 TTAaTg 5 % % % 0 X

D匪 Tl- 558799 TTTCCTGATGGTCCAcacCTG 0.02 0.04 0.01 3_30 Chr5 68 TTAacC 5 % % % 0 0

D醒 TI ¬ 645450 TTTCCTGATGGTCCAcacCTG 0.00 0.00 0.01

S 1 Chr5 17 TTgCaC 5 % % % X X

D匪 Tl- Chr5 103867 TTTTCTtATtGTCaATcaCTG 5 0.01 0.01 0.00 X X 3_32 835 TTACTC % % %

D匪 Tl- 113070 TTTCCTGATGGTCCAcacCTG 0.01 0.00 0.02 3_33 Chr5 541 TTgCcC 5 % % % X X

D匪 Tl- 128492 ITTCCTGATGGTCCAcacCTG 0.01 0.00 0.00 3—34 Chr5 015 TTgCaC 5 % % % X X

D匪 ΊΊ- 174988 TTTCCTGATGGTCCAcacCTG 0.00 0.01 0.01 3_35 Chr5 329 TTgCaC 5 % % % X X

D丽 Tl- Chr l 334763 TTTGgTGAgGGTCCAaGTCTt 0.02 0.04 0.02 3_36 6 17 TTACcC 5 % % % X X

DNMT1- 326896 TTTCCaGATcGTCaATGTaTG 0.00 0.00 0.00 3_37 Chr l 27 gTACTC 5 % % % X X

D丽 Tl- 146123 TTTCCTGATGGTCCAcacCTG 0.00 0.00 0.00 3_38 Chr l 481 TTgCaC 5 % % . % 0 X

D匪 ΊΊ- 147665 TTTCCTGATGGTCCAcacCTG 0.00 0.00 0.00 3_39 Chrl 313 TTgCaC 5 % . % % X X

D MT1- Chr l 718666 ITTCCTGATGGTCCAcacCTG 0.00 0.00 0.00 3_40 3 78 TTgCaC 5 % % % X X 腦 Tl- Chr l 820880 TTTCCcGATGGTCCAcaTCTG 0.01 0.01 0.00 3_41 3 53 TTACca 5 % % % X X

D匪 Tl- 458189 ITTCCTGATGGTCCATactTa 0.00 0.01 0.01 3ᅳ 42 Chr2 35 TTACaC 5 % % % X X

DNMT1- 697944 TTTCCTGATGGTCCcTGgCcc 0.04 0.05 0.04 3—43 Chr2 08 TcACTC 5 % % % X X

D匪 Ί- 968336 TTTCCTGATGGTCCAcacCTG 0.04 0.04 0.05 3一 44 Chr2 34 TTgCaC 5 % % . % . X X

D匪 Tl- 121847 TTTCCTGATGGTCCAcacCTG 0.00 0.00 0.00 3_45 Chr2 952 TTgCaC 5 % % % X X

DNMT1- 124681 TTTTCTGtTaGTCCATtTgTG 0.01 0.01 0.00 3_46 Chr2 966 TTACTg 5 % % . % X X 0 0 08 " 0 ΟΖΌ I0 " 0 g 0I3 3B IV30imV0I33 l S9Z,926 -u匪 a

X X % % % 9 eg Χ·"Ό 09— ε

TOO OO ' O TOO 961988 -U Nd

X X % % % s : ¾1 o )™

OO ' O OO ' O 00.0 OlD^e^VOOIOOIVOIOlLLL u誦

X X ¾ % ¾ 9 ' : K) S L 68

00.0 00·0 TO ' O z 6εε -LL匪 a

X X % ¾ % s 6·"Ό

OO ' O OO ' O OO ' O z i -u匪 a

X X % ¾ % Q 0 95 " ε

TOO OO ' O Ι0·0 01¾0IV3310 V¾¾VX11 OZCOII -u画

X X % % % s 313 ILL S9 gg " s

SO ' O 90 " 0 w).o Ol^lVOOI^IVOIOOllL I J ¾ -u顧 a

0 0 % % % g B V L Z8

εο ' ο o ' o ZOO 9S99I2 -u画 a

X X % % % g 91 9J¾

SO ' O OO ' O 10Ό 88I6Z -LL顺 a

0 0 % % % s 3 3¾ T65 0

TOO K) ' 0 ZOO 0I3I B IV301001V0I331 L ' -u匪

X 0 % % % s : > P 9Z 0

oro 90 " 0 ΑΟΌ 0I3°eiV33I001V0133ULL - iNa

X X % % % 086 0 09 ~ S

OO ' O TOO TOO K)680I ΐ·"0 -u腿 a

X X % % % s £1 T

10 * 0 OO ' O ZOO 0IB10IVB3B09IV01 ¾ 1LLL z^d . -U I ,

X X % % ¾ s : )¾i LO

OO ' O OO ' O OO ' O 0I3 3R3 VD3100XV0I3311X L6LV0Z -u顧 a

X X % % % s 3I3V11 290

OO ' O OO ' O OO ' O S ZSI -u匪 a t6l7660//J0Z OAV 3_61 63 TTAaca % % %

D MT1- 975461 TTTCCTGATGGTCCAcGcCTG 0.01 0.33 0.01

3_62 ChrX 76 TTAaca 5 % % % 0 0

D匪 Tl- 146525 TTTCCTGATGGTCCAcacCTG 0.00 0.00 0.01

3一 63 ChrX 283 TTgCaC 5 % % % X X

D丽 Tl- Chr l 136873 TTTCCTGATGGcCCAcacCTG 0.01 0.01 0.01

3_64 8 81 TTACaC 5 % % % X X

D丽 Tl- Chr l 333305 TTTCCTGATGGTCCAc acCTG 0.01 0.00 0.02

3_65 8 96 TTgCaC 5 % % % X X

DNMT1- Chr l 607384 TTTGCTcATGcTCCATGcCTG 0.02 0.02 0.01

3—66 8 22 TgAgTC 5 % % % X X

D MT1- Chr l 686816 TTTCCTGATGGTCCAcacCTG 0.00 0.00 0.00

3_67 8 15 TTgCaC 5 % % % X X

D匪 Tl- Chrl 502468 TTTCCTGATGGTCCAcacCTG 0.00 0.00 0.00

3_68 1 6 TTgCaC 5 % % % X X

DNMT1- Chr l 221891 TTTCCTGATGaTCCATacCTG 0.01 0.00 0.01

3—69 1 52 TTgCaC 5 % % % X X

D匪 ΊΊ- Chr l 261242 TTTCCTGATGGTCCAcaTCTG 0.00 0. 12 0. 14

3_70 1 28 TTAaca 5 % % % 0 0

【표 9]

DNMT1- , '

Inde l frequency D-

(%) cap .

Mi s

(一 AsCpf LbCpf A L

Locat i on PAMᅳ Target Sequence No . )Cpf 1 1 s b

On- chr l 1024433 TTTATTTCCOTCAGCTAAAAT 12.24

target 9 8 AAAGG 0 0.07% % 3.38% 0 0 (Ί ΤΑ-서열번호 20)

DNMT1- 1427068 TTmTTCCOTgAGCTAAAAT

4_02 chr7 43 AAAtG 2 0.09% 0.09% 0.07% X X

DNMT1- 1771052 TTTGT TCCC CAGtTAAAAT

4_03 chr4 77 AtgGG 3 0.01 0.01% 0.01% X X

DNMT1- 1822948 TTTATTgCCC TCAGCTAAAAT

4_04 chr4 50 AcAGt 3 0.03% 0.04% 0.05% X X

D丽 Tl- 9997567 TTTCTTTCCCTTt AGCTAAAcT

S chr8 2 tcAGG 4 0.05% 0.05% 0.05% X X

DNMT1- 5229175 TTTTTTTCCCTOc 11 TAAAAa

4_06 chr3 2 AAAGG 4 6. 16% 6. 16% 6. 12% X X

D匪 Tl- 3910905 TITaTTt CCTTCAGCTAAAAT

4_07 chr7 3 AAAat 4 0.04% 0.06% 0.04% X X

D丽 Tl- 9163303 TTTTTTcCCCTTCAGgTAtAAT

4—08 chr7 8 AAAGa 4 0.23% 0.22% 0.29% X X

D丽 Tl- 1137328 TGTTgCCaTTt AGCTAAAcT

4—09 chr7 89 AAAGG 4 0.05% 0.04% 0.04% X X

D匪 Tl- 1476614 TTTG TaCCCTTgAGCTAcAAT

_10; chr4 42 . . . AAAaG 4 0. 12% 0.09% 0.08% X X

D匪 Ti ¬ 1816990 TTTmrCt OTgAGCTAAAAT

l 1 chr4 76 AtAcG 4 0. 16% 0. 14% 0. 12% X X

D匪 Ti ¬ 1525413 TTTTTTTCCaTTtAGCTMgAT

l 2 chr5 20 AAAGc 4 1.52% 1.53% 1.49% X X

D匪 ΊΊ- 6709882 TTTTTrTCCCTaCAGgaAAAAa 21.96 21.25 21.58 4—13 chrl 0 AAAGG 4 % % % X X

D丽 Tl- chrl 8589643 TTTATTTaCtnCAGtTAAAAT

4—14 0 3 AAAtG. 4 0.01% 0.02% 0.01% X X

D匪 Tl- 8033450 TTTTTTTCCt gTCAGaTAAAAT

4ᅳᅳ 15 chr6 5 AAAGa 4 0.59% 0.51% 0.56% X X DNM x oT1- 2992821 TTTCTTTCCCTTCAt t TAcAAT

4_16 chrX 6 AAtGG 4 0.02% 0.02% 0.02% X X

D匪Ί- 1365062 TTTTmCCtTTCAGCTgAAAT

4_17 chrX 80 AgAGa 4 1.35% 1 .27% 1.20% X X

D匪 Tl- chr l 3741615 TTTmTCCCcTCAGCcAAcAg

dS 8. 8 AAAGG 4 0. 12% 0. 17% 0. 16% X X

D匪 Ti ¬ chr l 1308185 TTTAaTTCCCTTCAGgTAMAT

l 9 1 72 tAgGG 4 0.02% 0.02% 0.03% X X

【표 10】

EMX1-2 . . ■

Indel frequency D- (%) cap .

Mi s

(- AsCpf LbCpf A L

Locat i on PAMᅳ Target Sequence No . )Cpf 1 1 s b

TTTGTCCTCCGGTOTGGAACC

On- 7316092 ACACC 0.02 12.66 25.33 t arget chr2 0 (TI G-서열번호 23) 0 % % % 0 0

1344092 TTTCTCCTCaGGTOTGGAACC 0.00

chr6 88 Aat aC 4 % 0.04% 0.07% 0 0

EMX1- 2340827 TTTCTCCTCCGGcTtTaGAgtC 0.05

2_03 chr l 9 ACACC 5 % 0.04% 0.04% X X

EMX1- TTTCTCCTgCGGgTCTGcAAt C 0.01

2—04 chr l 7977477 tCACC 5 % 0.00% 0.02% X X

EMX1- chr l 6870348 TTTATggTggGGTOTGGAACC 0.01

2_05 0 4 AaACC 5 % 0.01% 0.00% X X

EMX1- chr l 1028941 mGTCCgCCGGTTCTGGAACC 0.01

2_06 0 00 Aggt t 5 % 0.00% 0.00% X X ΈΜΧΙ- chrl 1193075 TTTGTt CTt CGGTTCTGaAACC 0.01

2_07 0 80 AtACt 5 % 0.02% 0.01% X X

EMXl- chr l 9375134 TTTATCaTggt GgTCTGGAACC 0.02

2—08 1 8 ACACC 5 % 0.02% 0.01% X X

EMX1- chr l 5183337 TTTTTt tTt t aGTTCTGGAACC 0.96

2_09 2 8 ACACC 5 % 1.06% 0.98% X X

EMX1- chrl 4809377 TTTATatTCaGGTOTGGMCC 0. 19

2_10 4 2 AacCC 5 % 0. 16% 0. 11% X X

EMX1- 1595169 TTTCTCCaCaGcTTCTGGgACC 0. 12

2—11 chr2 70 cCACC 5 % 0.09% 0.08% X X

EMXl- 4557688 ΓΓΤΑΤ t CTgg t GTTCTGGAACC 0.04

2—12 chr5 5 AaACC 5 % 0.03% 0.02% X X

EMX1- 1495630 TTTGcCCgCCGGTTt TGGAACC 0.06

2_13 chr5 41 AgAtC 5 % 0.04% 0.05% X X

EMX1- 4670387 ITTCatCTCCaGTTCTGGcACC 0.07

2_14 chr6 6 tCACC 5 % 0.04% 0.05% X X

EMX1- 1228157 TTTCaCCaCCt GTTCTGGAACC 0.20

2_15 chr6 01 ACAaa 5 % 0. 16% 0. 18% X X

EMX1- 1209211 TTTATtCTgtGGaTCTGGAACC 0.01

2_16 chr7 49 ACAtC 5 % 0.01% 0.02% X X

EMXl- 3249272 TTTAcCCTCCacTOTGGAACt 0.01

2_17 chr7 6 cCACC 5 % 0.02% 0.01% X X

EMX1- 1029378 TTATtCTCtGGTTCTGGAACC 0.00

2_18 chr9 40 AagtC 5 % 0.00% 0.01% X X

EMX1- 1354280 TTTCTCCat aGtTTCTGGAACC 0.00

2_19 chrX 78 ACAtC 5 % 0.00% 0.00% X X

【표 11】

GCR&-1

【표 12] CCR5- 1822888 TTTTGCCTt gATAATTGCAGaA 0.01

09-06 chr4 63 GCTgT 4 % 0.00% 0.00% X X

CCR5- chr l 5517666 TTTTcCCTGAATAcTTcCAGTg 0.02

09-07 6 9 GCTCT 4 % 0.01% 0.01% X X

CCR5- 1849805 TTTTGt CTGgATAAcTGCAGTA 0.00

09-08 chr2 77 tCTCT 4 % 0.00% 0.00% X X

CCR5- chr2 3430349 TTTGGCCTcMa c ATTGCAGaA 0.01

09-09 1 5 GCTCT 4 % 0 .00% 0.00% X X

CCR5- chr l 4258428 mCtCCTGAATtATTGCAGTA 0.01

09-10 7 . 5 GCTac 4 % 0.02% 0.00% X X

CCR5- 8091747 TTAGCCTGAATt ATTaCAaTA 0.00

09-11 chrX 7 GCTtT 4 % 0.00% 0.00% X X chr l 2999362 TTTTGCCTGgAcAATTGCAaTA 0.00

1 2 GCTtT 4 % 0.01% 0.01% X X

【표 13】 .

HPRTl-l

Inde l frequency D- (%) cap .

Mi s

(- AsCpf LbCpf A L

Locat i on PAMᅳ Target Sequence No . )Cpf 1 1 s b

T TGCTGACCTGCTGGATTACA

0n- 1336092 TCAAA 0.02

t arget chrX 98 (T TG-서열번호 27) 0 % 9.76% 0 0

HPRT1- 3024867 TTTGCTcACCTGCTGGAmCA 0.01

01-02 chr5 8 TCAAA 1 % 0.08% 0.04% 0 0 chr l 9373214 TTTGCTGACCTGCTaGATaACA 0.03

1 4 TCAAA 2 % 0.04% 0.02% 0 0 HPRT1- chrl 6289253 TTTACTGACaact TGGATTACA 0.01

01-04 2 1 TCAAA 4 % 0.01% 0.01% X X

HPRT1- chrl 7875813 TTTTtTaACCTGCTGGAmaA 0. 10

01-05 7 1. TgAAA 4 % 0.08% 0.08% X X

【표 14]

HPRT1-A

Indel frequency D- (%) cap .

Mi s

(- AsCp LbCp A L

Locat ion PAM-Target Sequence No . )Cpf f l f l s b

TTTATGTCCCCTGTTGACTGGT

On- 1336204 CATTC 34.9 36. 1 target ChrX 66 (ΤΊΤΑ-서열번호 28) 0 1.67% 6% 8% 0 0

HPRT1- Chrl 9373202 TTTATaTCCCCTGTTGACTGGT 0. 11 7.57

04_02 1 3 CA Ta 2 0.03% % % 0 0

HPRT1- 1610399 TTTATGTCCCCTcTTGcCTGGT 0.08 0.08

04—03 Chr5 71 CATaa 4 0. 10% % % 0 0

【표 15】

AA VSl . . ' ' , ' '

Indel frequency D-

(%) cap .

Mi s

(- AsCpf LbCpf A L

Locat i on PAM-Target Sequence No . )Cpf 1 1 s b

On- Chrl 5562691 TTTGCmCGATGGAGCCAGAG 0.00 22.42 22.78 target 9 6 AGGAT 0 % % % 0 0 (T G-서열번호 21)

AAVS1_ 7999913 TTTTCTTt tGATGGtGCCAGAG 0.00

02 Chr2 3 AGGAT 3 % 0.01% 0.00% X X

AAVS1_ 1138383 TTTTCTTc t GcTGGAGCCAGAG 0.01

03 Chr8 77 " AGGcT 4 % ' 0.01% 0.01% X X

AAVS1_ 9631709 TTTCOTAtGATGaAGCCAGAG 0.00

04 Chr4 3 AaGcT 4 % 0.08% 0.53% 0 0

【표 16】

【표 17】

VEGFA-2 :

Inde l frequency (%)

Mi s (- AsCpf LbCpf

Locat i on PAM一 Tar get Sequence )Cpf 1 1 No.

TmCGTCCAACTTCTGGGCTGTT

On- Chr CTC 0.942 0.199 target 6 43738576 (ΓΠΤ-서열번호 41) 0 % %

VEGFA- Chr 10405144 T TACt aCCAACTTCTt t GCTGTT 0.022 0.025 0.026 02_02 X 3 CTC 4 % % %

상기 표 8 내자표 17에서 , 소문자 알파벳은 mismatch 위치를 나타내고, 'Mis-No.'는 mismatch 개수를 의미하고, '(-)Cpf'는 Cpfl을 첨가하지 않은 경우를 의미하고, 'As 1 와 'Lb'는 각각 'AsCpfl' 및 'LbCpfl'을 의미한다. 또한, 'D- Cap.'은 'Di genome Capture'를 의미하는 것으로, Di genome sequencing (실入 HI 4)에 의하여 얻어진 cleavage score가 컷오프 값 (2.5) 이상인 것은 'o'로 표시하고 그 이하인 것은 'x'로 표시하였다.

상기 표 8 내지 17에 나타낸 표적 서열 (Target sequence)을 기초로 표 4에서 설명한 방법으로 LbCpil crRNA.및 AsCpfl crRNA를 제작하여 시험에 사용하였다.

r o

표 8 내지 17에 나타낸 Indel frequency 는 targeted deep o sequencing 방식으로 측정하였다.

상기 표 8 내지 17에 나타난 바와 같이, LbCpfl and AsCpfl을 이용하여 on- target sites (labeled as DNMTl-3 and EMXl-2 sites)와 mismatch number가 5개 이하인 지역의 off-target을 여부를 관찰하였을 때 전체 87 site 중 LbCpfl의 경우는 3개 AsCpfl의 경우는 4개의 site에서 validation 되었으나 off-target indel은 0.04% 에서 0.7)로 on-target indel frequency (34% and 25% with LbCpfl and 47% and 13% with AsCpfl)에 비해 매우 낮았다. 또한 다른 두개의 on-target sites (CCR5-1 and HPRT-1)에 대해서 single mismatch가 있는 homologous sites를 구별하는 것을 관찰하였다. LbCpfl은 CCR5-1 and HPRT-1 site에서 on-target frequency가 각각 19% and 10% 이지만 single-base mismatched sites에서는 각각 0.4% 와 0.04% 였다. 이는 각각 on-target indel frequency에 1/48 (= 19%/0.4%) 과 1/250 (= 10%/0.04%) 수준이므로 single-base mismatch도 잘 구별함을 알 수 있다. 전체적으로 130개의 bona fide off-target sites의 indel frequncy를

관찰하였으며 그 중 9개 site에서 validation 되었으나 대부분의 site의 indel이 1% 이하였다. 이러한 결과는 Cpfl이 human cell에서 highly specific 함을 보여준다. 비편향적 방식 (unbiased manner)으로 genome-wide C fl off-target 부위 ϊ 확인하기 위하여, 효율이 높은 총 8개의 Cpfl (표 6의 1-8번 target sequence에 대한 crRNA사용)를 사용하여 Digenome-seq (실시예 4)를 수행하였다. DNeasy Tissue kit (Qiagen)를 이용하여 Hela 세포에서 분리된 Cell-free genomic DNA에 실시예 3의 방법으로 얻어진 AsCpfl 및 LbC fl ribonucleoproteins (RNPs)를 고농도 (300 nM Cpfl 및 900 nM crRNA)를 처리하여 절단하고, whole genome sequencing (WGS; 실시예 4 참조)를 수행하였다. 비교를 위하여, SpCas9를 사용하여 동일한 시험을 수행하였다.

상기 얻어진 cleavage score (실시예 4) 결과 중 AsCpfl 및 LbCpfl을 사용하여 얻어진 결과를 도 21a (DNMT1-3에 대한 결과) 및 21b (DNMT1-4에 대한 결과) 및 표 18 내지 표 33에 나타내었다.

【표 18]

LbCpflJ層 77-3

DNA sequence at cleavage DNA cleavage

Chromosome locat ion site score Bulge chr5 13135736 TTTCCTGATGGTCCAcacCTGmaca 13,20 No chr8 112204853 TTTCCTGATGGTCCAcacCTGmaga 12.38 No chrl9 10244444 mCCTGATGGTCCATGTCTGTTACTC 11.97 . No chrll 26124230 TTTCCTGATGGTCCAcaTCTGmaca 11.51 No chrl6 75745894 TTTTCTGATGGTCCATacCTGmCaC 9.36 No chr3 30592945 TTTCCTGATGGTCCAcacCTGTTAaca 8.74 No chrlO 66295933 mCCTGATGGTCCAcacCTGTAaca 8.67 No chr5 39969437 TCTCCTGATGGTCCATacCTGmacg 8.65 No chrlO 6784959 TTTCCTGATGGTCCAcacCTGmaca 7.24 No chr3 166705664 TTTCCTGATGGTCCAcacCTGmaca 5.96 No chr2 62165341 TTTCCTGATGGTCCAcacCTGmaca 5.56 No chrl 89819957 TTTCCTGATGGcCCATacCTGmaca 5.31 No chrX 115862097 TTTCaTGATGGTCCATacCTGTAaca 5.29 No chrX 92676365 mCCTGATGGTCCATacCTGTTAaca 5.22 No chr3 164692184 TTTCCTGATGGTCCAcacCTGmaca 5.05 No chrl6 13699913 TTTCCTGATGGTCCAcacCTGmaca 4.84 No chr2 153648723 TTTCCTGATGGTCCAcacCTGmaca 4.83 No chrl 236623991 TTTACTGATGaTCCATGTCTaaacgTt 4.74 No chrX 97546178 TTTCCTGATGGTCCAcGcCTGmac a 4.45 No chrll 38911731 TTTCCTGATGGTCCAcacCTGTTAaca 4.07 No chrX 57676022 TTTCCTGATGGTCCAcacCTGmaca 4.01 No chr5 55879970 TTTCCTGATGGTCCAcacCTGmacC 3.76 No chrX 153891299 ri CCTGATGGTCCAcacCTGTTAaca 3.62 No chrl4 21663713 mCCTGATGGTCCAcacCTGTTAaTt 3.24 No chr6 55276466 TTTCCTGATGGTCCAcacCTGTTAaca 2.85 No chrlO 113265597 TTTCCTGATGGTCCATaTCTGTggCa t 2.66 No chr7 7682807 TTTCCTGATGGTCCAcacCTGmt ca 2.57 No chrX 8935018 mCCTGATGGTCCAcacCTGTTAaca 2.50 No

' [표 19】

LbCpfl_Z¾ 77-4

讓 sequence at cleavage 瞧 cleavage

Chromosome locat ion site score Bulge chrl9 10244367 TTTArrTCCCTOAGCTAAAATAAAGG 6.86 No

[표 20】

LbCpfl_ -2

匪 sequence at cleavage DNA cleavage

Chromosome location site score Bulge chr2 73160921 nTGTCCTCCGGTTCTGGMCCACACC 12.19 No chr2 177017501 TOATCCTCCGGTOTGGAACCAgAtC 8.08 No chrl7 46690720 TCATCCTCCGGTTCTGGAACCAgAt t 4.71 No chr6 134409314 TTTCTCCTCaGGTOTGGAACCAat aC 3.77 No

【표 21]

【표 22]

【표 23】

DNA sequence at cleavage DNA c leavage

Chromosome locat ion si te score Bulge chrX 133609321 TTTGCTGACCTGCTGGAmCATCAM 4. 15 No chrll 93732147 TTTGCTGACCTGCTaGATaACATCAAA 3.91 No chr5 30248701 TTTGCTcACCTGCTGGAmCATCAAA 2.91 No

【표 24】

LbCpf l_AP?n-4

Chromosome locat ion DNA sequence at cleavage DNA c leavage Bulge site score

chrll 93732073 mATaTCCCCTGTTGACTGGTCATTa 28.40 No chr5 161040022 riTATGTCCCCTcTTGcCTGGTCATaa 3.88 No chrX 133620495 mATGTCCCCTGTTGACTGGTCATTC 2.90 No

【표 25]

LbCpfl_^ ?i

腿 sequence at cleavage DNA cleavage

Chromosome locat ion site score Bulge

RNA

TTTCCaTACaATGGAGCCAGAGa-GAT

chr2 34206860 9.31 Bulge chr4 96317122 TTTCCTTAt GATGaAGCCAGAGAaGcT 5.26 No chrl6 34823594 TTTACaTAaGATGAAaCCAGAGAGaAa 4.34 No chrl9 55626945 ITTGCmCGATGGAGCCAGAGAGGAT 2.63 No

【표 26】

AsCpfl_»77-3

DNA sequence at cleavage DNA cleavage

Chromosome locat ion site score Bulge chrl2 17538224 TTTACTGATGGTCt t acTtTaTaggcC 15.78 No chr7 134517009 TCTCCTGATGGTCCATacCTGTTAaca 14.35 No chr5 13135739 mCCTGATGGTCCAcacCTGTTAaca 13.65 No chr9 25518292 TCTCCTGATGGTCtATaTCTGTTAaaa 12.61 No chf5 39969440 TCTCCTGATGGTCCATacCTGTTAacg 12.11 No chr8 112204856 TTTCCTGATGGTCCAcacCTGmaga 12.05 No chrll 82700148 TTTACTGATGGTCt catTt aaTct tTa 11.02 No chr3 164692191 TTTCCTGATGGTCCAcacCTG TAaca 10.97 No chr4 123785685 TTTCCTGATGGTCt catatTtTct tTa 8.95 No chrl 213377380 TTTCCTGATGGTCCATGTCTGaat t ag 8.65 No chr lO 6784966 TTTCCTGATGGTCCAcacCTG Aaca 8. 18 No chr7 123688384 ITTCCTGATGGTCCAcacCTGmaca 8.03 No chr2 200523682 TTTACTGATGGTat tataggaagt t at 7.99 No chr l6 75745895 TTTTCTGATGGTCCATacCTG ACaC 7. 12 No chr lO 111147398 TTTCCTGATGGTCCATacCTGcTgCaC 7.06 No chr ll 38911734 mCCTGATGGTCCAcacCTGTTAaca 6.69 No chrX 57676029 TTTCCTGATGGTCCAcacCTGTTAaca 6.55 No chr l6 13699916 ITTCCTGATGGTCCAcacCTGmaca 6.45 No chr3 30592953 ITTCCTGATGGTCCAcacCTGmaca 5.77 No chr l9 43263943 TTTACTGATGGTCCAaacaTcTaAgat 5.66 No chr l9 43416520 TTTACTGATGGTCCAaacaTcTaAgat 5.41 No chr6 55276469 ITTCCTGATGGTCCAcacCTGmaca 5.03 No chrlO 66295940 TTTCCTGATGGTCCAcacCTGTTAaca 4.93 No chr l9 43435385 TTTACTGATGGTCCAaacaTcTaAgat 4.85 No chrX 82549910 ITTCCTGATGGTCCAcacCTGmCaC 4.58 No chr5 54119487 TITCCTGATGGTCCAcacCTGmaTg 4.58 No chr l 236623994 ITTACTGATGaTCCATGTCTaaacgTt 4.39 No chr l9 10244446 mCCTGATGGTCCATGTCTGTTACTC 4.35 No chr4 9395117 TTTCCTGATGGTCtAcaTCTGmaca 4.20 No chr3 166705667 T TCCTGATGGTCCAcacCTGTTAaca 4. 13 No chr l4 21663712 TTTCCTGATGGTCCAcacCTGmaTt 4. 12 No chr7 80711731 TTTACTGATGGTCacTaTa aac ac aga 3.79 No chr5 55879977 TTTCCTGATGGTCCAcacCTGmacC 3.69 No chr7 7682808 TTTCCTGATGGTCCAcacCTG At ca 3.56 No chr lO 113265596 TTTCCTGATGGTCCATaTCTGTggCa t 3.25 No chrX 97546179 TTTCCTGATGGTCCAcGcCTGmaca 3.24 No chr l 146123502 TTTCCTGATGGTCCAcacCTGTTgCaC 3.22 No chr7 3669637 TTTCCTGATGGTCCcatcCaaTgt tTa 3.22 No chr ll 26124238 TTTCCTGATGGTCCAcaTCTGmaca 3.09 No chrX 153891300 TTTCCTGATGGTCCAcacCTGmaca 3.00 No chrX 92676366 TTTCCTGATGGTCCATacCTGTTAaca 2.88 No chr2 153648726 mCCTGATGGTCCAcacCTGTTAaca 2.80 No chr2 62165344 TTTCCTGATGGTCCAcacCTGmaca 2.77 No chrl9 43524715 TTTACTGATGGTCtAaacaTcTaAgat 2.72 No chrlO 14334368 TTTCCTGATGGTCt tcaatatcct tct 2.67 No chrl9 43377706 TTTACTGATGGTCCAaacaTcTaAga t 2.53 No

【표 27]

【표 28】

AsCpf l_ O-2 '

DNA sequence at cleavage DNA c leavage

Chromosome locat i on si te score Bulge chr2 73160922 TTTGTCCTCCGG CTGGAACCACACC 7.57 No chr2 177017500 TTCATCCTCCGGTTCTGGAACCAgAtC 6.59 No chr6 134409310 TTTCTCCTCaGGTOTGGAACCAat aC 4.44 No chrl7 46690718 TTCATCCTCCGGTTCTGGMCCAgAt t 3.28 No chr7 145773724 TTTGTCCTCCaGaTaTGGAACCAt gt g 3. 14 No

[표 29】

AsCpf l_OT5-l

DNA sequence at c leavage DNA c leavage

Chromosome locat ion si te score Bulge chr3 46414552 nTTGTGGGCAACATGCTGGTCATCCT 18.09 No RNA

TTTGGTGGGCAACATGCcaG-CATTaa

chr l 113920223 16.52 Bulge chr8 138491414 TTTAGTGGGaAc agTc tgGtcatgagt 14.80 No chr 16 61917098 TTTGGTGGGCAACATGCTat aCAaaaT 12.36 No chr lO 56138671 TCTGGTGGaCAACATGCTGaTCAaagg 11 .54 No chr8 54163354 CTTGGTGGGCAACt cGcTGGTCATgtT 11 .22 No chr6 137588270 TTTGGTGGGgMCATaCaaGTCATa t T 9.30 No chr20 43657503 rTTGGTGGGCAAgcTaCTt aTacggag 9.04 No chr8 24661222 TTTAGTGGGCAAacTat TGaaaAgat a 8.63 No chr6 127930554 TTTGGTGGGCAACt c t aTt aTtgTatc 8.26 No chr7 62666896 TTTAGTGGGCAAt cTaCTGGaaggaag 6.91 No chrX 65962874 TTTGGTGGGCAAgcTatTaaTgATtgc 6.07 No ' chr 19 44648031 GTTAGTGGGCAACATaCTGt aaAgacc 5.79 No chr2 78618092 TTTGGTGGGCAACtTt tTatTgtTgCT 5.59 No chr3 46399210 TTTTGTGGGCAACATGCTGGTCgTCCT 5. 17 No

RNA

TTTAGTGGGaAACtT-CTGGTCATaCa

chr 15 58588554 5. 11 Bulge chr4 110395952 TTTAGTGGGCAAaccatTt acaAaata 4. 19 No chr l 72141686 T TGGTaGGtAACATGgTGGaagTCaa 4. 18 No chr 15 24068708 TTTTGTGGGCAACATat a t aTaggt cT 3.81 No chr5 56998240 TTTAGTGGGCAACt gt aTt t agAaat c 2.60 No

【표 30]

AsCpf l_OT5-9 '

DNA sequence at c l eavage DNA c leavage

Chromosome l ocat i on s i te score Bulge chr3 44394779 TTTAGCCTGAATAATat t caaTtgTCT 35.07 No chr 15 35754229 TTTGGCCTGAATAAcaa t At acat gt T 14.46 No chr6 3563258 TTTGGt CTGAATMTTt CAGTAGCTCT 11.91 No chrl2 58841086 TITAGCCTGAATAATaCAt Tt aaTaa 11.58 No chrl 144014812 TrTGCCTGAATgATTGCAGTAt tTac 10.39 No chr9 37289591 TTTGGaCTGAATt aTTGCAGTAacatT 7.57 No chrl5 66090016 TTTAGCCTGAAat tTTGCAGTAGt caT 6.55 No chr7 35337090 TTTAGCCTGAATAATat tccatt gccT 6.37 No chr7 13593045 TTTAGCCTGAATAAcat t gtattgTgT 5.59 No chr4 98108485 TTTGCCCTGAATAATTGCAGca t aa t T 5.47 No chr8 74162570 TTTAGCCTGAATAtTatAt aTtatcaT 4.86 No chr3 46415212 mGGCCTGAATMTTGCAGTAGCTCT 4.42 No chr5 59993666 TTTAGCCTGAATAtTat t tGTt aggga 3.73 No chrl5 95848470 TTTGGCCTGAATtATat t acTtAGTCa 3.41 No chr4 108769431 TTTAGCCTGAATAATaatAcTgcaTt a 3.16 No

【표 31】

DNA sequence at cleavage DNA cleavage

Chromosome location site score Bulge chrll 93732153 TTTGCTGACCTGCTaGATaACATCAAA 48.57 No chr5 30248702 TTTGCTcACCTGCTGGAmCATCAAA 27.49 No chr6 49794715 TTTCCTGACCTGCTa ATa t at cacAA 8.55 No chrX 133609322 TTTGCTGACCTGCTGGAmCATCAAA 6.67 No

【표 32】

AsCpfᄂ

DNA sequence at cleavage DNA cleavage

Chromosome locat ion site score Bulge chrX 133620495 mATGTCCCCTGTTGACTGGTCATTC 12.93 No chrll 93732073 mATaTCCCCTGTTGACTGGTCATTa 7.92 No chr5 161040022 mATGTCCCCTcTTGcCTGGTCATaa 4.46 No 【표 33】

도 21a 및 21b, 및 표 18 내지 표 33에 나타난 바와 같이 , on-target 및 of f-target in vi tro 절단부위 (cleavage si tes)에 해당하는 sequence read들의 정렬은 무작위적이기보다는 균일한 (uni form) 것으로 확인되었으며, in vitro cleavage에 있어서, Cpfl은 on-target si te을 포함하여 1 내지 46 부위에서 높은 특이성을 갖는 것으로 나타났다. in vi tro cleavage si tes (or Digenome— captured sites)의 개수는 LbCpfl의 경우 6±3, AsCpfl의 경우 12± 5로 나타났으며, 이는 본 발명자들의 이전 연구에서 얻어진 SpCas9의 90±30보다 현저하게 낮은 수치이다. 도 22a 내지 22f 는 Cpf 1-mediated Digenome— captured site의 Sequence logos를 보여주는 것으로, 상단은 AsCpfl를 사용하여 얻어진 Digenome-captured si te의 Sequence logos이고, 하단은 LbCpfl를 사용하여 얻어진 Digenome一 captured si te의 Sequence logos이다. 도 22a 내지 22f 에 나타난 바와같이, 8 LbCpfl 및 AsCpf l 뉴클레아제를 사용하여 각각 얻어진 50 및 98개의 in vitro cleavage si te은 mi smatches를 carrying하며 , 이들은 대부분 PAM서열로부터 10-nt 정도 떨어진 PAM 근접 부위 (PAM-proximal region)보다는 PAM서열로부터 13-nt 정도 떨어진 PAM-di stal region에 위치한다.

8 LbCpf l 뉴클레아제에 의하여 절단되는 50개 부위 중 46개 부위가

AsCpf l에 의하여 절단되었다. 4개 부위는 각각의 해당 on-target 부위와 비교하여 하나의 뉴클레오타이드가 결실되었으며, 이는 잠재적으로 DNA-crRNA duplex region에서 RNA돌출 (bulge)을 생성할 수 있다. 2개의 LbCpfl 및 AsCpfl 뉴클레아제는 5'-TCTN-3' 및 5'-TTCN-3'와 같은 비정형 (non-canonical)의 PAM 서열을 포함하는 6개 (LbCpfl의 경우) 및 4개 (AsCpfl의 경우)의 부위를 절단하였다. 모든 8개의 on-target 부위들 및 상기에서 deep sequencing에 의하여 확인된 8개의 off-target 부위들을 D i genome— seq에 의하여 capture하였다.

상기 얻어진 결과를 도 21c에 나타내었다. 도 21c에 나타난 바와 같이 , Casᅳ OFFinder (a fast and versatile algorithm that searches for potential off- target sites of Cas9 腿ᅳ guided endonuc leases. Bioinformatics. 2014 May 15:30(10) :1473-5 참조)에 의하여 확인된 5 개 또는 6개의 mismatch를 갖는 상동부위 (homologous site)의 0.9¾> fraction만이 in vitro 절단되었다. 4 개 또는 그보다 적은 mismatch를 갖는 상동부위는 절단될 가능성이 높아서 D i genome— seq에 의하여 캡쳐되었으나, 이들 부위는 인간 유전체에는 거의 존재하지 않는다 (6±2 such sites per crRNA) .

We compared the genome-wide specificity of Cas9 with that of LbC fl and AsCpfl at two overlapping sites in the DNMT1 locus의 2 개의 overlapping site에서의 LbCpfl 및 AsCpfl의 genome-wide 특이성을 Digenome-seq 방식 (실시예 4 참조)으로 측정하여 SpCas9과 비교하였다 (도 21a 및 21b 참조). 도 21a에 나타난 in vitro 절단 부위의 genome-wide distribution플롯은 Cas9와 Cpf 1은 매우 상이한 부위에서 chromosomal DNA를 절단함을 보여준다. in vitro cleavage site에서의 DNA서열을 비교하여 얻어진 새로운 모티프 또는 서열 로고는

LbCpfl가 AsCpfl 또는 Cas9보다 높은 특이성을 가짐을 보여준다 (도 21a 참조). ' LbCpfl와 AsCpfl 모두 인간의 전체 유전체 내에서 on-target site에서만 절단되는 부위를 타겟팅하는 것으로 나타났다 (도 21b 및 도 23 참조). 도 23은 Di genome-captured site의 Sequence logos를 나타낸 것으로, Sequence logos는 Di genome-captured sites을 사용하는 WebLogo

(http://weblogo.berkeley.edu/logo.cgi)를 통하여 얻었으며, 오직 하나의 D醒 on-target site만이 LbCpfl 및 AsCpfl에 의하여 캡쳐되는 것으로 나타났다.

Digenome-seq에 의하여 확인된 in vitro 절단 부위를 targeted deep sequencing를 통하여 HEK293 cell 세포에서 유효성을 검증하였다. 유효성이 있는 것으로 검증된 off-target 부위의 대부분에서의 Indel frequency는 1% 마만이었으며 (도 21d 및 24a 내지 24f 참조), 이러한 결과는 대응 on-target site에서의 Indel frequency와 비교하여 매우 낮은 수치이다. 도 21d는 targeted deep sequencing에 의하여 인간 세포에서 확인된 off-target site을 보여주는 그래프로서, on-target과 off— target 부위의 DNA서열도 함께 나타나 있다 (굵은 글씨는 PAM서열이고 Mismatched뉴클레오타이드는 소문자로 표시됨). 도 24a 내지 24f 는 HEK293T17 세포에서의 Di genome-captured site에서의 Indel

frequency를 나타낸 그래프로서, 진한 막대는 LbCpfl 플라스미드로 트랜스펙션된 HEK293T17 세포에서 얻어진 결과이고, 연한 막대는 AsCpfl 플라스미드로

트랜스펙션된 ΗΕΚ293ΊΊ7 세포에서 얻어진 결과를 보여준다.

genome-wide off-target 효과를 정량하기 위하여 , on-target indel rate에 대한 유효한 (validate) off-target site의 indel rate의 총 합의 비율로서 산정한 off-target effect index (OTI)를 계산하였다. 두 개의 D丽 Tl sites (DNMT1-3 및 D丽 T1-4)에 대한 LbCpfl의 0TI는 각각 0.005 및 0.012이'고, AsCpfl 의 0TI는 각각 0.267 및 0.024로 나타났다. 이러한 결과는 off-target effect는 이치 의존적 (site-dependent)이며, LbCpfl는 AsCpfl와 비교하여 비교적 특이성이 높음을 제안한다. 한편, 본 발명자들의 이전 연구에서 상기 두 부위에서의 Cas9의 0TI가 >2.0인 것으로 나타났다,

이들 유효한 off-target site에서의 indel frequency가 local chromatin inaccessibility에 의하여 저하될 가능성을 배제시키기 위하여, off-target site과 흔성화 가능한 (matched) 서열을 갖는 새로운 crRNA를 트랜스펙션하여 시험하였다 (도 21e 참조). 도 21e는 상기 off-target site에 흔성화하도록 재설계된 crRNA를 이용하여 AsCpfl off-target 부위에서 얻어진 Targeted mutagenesis (Indel frequency (%))를 보여주는 그래프이다. 각각의 off-target- specific crRNA는 각각의 대응하는 위치에서 indel s을 유도할 수 있지만, on- target site에서는 indel을 유도하지 않았다. 도 21e에 나타난 바와 같이, 0T6 부위는 비정형의 5 1 — TCTN-3' PAM서열을 포함하며, 0T6 및 0ΊΊ2 (3' 말단의 하나의 뉴클레오타이드만 상이함) 부위에 특이적인 crRNAs는 0T6 부위에서 각각 3/7% 및 8.1%의 빈도로 indel을 유도하였다. 이러한 결과는 Cpf 1가 비정형 PAM서열을 갖는 염색체 표적 부위에서도 유전체 절단올 수행할 수 있고, 이로 인하여 Cpfl- 매개 유전체 교정의 범위를 확장시킬 수 있음을 보여준다. 실시예 10: RNP를사용한 경우의 off-target 효과 시험

off-target 효과를 회피하거나 감소시키기 위하여, 미리 조합된

(preassembled) Cpfl RNP를 인간 세포에 트랜스펙션시켜 시험하였다. Cas9 RNPs Cpfl RNPs는 트랜스펙션 직후 즉시 표적 부위를 절단하고 세포에 내재하는 단백질 분해효소 (proteases)와 RNA 분해효소 (ribonuc leases)에 의하여 분해되어, on- target 효과 저하 없이 off-target 효과가 저하될 것으로 예상되었으며, 실제로 Cpfl RNP는 plasmids를 사용하여 입증된 몇 몇 off-target site에서 노이즈 수준 이상으로 indel을 유도하지 않았다 (도 21f 참조).

도 21f 는 Cpfl 및 crRNA를 암호화하는 플라스미드를 사용한 경우와 Cpfl 및 crRNA가 복합체를 형성하는 RNP를 사용한 경우의 Cpfl off-target 효과를 보여주는 그래프로서, specificity ratio는 Cpfl RNP를 사용하여 얻어진 off- target indel (OTI) frequency에 대한 on—target indel frequency의 비율과 플라스미드를 사용한 경우의 비율 간 fold difference (RNA/plasmid)를 나타내며, 이들 결과는 플라스미드를 사용한 경우와 비교하여 RNP를 사용한 경우의 off- target 효과가 현저히 감소함을 보여준다. 도 21f 의 결과를 기초로, AsCpfl RNP를 사용한 경우와 LbCpfl RNP를 사용한 경우 모두에 있어서 0TI가 0.0004보다 낮게 (<0.0004) 나타났다. 이러한 결과는 이들 RNP가 off-target effect를 거의 나타내지 않음을 보여준다. 실시예 11: 3' 말단에서 절단된 crRNA를 이용한 off-target 효과측정

3' 말단에서 절단된 (truncated) 절단 crRNA (tru-crRNAs)의 off-target 효과를 시험하였다.

3' 말단에서 절단된 절단 crRNA (tru-crRNAs)는 crRNA의 타겟팅 서열을 3' 말단부터 절단하여 , 타겟팅 서열 길이가 22nt, 20nt, 18nt, 및 16nt가 되도록 각각 설계하였다. 구체적으로, 상기 3' 말단에서 절단된 절단 crRNA (tru-crRNAs)는 서열번호 29(mCCTGATGGTCCATGTCTGTTACTC)의 DNTM1- target site 중에서 PAM 서열 (δ'-ΊΤΤ - )의 3' 방향으로 인접하여 위치하는 연속하는 22nt, 20nt , 18n t , 및 16nt 서열과 흔성화 가능하도록 설계하였다 (즉, crRNA의 타겟팅 서열이 서열 호 29의 서열 중 PAM서열 (5'-TTTC-3')의 3' 방향으로 인접하여 위치하는 연속하는 22nt, 20nt, 18nt , 및 16nt 서열에서 T를 U로 치환한 서열을 가짐). 각각의 tru-crRNA 및 전장 crRNA (full-length crRNA; 타겟팅 서열로서 서열번호 29에서 PAM서열을 제외한 23nt 서열에서 T를 U로 차환한서열을 가짐 )를 각각 lipofectamine 2000를 사용하여 AsCpfl 발현 플라스미드와 함께 HEK293T세포에 트랜스펙션시켰다. 72시간 후, 유전체 DNA를분리하고, targeted deep

sequencing를 통하여 onᅳ target 및 off-target site에서의 indel frequencies 를 측정하였다.

상기 얻어진 결과를 도 25에 나타내었다. 도 25에 나타난 바와 같이 , tru- crRNAs를 사용한 경우, off-target 효과는 약 1/10 정도까지 감소함을 확인할 수 있다. 이러한 off-target 효과의 감소는 off-target가 PAM-distal 3' 말단에 미스매치 뉴클레오타이드를 포함하는 경우에 보다뚜렷하게 나타날 것으로 기대된다. 실시예 12: Cpfl에 의한 절단 말단 확인

실시에 4에 기재된 Digenome-seq 분석법을 사용하는 경우 Integrative

Genomics Viewer (IGV)를 사용하여 절단 부위에서의 overhang 패턴을 용이하게 나타낼 수 있다는 이점이 있다.

도 26a는 DNTMl-?> target site (서열번호 19) 및 DNTM1-4 target

site (서열번호 20)에서의 overhang pattern을 보여주는 대표적인 Integrative Genomics Viewer (IGV; ' ht tp: / /software . broadinst i tute . org/ software/ igv/ ' 참조) 이미지를 보여준다. LbCpfl는 대체적으로 절단 부위의 5' 말단에 3-nt

overhang을 생성하지만 2-nt overhang은 생성하지 않은 반면, AsCpfl는 절단 부위의 5' 말단에 2- nt 내지 4-nt overhang을 생성하였다. Cas9는 blunt end 또는 절단부위의 5' 말단에 1-nt overhang을 생성하였다.

상기와 같이 DNTMl-2> target site (서열번호 19) 및 DNTM1-4 target site

(서열번호 20)에 대하여 생성된 상이한 overhang pattern이 상이한 변이 특성을 유발하는지 여부를 시험하였다.

도 26b는 염기쌍 내에서 deletion/insertion크기에 의하여 bin된 변이 서열 리드의 개수를 보여주는 그래프이다. 도 26c는 Cpfl 또는 Cas9의 target site에서 유도되는 변이 서열을 보여주는 것으로, 각각의 뉴클레아제에 대하여, 첫 번째 줄의 서열은 원래의 target 서열이고, 두 번째 줄부터는 변이가 도입된 서열을 보여주며, 첫 번째 줄 서열에서 PAM서열 (Cpfl: TTTC)은 굵은 글씨로 표시하고, crRNA/sgRNA이 흔성화하는 표적 서열은 밑줄로 표시하였으며 , 두 번째 줄부터의 서열에서 밑줄로 표시된 서열은 Microhomology sequences를 의미하고, 우측에 기재된 숫자는 결실 ('- '로 표시)되거나 삽입 (소문자로 표시)된

뉴클레오타이드의 개수를 의미한다.

도.27a 및 27b은 LbCpfl, AsCpfl, 및 SpCas9에 의하여 유도되는 변이 특성을 보여주는 것으로,

27a는 염기쌍 내에서 deletion/insertion (Indel) size에 의하여 bin된 변이 서열 리드의 개수를 보여주는 그래프이고, 변이 특성은 LbCpfl, AsCpfl, 또는 SpCas9플라스이드로 트랜스펙션된 HEK293T세포로부터 targeted deep sequencing 방식으로 측정하였으며,

27b는 EMX1-2 target site (CTGATGGTCCATGTCTGTTACTC; 서열번호 42)에서 유도되는 변이 서열을 보여주는 것으로, 각각의 뉴클레아제에 대하여, 첫 번째 즐의 서열은 원래의 target 부위 서열이고, 두 번째 즐부터는 변이가 도입된 서열을 보여주며, 첫 번째 줄 서열에서 PAM서열 (Cpfl: TTTG)은 굵은 글씨로 표시하고, crRNA/sgRNA이 흔성화하는 표적 서열은 밑줄로 표시하였으며 , 두 번째 즐부터의 서열에서 밑줄로 표시된 서열은 Microhomology sequences를 의미하고, 우측에 기재된 숫자는 결실 ('- '로 표시)되거나 삽입 (소문자로 표시)된

뉴클레오타이드의 개수를 의미한다.

LbCpfl, AsCpfl, 및 Cas9는, 결실 junction에서 약간의 미세상동성

(microhomoloy)이 발견되기는 하지만, 비교적 상당히 다른 변이 서열을 유도한다. Cpfl 뉴클레아제의 경우 뉴클레오타이드 하나의 삽입 또는 결실은 드물지만, Cas9의 경우에는 우세한 변이 패턴일 수 있다. 이러한 결과는 Cpfl와 Cas9 간 절단 부위 및 overhang pattern에서의 차이가 상이한 변이 특성을 유발함을 보여준다.

도 26d 및 도 26e는 LbCpfl, AsCpfl 및 SpCas9에 의하여 유도되는 변이 특성을 보여주는 것으로, 26d는 변이 서열이 결실 vs. 삽입의 두 가지

fraction으로 나뉘어지는 경우의 각각의 비율을 보여주는 그래프이고, 26e는 변 0 서열이 in-frame indels vs. out— of一 frame indels의 두 가지 fraction으로 나뉘어지는 경우의 각각의 비율을 보여주는 그래프이다 (Data represent mean 士 s.e.m. (n = 10 target sites)) .

도 26d에 나타난 바와 같이, Cas9와 달리, Cpfl는 삽입 변이를 거의 유도하지 않는다. 또한, 도 26e에 보여지는 바와 같이 , 3-nt, 6-nt , 9-nt 등의 결실에 의하여 유발되는 in-frame mutation 비율은 Cas9보다 Cpfl를 사용하는 경우에 높게 나타났다. 이러한 결과는, Cas9와 비교하여, Cpfl를 사용하는 경우에 표적 부위를 microhomology 기반으로 선택하는 것이 단백질 코딩 유전자를 불활성화시키기 위하여 보다 중요함을 제안한다. 실시예 13: Cpfl 과 crRNA 의 RNP를 microinjection 방식으로 mouse embryo 에 전달하여 표적 위치에 특이적 염기서열 변이를 일으키는 유전체 교정 기법

현재까지 Cpfl RNP를 사용하여 mouse embryo 에 microinjection 하는 방법으로 mutant mouse 를 만드는 것이 보고된 바는 없다.

재조합 Acidaminococcus sp. BV3L6 Cpfl (AsCpfl) 단백질을 E.coli 에서 발현 및 정제하고 (실시예 1 참조), 마우스 유전자 (FoxNl)을 표적하는 crRNA (서열번호 1 내지 3 참조)를 제작하여 이를 조합하여 RNP를 만들었다 (AsCpfl protein 200 ng/ul, crRNA 100 ng/ul). crRNA는 서열번호 2 및 서열번호 3의 표적 서열을 기반으로, 표 4에 설명된 방법으로 제작하였다.

이와 같이 제조된 NP를 microinjection 방식으로 mouse embryo 에 전달하고 (도 1 참조), injection 한 embryo 들을 blastocyst까지 배양하여 gDNA를 정제하여 염기서열 변이를 확인하였다. T7E1 assay를 진행한 결과를 도 2에 나타내었다. 도 2에서 보여지는 바와 같이, 12 개 중 10개의 blastocyst (83%) 에서 염기서열 변이가 나타났다 (별표로 표시함).

유전체 변이가 crRNA 가 표적하는 서열에 특이적으로 유도되었음을 확인하기 위해 targeted deep sequencing을 진행하여 그 결과를 도 3에 나타내었다. 이 결과는 AsCpfl RNP 를 microinjection 하는 방법이 동물에서 효율적인 유전체 교정을 할 수 있는 방법임을 보여준다.

또한, Cpfl RNP를 사용하여 embryo 에서 유전체 교정을 한 생쥐가 태어나서 이 개체에서 염기서열 변이가 특이적으로 일어났는지 그리고 비특이적 염기서열 변이가 없는지 확인하였다. 이 생쥐의 꼬리에서 gDNA를 정제하여 T7E1 실험과 targeted deep sequencing 방법으로 특이적 위치에 유전체 변이가 있음을

확인하였고 (도 4 및 도 5 참조), whole genome sequencing (WGS) 방법으로 비특이적 유전체 변이가 있는지 분석하였다 (도 6 참조). WGS 데이터를 reference genome 과 비교 분석한 결과 비특이적 염기서열 변이는 일어나자않았고 오직 특이적 서열에만 유전체 교정이 있었음을 확인하였다 (도 6 참조). 실시예 14: Electroporation방법을 통해 Cpfl과 Cas9 RNP를 mouse embryo 에 전달하는 유전체 교정 기법

Microinjection을 통한 Cpfl RNP delivery는 mouse embryo 를 하나씩 처리해야 하기 때문에 embryo 가 1 cell stage 에 머물러 있는 몇 시간 동안 실험을 마쳐야 하고 따라서 한 번에 실험할 수 있는 개수가 실험자와 injection 장비의 수에 의해 제한되는 단점이 있다.

이를 극복하기 위해 우리는 한 번에 여러 embryo 를 처리할 수 있는 electroporation 방법을 Streptococcus pyogenes Cas9 (SpCas9)과 AsCpf 1 재조합 단백질에 적용하여 mouse embryo 에서 유전체 교정을 하는 방법을 규명하였다 (도 7 참조). 본 실시예에서는, 재조합 AsCpfl 또는 SpCas9 단백질 (100 ng/ul)과 sgRNA (500 ng/ul; 서열번호 6의 표적서열 (VEGFA)을 기초로 표 5에 기재된 설명을 참조하여 제작) 또는 crRNA (250 ng/ul; 서열번호 2 또는 3의 표적 서열을 기초로 표 4의 설명을 참조하여 제작)을 Opti-Mem (Thermo) 배지에 회석하여 RNP를 준비하였다. 여기에 mouse embryo 를 50개 넣고 NEPA 21(NEPA GENE Co. Ltd) electroporator 장비를 사용하여 electroporation 을 진행했다.

Electroporation은 poring pulse (225 V, 1.5 tns , interval 50 ms, 4 회, decay rate 10%, polarity +)과 transfer pulse (20V, 50 ms, interval 50 ms, 5 회 , decay rate 40%, polarity +/-) 방법을 사용했다. 먼저 SpCas9을 시도했는데, SpCas9 과 VEGFA를 표적으로 하는 sgRNA로 RNP를 만들고 이를 mouse embryo 에 electroporation 했다. 이 embryo 를 blastocyst까지 배양하고 gDNA를 정제하고 T7E1 방법과 targeted deep sequencing방법으로 염기서열 변이를 분석하였다 (도 8 및 도 9 . 참조).

도 8 및 도 9에 나타난 바와 같이, Blastocyst 분석 결과 electroporation 방식으로 SpCas9을 전달하여 효율적인 유전체 교정이 일어났음을 확인할 수 있었다 (15 개 중 12 개에 변이 확인 (8, 13 및 15 컬럼 제외하고 12개 컬럼에서 변이가 관찰됨), 80% 효율).

같은 방법으로 FoxNl exon 7을 표적으로 하는 AsCpfl RNP 를 mouse embryo 에 electroporation 으로 전달하였을 때 blastocycst 분석을 통해 효율적인 유전체 교정 (25 개 중 16개 , 64%)이 됨을 targeted deep sequencing으로 확인하였다 (도 10 참조). 실시예 15: Polyethylene glycol (PEG)를 이용하여 Cpfl RNP를 식물에 전달하여 특이적 염기서열 변이를 일으키는 유전체 교정 기법

현재까지 식물 유전체 교정을 위해서 Cpfl RNP을 사용하는 방법은 보고된 바가 없다. 본 실시예에서는 재조합 AsCpfl 과 Lachnospiraceae bacterium D2006 Cpfl (LbCpfl)을 사용하는 식물 유전체 교정하는 방법을 규명하고 이 방법을 적용하여 콩 (Glycine Max) 의 FAD2 상동유전자들이 녹아웃된 식물을 제조하여 활용하는 방법을 제시한다. 이를 위해 콩의 FAD2 상동 유전자 (Glymal0g42470 과 Glyma20g24530)을 동시에 특이적으로 인식하는 AsCpfl 과 LbCpfl 의 표적 염기서열을 확보하였다. 이와 같이 확보된 표적 서열을 아래의 표 34에

나타내었다:

【표 34]

PAM and Target sequence 1 for FAD2 TTTCTACATTGCCACCACCTAOT

homo 1 ogous genes Glymal0g42470 and CC TTTC-서열번호 7)

Glyma20g24530

PAM and Target sequence 2 for FAD2 TTTCCCTCATTGCATGGCCMTCT

homologous genes Glymal0g42470 and AT TC-서열번호 8)

Glyma20g24530

PAM and Target sequence 3 (LbCpfl) for TTTAGTCCCmiTTCTCATGGAA

FAD2 homo 1 ogous genes Glymal0g42470 and M TTA-서열번호 9)

Glyma20g24530

PAM and Target sequence 4 for FAD2 TTTCTCATGGAAAATAAGCCATCG

homologous genes Glymal0g42470 and CC TTC-서열번호 10) Glyma20g24530

PAM and Target sequence 5 for FAD2 TTTCTCCCAAAACCAAAATCCAAA

homologous genes Glymal0g42470 and GT TTG—서열번호 11)

Glyma20g24530

PAM and Target sequence 6 for FAD2 TITCGCTGCTATGTGTTTATGGGG

homologous genes Glymal0g42470 and TG TTG-서열번호 12)

Glyma20g24530

PAM and Target sequence 7 for FAD2 TTTGGCAACTATGGACAGAGATTA

homologous genes Glymal0g42470 and TGOTTG-서열번호 13)

Glyma20g24530

PAM and Target sequence 8 for FAD2 TTTGATGACACACCATTTTACAAG

homologous genes Glymal0g42470 and GC TTG-서열번호 14)

Glyma20g24530

PAM and Target sequence 9 (AsCpf 1) for TTTACAAGGCACTGTGGAGAGAAG

FAD2 homologous genes Glymal0g42470 and C(TTTA-서열번호 15)

Glyma20g24530

(PAM서열을 굵은 글씨로 표시함)

상기 확보된 표적 서열을 기초로 표 4에서 설명된 방법으로 crRNA를 제작하였다.

40% polyethylene glycol (PEG) 용액 (PEG 4000, 0.2 M manni tol and 0. 1 M CaCl 2 ) 300 ul을 이용하여 동량의 丽 G(0.4 M manni tol , 15 mM MgCl 2 ) 용액에 푼 식물 원형질체 (2xl0 5 protopl asts (콩) )에 미리 섞은 재조합 AsCpf l (또 LbCpf l) 단백질 (40 ug/2xl0 5 protoplasts)과 crRNA (80 ug/2xl0 5 protoplasts)을 흔합하여 식물 세포 내로 RNP를 전달하였다 (도 11 참조) .

전달된 식물 원형질체는 W5 (2 mM MES [ H 5.7] , 154 mM NaCl , 125 mM CaCl 2 , 5 mM KC1 ) 용액에 24시간 배양 후 gDNA를 분리하여 타겟 유전자로부터 유전자 교정이 발생했는지 확인하였다. 이 방법올 적용하여 두 상동 FAD2 유전자가

녹아웃된 식물 세포를 제작할 수 있음을 targeted deep sequencing 방법으로 분석하여 효율적인 유전체 교정을 보였다 (도 12 참조) . 염기서열 분석을 통해 염기서열 변이가 Cpfl 에서 타겟 유전자가 잘릴 것으로 예상되는 표적 위치에 발생했다는 것도 확인하였다. (도 13 참조). 실시예 16: Split-Cpfl를 이용한유전체 교정

16.1. Split-Cpfl의 제작

Cpfl 단백질은 기존에 사용되고 있는 인공 뉴클레아제들보다 표적

특이적으로 작동하는 성향이 강해 진핵세포 및 생물체 내 유전자 변형을 설계하는 데 있어 주목받고 있는 차세대 유전자 가위이다. 이렇게 유용한 도구임에도 불구하고, Cpfl 단백질을 코딩하고 있는 유전자사이즈가 크기 때문에 바이러스 백터를 이용해 Cpfl 단백질을 세포 내로 전달하는 일은 상당히 효율이 떨어지는 문제가 있고, Cpfl 기술을 적용하는 데 걸림돌로 작용하고 있다. 바이러스 백터의 경우 백터의 패키징 한계를 가지고 있어서, 패키징 한계를 넘는 유전자가 코딩된 경우 바이러스 생산 효율 및 세포 내 전달 효율이 떨어지는 현상이 보편적으로 잘 알려져 있다.

이러한 문제를 해결하기 위해서, 본 실시예에서는 Split-Cpfl system을 제작하였다. 야생형 (Wild type, WT) AsCpfl의 단백질 (서열번호 43)은

1,307개의 아미노산으로 구성되어 있다 (도 29a참조). AsCpfl의 단백질 발현과 세포 내 핵 전달에 필요한 프로모터 (CMV프로모터; 서열번호 64) 서열, 핵 위치 신호 (nuclear localization signal; KRPAATKKAGQAKKKK), poly A신호 등을 모두 포함한 발현용 카세트를 바이러스 백터로 옮기면 바이러스 패키징 한계에 해당하기 때문에 발현용 카세트의 크기를 줄이는 방법으로 AsCpfl 단백질을 두 조각으로 나누어 발현시키는 방법을 고안하고, 4종류의 Split-AsCpfl을 구상했다.

Split-l-AsCpfl은 AsCpfl (서열번호 43)의 901번째 아미노산과 902번째 아미노산사이, Split-2-AsCpfl은 AsCpfl의 886번째 아미노산과 887번째 아미노산사이, Split-3-AsCpfl은 AsCpfl의 399번째 아미노산과 400번째 아미노산사이 , Split-4-AsCpfl은 AsCpfl의 526번째 아미노산과 527번째 아미노산 사이를 경계로 WT AsCpfl을 분리시켜 각각 두 조각으로 나누었다 (도 29a 참조).

상기 얻어진 하프 도메인을 아래의 표 35에 정리하였다:

【표 35】 lldWOdNTHd 3ASAcfflLLV

扁 ν Νλ«Ί Sd3W3DII0I

TavsH3daA3 NsaaAV cn

¾n Lcnd5a TWHVHS ia si¾5¾dvasi a¾Dwsii3b

TNiaaronsa M3 VS LI

AV¾a5NSI0 Νδ ΐα 3)1

ΊΗΝΊΊΊθ Π VIHAVONVaV aoivssuai ¾¾HSidiHn

aiSN13NJlV 3νΐ3ΤΛΝ3Ν¾

AdSN aaoi WNS薩 Λ TO)iA)lDJS5 IA33aSM33 snnvAMiai VHsaaN3Ti

cniNSOOHAV Ι0¾33ΊΤνΠ HdlSVIIHVI aaN¾5lVTNl a VdAia¾A¾ 9I^HN3IAd Λ3ΝΊ9¾Ι)ί3Ι 0V3¾SIK)n

AIMOVIddl M L3N

; MAKIMVcDW OdO¾5£STN AaaisiSAdi oivmNadH ᅳ ) UH IS3 HN¾II Add ¾ ΝαδΛΐ Η divismavs dAHOndan SIAdVdAAdl

T1VN3H31L 1 £Πδ)ί Λ)ί

NTAOOA)iaVcI λ(Η ΛΌΝ ONdiaV^dlO ¾iaVHH¾ I

ν ΓΜΕ )Ι JAaHIVNHAl

S KMN N31 A VQAHIWl VQ33ITVNHI 人 Sd

OAI3HIA5Sl Α30)Π(ΗΙΙΟ IWS NS n ΰΛΊΰΌΰαν入

S VGHWA 33 Nd 人 KIIIcDl 13 HCIN V δ入 (ωδδιΐΝΊ SHSaiims aaai d05a5i roni¾05dn αΐΛΐΐλΐτΝΗ aonaioiidi -I oei-so6 [ό£ ¥t¾l k)

1 UIBIUOQ UIBUIOQ

9L OIO0XO0I333O0V33VI0V33IV0IV 0V DVO33WW0VO0VW0V1VI331 oiDDvmooivovoovooivoioovo 3V031VD300000DV013DW0V0001

30V0131VI000DV30W0I31V DW 1V00133V33I9DIOOV00133310V3

3IW3V0000I3010I3100I3300V3 ovoomvioovowovxoivoooivo

DOWOOVOODIOOOVOVODWOVOOOV 31VD1V3DD9W0I30V0DW3VI3V3 owovmoowowovooviivoiiL IVOIWOOOOOOOWOVOOVOOVOOIV

0V33V33IV33V3W0ID30V0330V0 31L3030V03VOOV33IV3V30W013

OVO0133IVOW000D3V3D1DV00IV ODVDWDOOOVOVDDOIVOIODVOI L

0I0V3VDIV1VI3IV0133VW0V0V0 οοοοιονονοννοΰνοιοονοινιοιο

300003IV03XV3000IV3IVI33V3V 3W33V1U30DOV331LOVOV3V01V

(i>k VNQ (l>k VNa

3 ciHS VNAH 5Nd¾SdSNW

G人 NiLidMU Jd¾asi^raa II3HSA3)LL IA dlTVHVS aS IHS HHN ΛΑαΛ 30λΈ adidi XDn iNM rra

HVMMHS¾d HAJ13VD3N1

¾ISl)IVlNad SHOIAIIH

TNcHOHHOW dd NAI n入

TMOI VdWI 3¾3VIH5JSI

HAlldNiaVA A331(HA5SS dinssiaisi ΠΧΛ^ΉΟΗ idai )ioiva Ηλθ^δσο™

VAVl5H¾Icia ¾3dNNiaAia

¾XiaiciaidN NSTlIdURL a 人 αλ α doasi¾aida

LL ACAAGGAACGCCCTGATCGAGGAGCAG CTGGAGAACCTGAAT TCGGCTTTAAG

GCCACATATCGCAATGCCATCCACGAC AGCAAGAGGACCGGCATCGCCGAGAAG

TAOTCATCGGCCGGACAGACAACCTG GCCGTGTACCAGCAGTTCGAGAAGATG

ACCGATGCCATCAATAAGAGACACGCC CTGATCGATAAGCTGAATTGCCTGGTG

GAGATCTACAAGGGCCTGTOAAGGCC CTGAAGGACTATCCAGCAGAGAAAGTG

GAGCTGTTTAATGGCAAGGTGCTGAAG GGAGGCGTGCTGAACCCATACCAGCTG

CAGCTGGGCACCGTGACCACAACCGAG ACAGACCAGTOACCTCCTTTGCCAAG

CACGAGAACGCCCTGCTGCGGAGCTO ATGGGCACCCAGTCTGGCTTCCTGTTT

GACAAGTTTACAACCTACnCTCCGGC TACGTGCCTGCCCCATATACATCTAAG

TnTATGAGAACAGGAAGAACGTGTO ATCGATCCCCTGACCGGOTCGTGGAC

AGCGCCGAGGATATCAGCACAGCCATC CCOTCGTGTGGAAAACCATCAAGAAT

CCACACCGCATCGTGCAGGACAAOTC CACGAGAGCCGCAAGCAOTCCTGGAG

CCCAAGmAAGGAGAATTGTCACATC GGCTOGACITTCTGCACTACGACGTG

TOACACGCCTGATCACCGCCGTGCCC AAAACCGGCGACTTCATCCTGCACTTT

AGCCTGCGGGAGCACTTTGAGAACGTG AAGATGAACAGAAATCTGTCOTCCAG

AAGMGGCCATCGGCATCTTCGTGAGC AGGGGCCTGCCCGGCTTTATGCCTGCA

ACCTCCATCGAGGAGGTGTTTTCOTC TGGGATATCGTGTTCGAGAAGAACGAG

CCTTTTTATAACCAGCTGCTGACACAG ACACAGTTTGACGCCAAGGGCACCCCT

ACCCAGATCGACCTGTATAACCAGCTG TTCATCGCCGGCAAGAGAATCGTGCCA

CTGGGAGGAATCTCTCGGGAGGCAGGC GTGATCGAGAATCACAGATTCACCGGC

ACCGAGAAGATCAAGGGCCTGAACGAG AGATACCGGGACCTGTATCCTGCCAAC

GTGCTGAATCTGGCCATCCAGAAGAAT GAGCTGATCGCCCTGCTGGAGGAGAAG

GATGAGACAGCCCACATCATCGCCTCC GGCATCGTGTOAGGGATGGCTCCAAC

CTGCCACACAGATOATCCCCCTGTTT ATCCTGCCAAAGCTGCTGGAGAATGAC

AAGCAGATCCTGTCCGATAGGAACACC GAnCTCACGCCATCGACACCATGGTG

CTGTCTTTCATCCTGGAGGAGTTTAAG GCCCTGATCCGCAGCGTGCTGCAGATG

AGCGACGAGGAAGTGATCCAGTCOTC CGGAACTCCAATGCCGCCACAGGCGAG

TGCAAGTACAAGACACTGCTGAGAAAC GACTATATCAAGAGCCCCGTGCGCGAT

GAGAACGTGCTGGAGACAGCCGAGGCC CTGAATGGCGTGTGCnCGACTCCCGG oioovooovaovooiovwoooivoiv

0W0303001V01330110VI3V0IVI

3VI0IV0WIV0111D000V030V33V

VW0V0V3V3030V031133V0I30a0

0WIVI00V3000W0V0DVW330IV

3IV3OO0131VI3V10I0DO03W0W

D101U3I331V3003901W3W0W

0VO0WIWDI33Vi»013OOJ3I33D

OIOVOVXODOIVOVOl LOWOIOOW

D11OW0VO9I03313V1030OW0W

33V3331VJLLVW0VD00DW0W3VI

OLLOOVOIOIOIIOODVOOIVOVOOIO

OW3IV30D33VOI30033001310LL

0VO0DD3VO0IO0V03WD0I0V0IVO

OXOOOOLUOOlOVODimOOVOOVI

0130009109I300V3V0DX00V3I3I

OWOIOOIVOVOOWOVOOVOOVOOW

0WDI333W0VI300I0VD3OV31V0

913D0D3303V3V303V333I01331V

0V000V33WW0V30W31L0300V0

OOVOIOOVODWOODVaOOOOIOXOIV

3IV0V00V30130W3IVIV00V03V3

0W0I30DV303OV30IODW0VO0W

0301310W33VDIVDW003V3V013

3V00V01W33131VOO03WOVDOI3 0VD3013IW0V00D0V0IV10I0330

OWOIOIVODWOOVOVODWOIOOVO IWO0V0I0V0VIVOO0I3V33VO001

0I303033V30V3J,W3V0VO0133W

3iyDVD3VI003300IW0301V033D 0W3V330V3IV3JI3XV3V3V0V3I3

0VODIV3Q3O31DV0V303WOV3111 3V03XV30VDW0I00V03WX110I3

6/.

.CMO/9TOZaM/X3d t6l7660//J0Z OAV OIO3V30LLLJ13LL0W0VO0OV33V

l 30309VIVi)DW31V3IV0V0DV3 X3I0I0DV00W3DV01V0I03W333 0I0DI333OODV33O0V01V0I31010 3V03V03DI013V0V3V3IW0I01V1 3V93VI3133V DV33V10I333V3V0 OOOOIWOOOOWWOVOXVOOWOIO

0W0W3W01D3IV0WDV0V09DID O000VOV3O9IVO0VDW0IVOOV031 OWI333033V13LLOI30V03300V3

DIOOWDVOVOOIOLLILOIDOOOOOV

901LVI0I3V3V3V0D13IWI333W

3003V33VD00a0W3301 L0Vi»VV 3W1V131V0V33LL0133VI0I33W

3ODV3V0VO0I0D301VO0IV3IV0V3 3W3V03D0DXW3VDV331L00V3IV 3V03V10I00I3333IW010DV3330 XVI3VI3V03300I33V00WIVI3V0 I3I33XV30O033X330VI3I3I0XV0 3IVI3I33WDV0W33VIVI0W33I 0I31LUV000W3V3LL3V03IV001 owmoiooooDvovovovioooow

OVOOVOOOOOOWWOWOOOOVIOOO VDV0V3JJ 0W0VW30DV0DW0V0 I331W3WOI30V03V13IV3VOOW

V3V3IV0V00131333V03IV0 UW

3W3310X30ID3IV33033W3V3V3

1 33V0V3JIX3V333QV3V0X00099W

08

.CM0/9T0ZaM/X3d ^61^660/ . I OAV IHAIOllSai 5S)I113)1330

η ΐχ Μδα TWHVHSiia

ΤΝΐα3Η¾Έ¾ OA¾a¾vs¾n

(rasanHNTi ¾ ) 入 v miasi^a AivNHiia H

ONVavaWdS dN¾aS(MA aoTvssuai

ONldHAdSNI AaaOlWNSN aiSN S HTV 3VI3TAN3NH

AiiaivHsaa TlL¾) tK5 ΙΛ33(ΚΜ33

N3TT)kniNS 30HdAI0)iaa

HcnSVIIHVl 3( 0ΐν ΝΊ

Λ3ΝΊ0)ίΙ¾3Ι 0V3¾SI09n

ONAiaiQlOl llQ AdcMSH miHaoi¾va A33ISISAdI 0ΐν¾ΙΛΝ3

入 ΗΉ )3Ή腿 S3HN LL nsdAvin ^IHDNSM

divisiaavs TIVN3H31L ΙΛΧΟΊ0)ΠΛ)Ι

NDianra a^QQAAV^av υΉν ΙΌ MiaVH¾¾ I

I L S )d NTNSTA VO ναιτΝαΐίΐοι dA(mivNH入 人 ΗΙΜΊ ( ΙΛΙ3Η IAOSIAOS)!! voaanvNHi aaDiamsa

(DIIIO S V 5HWA¾3)ia¾ IWSlNMai 5Λ1θ 5ανλ

J 入 I ailc 13¾AH0 HV)I

DlOISaiAII ΑΓ ΗίΜΠ aaaiH0Da5i κηΐΜπ

01 IdiadH3¾ lAVNAHONd)! ( . e . e -Z

Z0CI- 88 tp ^i¾i>k) 988— ΐ to ^t¾l,k)

ovo

3D33V0DV00W3I33V130DIW0I0

O0V9V30W3LL0WI3IV033311W

OOOOOOOVOIVIOWOIOVOVOIVIOO

18

.CMO/9TOZaM/X3d LDWFAVDESN EVDPEFSARL

TGIKLEMEPS LSFYNKARNY

ATKKPYSVEK FKLNFQMPTL

ASGWDVNKEK NNGAILFVKN

GLYYLGIMPK QKGRYKALSF

EPTEKTSEGF DKMYYDYFPD

AAKMIPKCST QLKAVTAHFQ

THTTPILLSN NFIEPLEITK

EIYDLNNPEK EPKKFQTAYA

KKTGDQKGYR EALCKWIDFT

RDFLSKYTKT TSIDLSSLRP

SSQYKDLGEY YAELNPLLYH

ISFQRIAEKE IMDAVETGKL

YLFQIYNKDF AKGHHGKPNL

HTLYWTGLFS PENLAKTSIK

LNGQAELFYR PKSRMK MAH

RLGEKML KK LKDQKTPIPD

TLYQELYDYV匪 RLSHDLSD

EARALLPNVI TKEVSHEI IK

DRRFTSDKFF FHVPITLNYQ

AANSPS

(코딩 DNA 서열) (코딩 DNA 서열)

ATGACACAGTTCGAGGGCTTTACCAAC AAGTTCAACCAGAGGGTGAATGCCTAC

CTGTATCAGGTGAGCAAGACACTGCGG CTGAAGGAGCACCCCGAGACACCTATC

TITGAGCTGATCCCACAGGGCAAGACC ATCGGCATCGATCGGGGCGAGAGAAAC

CTGAAGCACATCCAGGAGCAGGGCTO CTGATCTATATCACAGTGATCGACTCC

ATCGAGGAGGACAAGGCCCGCAATGAT ACCGGCAAGATCCTGGAGCAGCGGAGC

CACTACAAGGAGCTGAAGCCCATCATC CTGAACACCATCCAGCAGTTTGAmC

GATCGGATCTACAAGACCTATGCCGAC CAGAAGAAGCTGGACAACAGGGAGAAG CAGTGCCTGCAGCTGGTGCAGCTGGAT GAGAGGGTGGCAGCAAGGCAGGCCTGG

TGGGAGAACCTGAGCGCCGCCATCGAC TCTGTGGTGGGCACAATCAAGGATCTG

TCCTATAGAAAGGAGAAAACCGAGGAG AAGCAGGGCTATCTGAGCCAGGTCATC

ACAAGGAACGCCCTGATCGAGGAGCAG CACGAGATCGTGGACCTGATGATCCAC

GCCACATATCGCAATGCCATCCACGAC TACCAGGCCGTGGTGGTGCTGGAGAAC

TACTTCATCGGCCGGACAGACAACCTG CTGAATTTCGGCTTTAAGAGCAAGAGG

ACCGATGCCATCAATAAGAGACACGCC ACCGGCATCGCCGAGAAGGCCGTGTAC

GAGATCTACAAGGGCCTGTTCAAGGCC CAGCAGTTCGAGAAGATGCTGATCGAT

GAGCTGTTTAATGGCAAGGTGCTGAAG MGCTGMTTGCCTGGTGCTGAAGGAC

CAGCTGGGCACCGTGACCACAACCGAG TATCCAGCAGAGAAAGTGGGAGGCGTG

CACGAGAACGCCCTGCTGCGGAGOTC CTGAACCCATACCAGCTGACAGACCAG

GACAAGTTTACAACCTACnCTCCGGC TTCACCTCCriTGCCAAGATGGGCACC

TTTTATGAGAACAGGAAGAACGTGTTC CAGTCTGGCTTCCTGTTTTACGTGCCT

AGCGCCGAGGATATCAGCACAGCCATC GCCCCATATACATCTAAGATCGATCCC

CCACACCGCATCGTGCAGGACAAOTC CTGACCGGCTTCGTGGACCCCTTCGTG

CCCAAGTTTAAGGAGAATTGTCACATC TGGAAAACCATC GAATCACGAGAGC

TOACACGCCTGATCACCGCCGTGCCC CGCAAGCAOTCCTGGAGGGCTOGAC

AGCCTGCGGGAGCACITTGAGAACGTG 1TTCTGCACTACGACGTGAAAACCGGC

AAGAAGGCCATCGGCATCTTCGTGAGC GACTTCATCCTGCACTTTAAGATGAAC

ACCTCCATCGAGGAGGTGmTCOTC AGAAATCTGTCOTCCAGAGGGGCCTG

CCTTTTTATAACCAGCTGCTGACACAG CCCGGCTTTATGCCTGCATGGGATATC

ACCCAGATCGACCTGTATAACCAGCTG GTGTTCGAGMGAACGAGACACAGTTT

CTGGGAGGAATCTCTCGGGAGGCAGGC GACGCCMGGGCACCCCTTTCATCGCC

ACCGAGAAGATCAAGGGCCTGAACGAG GGCAAGAGAATCGTGCCAGTGATCGAG

GTGCTGAATCTGGCCATCCAGAAGAAT AATCACAGATTCACCGGCAGATACCGG

GATGAGACAGCCCACATCATCGCCTCC GACCTGTATCCTGCCAACGAGCTGATC

CTGCCACACAGATTCATCCCCCTG TT GCCCTGCTGGAGGAGAAGGGCATCGTG

AAGCAGATCCTGTCCGATAGGAACACC TTCAGGGATGGCTCCAACATCCTGCCA

CTGTCTTTCATCCTGGAGGAGTTTAAG AAGCTGCTGGAGAATGACGATTCTCAC VW0V3V3V3330V03J133V0I3030

owivioovoooowovoovwomv

3IV3O DI3IVI3VIDI30O03W0VV

0I01 L01331V3003OD1W3W0W oiovoviomvovoiuowoioow

3LL0W0V00I033I3VI330DW0W

33V330IV11WV3V3300W3WOV1

3J 30V0I3I3J1300V 0IVDVO0I3

0W3IV3D033V013303030I3131L

0103301 L00I0V00130I33V33V1

OX30000I30I300VDV 0103V3I3I

0W01D3IV0Vi»W0Vi)0V09V39W

0W0I303W3VI30DI3V030V3IV0

OI33003303V3V303V033I9I301V

0V330V33WW0V30W31L3D00VD oovoiaovoowooovooomoioiv

3W303f)I30V00V331V3VI 3IV3V00V3DI33W3IV1V00V03V3

33O0I3ODI3VO9V3IW33I3IV0O0 OWOIOOOVOOOOVOOIOOWOVOOW

OWOVOOIOOWOIOIVOOWOOVOVO omoiowoovoivowooovovoio

0V03313IW0V0030V0IV101D330

0W3I330331V3V33VI300a0DlW 1WOOV3I3V3V1V00013V33V030I

300IV03003V001V30000I0V0V33 0I333003V30V3IVV3V0V DI30VV

3W0V3L 003D3I3V03X130I0I0 0W3V330V3IV31L31V0V3V3V013

OOOIWOIOIVDOOOOIOOOOOOVOW 3V03IV30V3W0100V03W11L013

31VlV10VODVD0i)0V3V33ODmVV 3DODV3003V3VOVOOIOD133WOVO

33I3W0000IV0VD3I00X030V003 3VW0V0I33I3V3V0W3VI0W3{)1

31V0I333ODIO0IV33V3V03IV330 D1L33I0V331V01OWO0V33VO30V t6l7660//J0Z OAV 013DI333000V30 0V01VOI3XOI3

3V03V033I0I3V0V3V3IW3I0IVX 3V03VIDI30VODV33VI3103DV3V0 33331W3333WW0V3IVO0WOI3 0W3W3W0I30IV0W3V0V000X3 OD33V0V3O0IVO0V0W0IVO0V33X owiooooooviouoioovooaoovo

303IW0X30W3IV00W3V0W330 0I33W0VOV33I31L1L3133O933V 001LV10I3V3V3V30I3IWI33DW

OOOOVOOVOOOOOWOOOLUOVOOW

3W1V13XV3V301L0I33VI0I30W

OOOVOVOV OIOOOOIVOOIVOIVOVO

3W0V03000IW0V3V331LD0V31V 0V33VI0I00I3333IW0100V03D3 IVI3VI0V00O00I33V00WIVIOV3 13I331V3000301300VI310I0IV0 D1V13I33W3V0W33VIV10W33I 0I31LLLV009WDV3LL3V03IV001 OWmOIOOODOVOVOVOVIOOOOW

OVOOVOOOOOOWWOWOOOOVIOOO

V3V0V3 0W0VW330V00W0V0 ' I33IWDWDI33V00VI31V0VODW

V3V3IV0V0DI31333V03IV31 LW

3W33I0I33I33IV0330DW3V3V3 33V0VD1L13V3D00V3V0I00DODVV OI03V333V0OV33IOVW333IVOIV OW33O3OD1V0X030J13VI3V0IVI I 0VX0XV5WXV5JI13TOV93SV33V .CMO/9TOZaM/X3d ^61^660/ . I OAV

GGCCG ATCGGGAAGGCCCGCAGGAAAACCGGCCGAAAATAT AAAAGCAATCCTT

C GGGG G GCCAAAGAGCGGGC OT ATAC

3 OO033000 3193OOVIV3O W I1VVV

G CCCGCCGCG T TGCGATCGGGCAACCCAATAGGATCC T ATAAA ATAATTCGCCT

C GGGCCCGCGC TG CGTAGCATGCGG GGAAGCCGAAGCCG TA TAAAATTAGGAAT G CC CGGGCCCCCCGC ATAA G TTAGCAAAGATAAAGCCGGG A TTT AATTAAAAGA

서딩서딩열 ( ) ( ) DN DNA A 코코 δ ΝΗΊ3Ι V QG lALLLNLK

S ao N ua i w j ITV x H a i v

o

S OC M A D INd I

CO

2; ra VdAl ( A¾I

σ AG KTPFI K R 3

V PGFPAWDIM NHESRKHFLE PLG TKIDTF QGSS M TFAKT ' 90 AA¾ a VdA a

δ 0 Τ Ι ¾3ΗΛΛ ν

Ν ΛΛΝ3

Q GVYLSIHEI SO QdlISNlH

G LIYITVERN QVALKHRNYE 0WIVI0V3I3I33IV330030I330V U10I333331V311V0VDV3V3301D moioivooivnioowovowDov OOIDDODIVDIVOVOOOOV VOVOIVO

IVI3W3D10131LUV900W3V3LL IW3W0V33JLV330013IW0I03I0 DV33IVO0IDWm0I330O0V0V0V 3V03W0I3m)W3IV0W0V033V DVim)W0V3DV0D0D33WW0W

OODOVIOOOVOVOVOILLOWOWVOO 0I33V33WIVI0133V031V0VD33V 0V00W0V013DIW3W0I33V03V1 OVOVOVOimOOVOOWIVLLL OO

D1VOV90VW3V3IV0VOOI3I030VO 31L3311 L0IO3VO0V03IV33I33V DIV31 LW3W03I0130I031V303 OOVOXOO LOIVODOOIVOO DWOW

D3W3V0V333V0V3X113V333DV3V OIOOWOVO LOVOOVOODOOIOOOV 0ID30i)0W0ID0V303Va9VD3I0W

V303IV0IVDW33D330IV0I3331L 3IV3V3I311VV0V00VV1 10VV333 3V13V0IV13VI0IV0W1V011100D 3 L3W3V00V30I00IV3033V3V33 9V000V3DWW3V0V3V3333V0D 1 οινοαΰνον ονοινινοονοοοοαον

30V0I333ODWIVIO0VO00OW0V0 31L0IO3W0WO0V3W0V0IV1U1 0VW330IV0IV3000I3IVI3V1013 3003313 L3V130W3V U0W3V0 DO0DW0WD1DJHOI301V30D3O0 31LD0V0000ia0I33a03W3V03V3 IW3WOWOVO0WIWOIO3VOOD1 ovooowovoovoiooovaoooioovo

DO0X3I33O3I3V3VX303IV0VD U 3WOI00103W300IW OI30VO 3W3I00W31L3W0V00ID33X3VI 33D0W31LO130¾)0W3VI3IVOV0 ooaowowoovoaoivLLvwovooo 0003V3V0V0WIW31V33DIV033V

0W3W0VI3JI ) VDI3I3LL333V0 0133W3V0V3VO03DOD0IV31L3VI 0IV0V00130W3IV00033V010003 ovoovooivoooiwoooxvivovoao

300I3I3 L9VD3033V00I03VD3W OV30VOOV03IV0103003WOOW3V DDIOVOIVOOlOOOOLUOOIOVmO OVO0VO30WWOVODVW0V1VI33I 0I33V33VI3X30090im033V0V0 DVOOIVOaOOOOOOVOIODWOVOODl

0I30V3X313W0I33IV0V00WDV0 1V9DI00V3DI00I39V0013D0X0V0 OVOOVOOWOWDIOOOWOVIOOOIO ovooaoivioovowovioivoooivo

V0a0V3IV r J0I33303303V3V003V0 3IV3IV3330W0I30V00W3VI3V3

88

.CMO/9TOZaM/X3d t6l7660//J0Z OAV AAGCAGATCCTGTCCGATAGGAACACC GACCTGGGCGAGTACTATGCCGAGCTG

CTGTCITTCATCCTGGAGGAGnTAAG AATCCCCTGCTGTACCACATCAGOTC

AGCGACGAGGAAGTGATCCAGTCOTC CAGAGAATCGCCGAGAAGGAGATCATG

TGCAAGTACAAGACACTGCTGAGAAAC GATGCCGTGGAGACAGGCAAGCTGTAC

GAGAACGTGCTGGAGACAGCCGAGGCC CTGTTCCAGATCTATAACAAGGACITT

CTGTTTAACGAGCTGAACAGCATCGAC GCCAAGGGCCACCACGGCAAGCCTAAT

CTGACACACATOTCATCAGCCACAAG CTGCACACACTGTATTGGACCGGCCTG

AAGCTGGAGACAATCAGCAGCGCCCTG nTTCTCCAGAGAACCTGGCCAAGACA

TGCGACCACTGGGATACACTGAGGAAT AGCATCAAGCTGAATGGCCAGGCCGAG

GCCCTGTATGAGCGGAGMTCTCCGAG CTGTTCTACCGCCCTAAGTCCAGGATG

CTGACAGGC AAGAGGATGGCACACCGGCTGGGAGAG

AAGATGCTGAACAAGAAGCTGAAGGAT

CAGAAAACCCCAATCCCCGACACCCTG

TACCAGGAGCTGTACGACTATGTGAAT

CACAGACTGTCCCACGACCTGTCTGAT

GAGGCCAGGGCCCTGCTGCCCAACGTG

ATCACCAAGGAGGTGTCTCACGAGATC

ATCAAGGATAGGCGCTTTACCAGCGAC

AAGTTCTTTTTCCACGTGCCTATCACA

CTGAACTATCAGGCCGCCAATOCCCA

TCTMGTTCAACCAGAGGGTGAATGCC

TACCTGAAGGAGCACCCCGAGACACCT

ATCATCGGCATCGATCGGGGCGAGAGA

AACCTGATCTATATCACAGTGATCGAC

TCCACCGGCAAGATCCTGGAGCAGCGG

AGCCTGAACACCATCCAGCAGITTGAT

TACCAGAAGAAGCTGGACAACAGGGAG

AAGGAGAGGGTGGCAGCAAGGCAGGCC

TGGTCTGTGGTGGGCACAATCAAGGAT CTGAAGCAGGGCTATCTGAGCCAGGTC ATCCACGAGATGGTGGACCTGATGATC CACTACCAGGCCGTGGTGGTGCTGGAG AACCTGAAITTCGGCITTAAGAGCAAG AGGACCGGCATCGCCGAGAAGGCCGTG TACCAGCAGTTCGAGAAGATGCTGATC GATAAGCTGAATTGCCTGGTGCTGAAG GACTATCCAGCAGAGAAAGTGGGAGGC GTGCTGAACCCATACCAGCTGACAGAC CAGTTCACCTCCriTGCCAAGATGGGC ACCCAGTCTGGCTTCCTGrnTACGTG CCTGCCCCATATACATCTAAGATCGAT. CCCCTGACCGGCTTCGTGGACCCCTTC GTGTGGAAAACCATCAAGAATCACGAG AGCCGCAAGCACTTCCTGGAGGGCTTC GAC1TTCTGCACTACGACGTGAAAACC GGCGACnGATCCTGCACITTAAGATG AACAGAAATCTGTCOTCCAGAGGGGC CTGCCCGGCTTTATGCCTGCATGGGAT ATCGTGTTCGAGAAGAACGAGACACAG TTGACGCCAAGGGCACCCCTTTCATC GCCGGCAAGAGAATCGTGCCAGTGATC GAGAATCACAGATOACCGGCAGATAC CGGGACCTGTATCCTGCCAACGAGCTG ATCGCCCTGCTGGAGGAGAAGGGCATC GTGTTCAGGGATGGCTCCAACATCCTG CCAAAGCTGCTGGAGAATGACGATOT CACGCCATCGACACCATGGTGGCCCTG ATCCGCAGCGTGCTGCAGATGCGGAAC TCCAATGCCGCCACAGGCGAGGACTAT

ATCAACAGCCCCGTGCGCGATCTGAAT

GGCGTGTGCTTCGACTCCCGGTTTCAG

AACCCAGAGTGGCCCATGGACGCCGAT

GCCAATGGCGCCTACCACATCGCCCTG

AAGGGCCAGCTGCTGCTGAATCACCTG

AAGGAGAGCAAGGATCTGAAGCTGCAG

AACGGCATCTCCAATCAGGACTGGGTG

GCCTACATCCAGGAGCTGCGCAAC

Spl i t- (서열번호 43의 1-526 a . a . ) (서열번호 43의 527-1307

4- MTQFEGFTNL YQVSKTLRFE a . a . ) SVEKFKLNFQ MPTLASGWDV

AsCpf l LIPQGKTLKH IQEQGFIEED NKEKNNGAIL FVKNGLYYLG

KARNDHYKEL KPI IDRIYKT IMPKQKGRYK AI,SFEPTEKT

YADQCLQLVQ LDWE LSAAI SEGFDKMYYD YFPDAAKMIP

DSYRKEKTEE TRNALIEEQA KCSTQLKAVT AHFQTHTTPI

TYR AIHDYF IGRTD LTDA LLSNNFIEPL EITKEIYDLN

INKRHAEIY GLFKAELFNG NPEKEPKKFQ TAYAKKTGDQ

KVLKQLGTVT TTEHENALLR KGYREALCKW IDFTRDFLSK

SFDKFTTYFS GFYENRKNVF YT TTSIDLS SLRPSSQYKD

SAEDISTAIP HRIVQDNFPK LGEYYAELNP LLYHISFQRI

F ENCHIFTR LITAVPSLRE AEKEIMDAVE TGKLYLFQIY

HFENVKKAIG IFVSTSIEEV NKDFAKGHHG KPNLHTLYWT

FSFPFYNQLL TQTQIDLYNQ GLFSPENLAK TSIKLNGQAE

LLGGISREAG TEKIKGLNEV LFYRPKSRMK RMAHRLGEKM

LNLAIQKNDE TAHI IASLPH LNKKLKDQKT PIPDTLYQEL

RFIPLFKQIL SDRNTLSFIL YDYVNHRLSH DLSDEARALL

EEFKSDEEVI QSFCKYKTLL PNVITKEVSH EI IKDRRFTS

RNENVLETAE ALFNELNSID DKFFFHVPIT LNYQAANSPS

LTHIFISHKK LETISSALCD KFNQRVNAYL KEHPETPI IG HWDTLRNALY ERRISELTGK IDRGERNLIY ITVIDSTGKI

IT SAKEKVQ RSLKHEDI L LEQRSLNTIQ QFDYQKKLDN

QEI ISAAGKE LSEAFKQKTS REKERVAARQ AWSWGTIKD

EILSHAHAAL DQPLPTTLKK LKQGYLSQVI HEIVDLMIHY

QEEKEILKSQ LDSLLGLYHL QAVWLENLN FGFKSKRTGI

LDWFAVDESN EVDPEFSARL AEKAVYQQFE KMLIDKLNCL

TGIKLEMEPS LSFY KAR Y VLKDYPAEKV GGVLNPYQLT

ATKKPY DQFTSFAKMG TQSGFLFYVP

APYTSKIDPL TGFVDPFVWK

TIKNHESRKH FLEGFDFLHY

DVKTGDFILH FKMNRNLSFQ

RGLPGFMPAW DIVFEKNETQ

FDAKGTPFIA GKRIVPVIEN

HRFTGRYRDL YPANELIALL

EEKGIVFRDG SNILPKLLEN

DDSHAIDTMV ALIRSVLQMR

NSNAATGEDY INSPVRDLNG

VCFDSRFQNP EWPMDADANG

AYHIALKGQL LLNHLKESKD

LKLQNGISNQ DWLAYIQELR N

(코딩 DNA 서열) (코딩 DNA 서열)

ATGACACAGnCGAGGGCTTTACCAAC TCCGTGGAGAAGnCAAGCTGAACTTT

CTGTATCAGGTGAGCAAGACACTGCGG CAGATGCCTACACTGGCCTCTGGCTGG

TTTGAGCTGATCCCACAGGGCAAGACC GACGTGAATAAGGAGAAGAACAATGGC

CTGAAGCACATCCAGGAGCAGGGOTC GCCATCCTGTTTGTGAAGAACGGCCTG

ATCGAGGAGGACAAGGCCCGCAATGAT TACTATCTGGGCATCATGCCAAAGCAG

CACTACAAGGAGCTGAAGCCCATCATC AAGGGCAGGTATAAGGCCCTGAGCnC

GATCGGATCTACAAGACCTATGCCGAC GAGCCCACAGAGAAAACCAGCGAGGGC

CAGTGCCTGCAGCTGGTGCAGCTGGAT ITTGATAAGATGTACTATGACTACTTC OXVOIVOVOOVOXOIOIOOVOOWOOV 3 L33XDVD0IV010W00V03V030V 3IVOID3W3D30ID01033000V300 OWIILOVOOVODIOOIVOIUOIOIO 0V0IV0I3I0I33V03V3D3I013V0V 33V3W00VIV033I0I03IV0V30W ονοχννοιοινιανοονΐΰΐοονοονο LU0I33033IV3 LVDVDV3V33013

3VI0ID33V0V03300IW3D0DWW D0133331V3XVDV3330V3V0V0IV0 OV3IVOOW0100WOWDW0130IV IWOW0V331V33ODI3IWO13D10 0WOV0VO0DI3O033V3V3O01VO0V 0V03WD133O00W3IV0W0V033V 3W0XV30V33I0WID3303DVX0XX

0I09V03300V3000IW0130W3IV 0I33V33WIVI0133V33IV0V333V D0W0V0W3300I33W0V0V3DI3I 0V3V0VDI00I00V33WIVLL11L30 ι ιοχοα οοονοοχχνχοχονονονο 3 L3DJJJ2913DVi)0V0DlV0DXD0V

013IWID30W3003V03V33090W 33V0I331L3IV3OD31V30 0WDW

OOOJJIOVOOWDWIVIOIVOVOOLI 0193WDV0JXL3V3DV00030X333V

IV001V3IV0V00W0V030031W3V 3IV3V3ID LW0VDDW1 L0VV303 0V33L130VD1VDV03VI0I30I3333 DX13W0V00Vm03IVD030V3V33 XW0I33V033DXVI0VJ,0VD3i)00I3 OIVODOVDVDDVOXVIVOOVOODOOOV 0VO0WIVI0V3I3I03IV30O0OOI3 3LL0ID3W3WO0V3W0VOIV1LU

30V13IDI3IVD3IV13I33W3V0W 3003310LL3VI33W3V1110W3V0 33VIVJ,9W33X0I3UJ VOO0W3V 3JJL30VO033I33133303W0V00V3 3J 0V33IVm0W33IOI330O0V0 3V033W3V33V0I033V3000133V3 VOVOViaOOOWOVOOVODOOOOWW OWOimOOWOOOlWl LOlOOVO owoooovioaovovovDiuowow 3OO0W31L0I30O00W3VI3IV0V0

V33OVO0W0V0X03IW3W0133V0 3003V0V0V0WIW3IV330XV033V DVIOIVOVDOVWOVOIVOVmOIOO 0I33W0V0V3V003300DIV3 L3VI 0V03IV3111W3W33I010013DIV ovoovooxvomwaooivivovooD

33333W3V3V330V0V01 L3V3000 0V30V 0V03IV3I33303W00W0V V3V0ID3300W0130V333V33Vm 0V03V033WW0V09WV0V1VX33I OVWOOOIVOIVOWOOOOODIVDIOO 3V03IV0300aoaOV3133WOVODOI

C6

.CMO/9TOZaM/X3d t6l7660//J0Z OAV TGCAAGTACAAGACACTGCTGAGAAAC AAGGATAGGCGCTTTACCAGCGACAAG

GAGAACGTGCTGGAGACAGCCGAGGCC CTTTTTCCACGTGCCTATCACACTG

CTGITTAACGAGCTGAACAGCATCGAC AACTATCAGGCCGCCAATOCCCATCT

CTGACACACATCTTCATCAGCCACAAG AAGTTCMCCAGAGGGTGAATGCCTAC

AAGCTGGAGACAATCAGCAGCGCCCTG CTGAAGGAGCACCCCGAGACACCTATC

TGCGACCACTGGGATACACTGAGGAAT ATCGGCATCGATCGGGGCGAGAGAAAC

GCCCTGTATGAGCGGAGAATCTCCGAG CTGATCTATATCACAGTGATCGACTCC

CTGACAGGCAAGATCACCAAGTCTGCC ACCGGCAAGATCCTGGAGCAGCGGAGC

AAGGAGAAGGTGCAGCGCAGCCTGAAG CTGAACACCATCCAGCAGTTTGAmC

CACGAGGATATCMCCTGCAGGAGATC CAGMGAAGCTGGACMCAGGGAGAAG

ATCTCTGCCGCAGGCAAGGAGCTGAGC GAGAGGGTGGCAGCAAGGCAGGCCTGG

GAGGCOTCAAGCAGAAAACCAGCGAG TCTGTGGTGGGCACAATCAAGGATCTG

ATCCTGTCCCACGCACACGCCGCCCTG AAGCAGGGCTATCTGAGCCAGGTCATC

GATCAGCCACTGCCTACAACCCTGAAG CACGAGATCGTGGACCTGATGATCCAC

AAGCAGGAGGAGAAGGAGATCCTGAAG TACCAGGCCGTGGTGGTGCTGGAGAAC

TCTCAGCTGGACAGCCTGCTGGGCCTG CTGAArrrCGGCTTTAAGAGCAAGAGG

TACCACCTGCTGGACTGGITTGCCGTG ACCGGCATCGCCGAGAAGGCCGTGTAC

GATGAGTCCAACGAGGTGGACCCCGAG CAGCAGTTCGAGAAGATGCTGATCGAT

TTCTCTGCCCGGCTGACCGGCATCAAG AAGCTGAATTGCCTGGTGCTGAAGGAC

CTGGAGATGGAGCCTTCTCTGAGCTTC TATCCAGCAGAGAAAGTGGGAGGCGTG

TACAACAAGGCCAGAAATTATGCCACC CTGAACCCATACCAGCTGACAGACCAG

AAGAAGCCCTAC TTCACCTCCTTTGCCAAGATGGGCACC

CAGTCTGGCTOCTGTTTTACGTGCCT

GCCCCATATACATCTAAGATCGATCCC

CTGACCGGCnCGTGGACCCOTCGTG

TGGAAAACCATCAAGAATCACGAGAGC

CGCMGCACTTCCTGGAGGGCTTCGAC

TTTCTGCACTACGACGTGAAAACCGGC

GACnCATCCTGCACITTAAGATGAAC AGAAATCTGTCOTCCAGAGGGGCCTG

CCCGGCTTTATGCCTGCATGGGATATC GTGTTCGAGAAGAACGAGACACAGTTT GACGCCAAGGGCACCCCTTTCATCGCC GGCAAGAGAATCGTGCCAGTGATCGAG AATCACAGATOACCGGCAGATACCGG GACCTGTATCCTGCCAACGAGCTGATC GCCCTGCTGGAGGAGAAGGGCATCGTG TOAGGGATGGCTCCAACATCCTGCCA MGCTGCTGGAGAATGACGATTCTCAC GCCATCGACACCATGGTGGCCCTGATC CGCAGCGTGCTGCAGATGCGGAACTCC AATGCCGCCACAGGCGAGGACTATATC AACAGCCCCGTGGGCGATCTGAATGGC GTGTGCTTCGACTCCCGGnTCAGAAC

CCAGAGTGGCCCATGGACGCCGATGCC AATGGCGCCTACCACATCGCCCTGAAG GGCCAGCTGCTGCTGAATCACCTGAAG GAGAGCAAGGATCTGAAGCTGCAGAAC GGCATCTCCAATCAGGACTGGCTGGCC TACATCCAGGAGCTGCGCAAC WT AsCpf l (서열번호 43)의 아미노산을 두 개의 하프 도메인으로 나눴고, 각각의 하프 도메인은 CMV promoter에 의해 독립적으로 발현할 수 있는 재조합 백터로 제작하였다. 재조합 백터의 경우 세포 내 핵으로 전달하는 데 필요한 핵 위치 신호를 각각의 하프 도메인에 추가하였고, CMV promoter 서열 (서열번호 64)과 poly A신호를 포함하였다 (도 29b 참조; original backbone vector :

pcDNA3.1 ( Invi t rogen ) , HA: YPYDVPDYA , SV40 NLS: PKKKRKV , nuc 1 eop 1 asm i n NLS: KRPAATKKAGQAKK K, 3xHA: YPYDVPDYAYPYDVPDYAYPYDVPDYA) .

16.2. Spl it-Cpfl를 이용한 유전자 교정 Split-Cpfl의 각 하프 도메인을 발현시키는 재조합 백터들과 DNMTl-2> 표적 (CTGATGGTCCATGTCTGTTACTC: 서열번호 19)에 작동하는 crRNA (표 4의 설명 조하여 제ᅳ작)를 발현하는 폴라스미드를 리포펙타민 (lipofectamin)를 이용해 HEK293T17 세포 (ATCC) 내에 전달하였다.

Split-Cpfl의 각 하프 도메인을 발현시키는 재조합 백터는 다음과 같이 제작하였다 (도 29b 참조): pADl (Split-Cpfl 하프도메인 1 서열 포함)은 pcDNA3.1 백터 (Invitrogen)에 각 split site에 대한 하프도메인 1을 Gibson 클로닝 방식을 통하여 제작하였으며, 각 하프도메인은 pYOlO (Addgene)을 template로 해서

PCR해서 준비한 것이다. Gibson cloning진행 시 , 백터를 절단하기 위하여 제한효소 Hind3 및 EcoRl를 사용하였다. pAD2는 Split-Cpfl 하프도메인 2 서열올 포함하는 것으로, pADl 제조 방법을 참조하여 제작하였다.

하기의 유전자 교정 시험은 모두 HEK293T17 세포 (ATCC)에서 진행하였다. 이후 HEK293T17 세포로부터 genomic DNA를 추출하였고, 讓 T ?> 표적 부원를 PCR로 증폭 후 (프라이머 서열 : D丽 T1-3-1F: ccagaagtcccgtgcaaatc, DNMT1- 3-1R: ATCTTTCTCAAGGGGCTGCT , D匪 T1-3-2F: cagtgcatgttggggattcc, PCR조건: 1st PCR Tm: 60 ° C, 2nd PCR Tm: 60 ° C), T7E1 assay 방법으로 유전체 교정이 일어났는지 확인하였다.

상기 얻어진 아가로스 겔 분석 결과를 도 30a에 나타내었다. 도 30a에 나타난 바와 같이 , Split-AsCpfl의 각 하프 도메인을 개별적으로 발현시킨 경우에는 유전체 교정이 발생한 것을 확인할 수 없었지만 두 개의 하프 도메인을 같이 발현시킨 경우에 대해서는 SpHt-1 부터 Split-4의 4종류 모두 유전체 교정이 일어나 T7E1 assay에 의해 잘린 DNA조각이 아가로스 겔 상 나타나는 것올 확인할 수 있었다. '

유전체 교정 효율을 정량적으로 분석하기 위해 targeted deep-sequencing을 진행하여 그 결과를 도 30b 에 나타내었다. 도 30b에 나타낸 바와 같이, Split- AsCpfl올 구성하는 하프 도메인들은 발현 후 융합되어 AsCpfl 단백질을 형성한 경우에 대해서 유전체 교정을 일으키는 것을 확인할 수 있었고, 유전체 교정 효율은 WT AsCpfl 단백질을 두 개의 조각으로 나눈 위치에 따라차이가 나타나는 것을 확인할 수 있었다. 또한, 표적 위치에 따른 Split-AsCpfl에 의한 유전체 교정 효율을 측정하기 위해 W -3 표적에 더하여 , CCR5—1 표적 (GTGGGCMCATGCTGGTCATCCT; 서열번호 24)과 QWn-4 표적 (TTTCCCTTCAGCTAAMTAMGG; 서열번호 20)을 추가해서 세포 실험을 진행하여 Targeted deep-sequencing 방식으로 유전체 교정 효율을

측정하였다. 상기 얻어진 indel frequency(%)를 도 30c에 나타내었다. 도 30c에 나타낸 바와 같이, Split-1-AsCpfl부터 Split-4— AsCpfl의 경우 세 가지 표적에 대해 모두 작동했고, Spl -3-AsCpfl의 경우 WT AsCpfl과 비교했을 때도 높은 효율로 유전체를 교정할 수 있는 것을 확인하였다. .

본 실시예는 Cpfl 유전자사이즈가 커서 바이러스 생산 및 세포 내 전달 효율이 떨어지는 문제를 해결함과 동시에 기존 WT Cpfl과 비교했을 때도 높은 효율로 작동하는 Split 위치를 찾았다는 점에서 해당 기술의 유용함을 입증한다.

Split-Cpfl은 각 하프 도메인이 결합해서 표적 위치에 작동하기에 결합을 특정 심호 물질을 이용해 조절할 수 있으면 바이러스를 통해 세포 내로 전달된 유전자 가위의 작동을 신호 물질을 이용해 원하는 시기에만 작동시키는 것이 가능하다. 이러한 방법을 구현하기 위해 Split-Cpfl의 각 하프 도메인에 FRB 단백질 (서열번호 81: EMWHEGLEEA SRLYFGERNV KGMFEVLEPL HAMMERGPQT LKETSFNQAY GRDLMEAQEW CRKYMKSGNV KDLTQA DLY YHVFRRISKQ)과 FKBP 단백질 (서열번호 82:

GVQVETISPG DGRTFPKRGQ TCWHYTGML EDGKKFDSSR DRNKPFKFML GKQEVIRGWE EGVAQMSVGQ RAKLTISPDY AYGATGHPGI IPPHATLVFD VELLKLE)을 융합시켰다 (도 31a 참조; 이하 Inducible-Split— Cpfl로 표현함). 도 31a에 나타난 pADl 및 pAD2는 앞서 설명한 과정을 참조하여 제조하였다. FRB, FKBP에 해당하는 서열은 oligo

extension과정을 통하여 준비하고, 상기 준비된 FRB FKBP는 overlapping PCR 과정을 통해 하프도메인과 연결하였으며 , 하프도메인— FRB또는 하프도메인 -FKBP PCR product를 Gibson클로닝 과정을 통해서 상기 pADl 및 pAD2에 클로닝하였다. Gibson 클로닝에서 백터를 절단가히 위하여 제한효소 EcoRl 및 Hind3 를 사용하였다.

FRB와 FKBP는 rapamycin이라는 물질에 강력하게 결합하는 성질을 가지고 있는 것으로 알려진 단백질로써, FRB와 FKBP는 각각 rapamycin구조 다른 위치에 결합하기 때문에 각 단백질이 rapamycin에 결합하는 것을 서로 방해하지 않는다. 융합된 단백질은 Split-Cpfl 각 하프 도메인들이 자발적으로 결합하는 성질을 저해해 rapamycin이 없는 조건에서는 결합과 유전체 교정을 방해하지만, rapamycin이 있는 조건에서는 rapamycin을 중심으로 강력하게 결합해서 각 하프 도메인을 결집하고 결합을 유도해 유전체 교정을 촉진 시킬 것으로 예상하고

HE 293T17 세포에서 실험을 진행하였다.

DNTM1-3 표적 crRNA를 발현하는 플라스미드와 FRB또는 FKBP가융합된 하프 도메인올 발현하는 플라스미드 (pcDNA3.1)를 세포 내 천달하였다. 200nM조건으로 rapamycin을 처리하고 transfection후 72 시간 뒤 샘플을 분석하여 유전체 교정 여부를 targeted deep-sequencing 방식으로 확인하였다. 그 결과를 도 31b에 나타내었다. 도 31b에 나타낸 바와 같이, FRB또는 FKBP 단백질이 융합된

Inducible-Split-Cpfl의 경우 Inducible-Spl it_l부터 Indue ibl e-Spl it-4모두 rapamycin이 있는 조건에서는 유전체 교정 작동이 저해되고, rapamycin이 있는 조건에서는 유전체 교정이 촉진되는 경향을 나타냈다. 특히, Inducible-Spl it-1 과 Inducible-Spl it-4는 rapamycin이 없는 조건에서는 Inducible— Split를 처리하지 않은 조건 수준으로 유전체 교정이 거의 일어나지 않고 rapamycin이 있는

조건에서만 높은 효율로 작동함을 확인했고, 처음에 기대했던 목적에 가장

부합되는 경우임을 확인할 수 있었다.

Inducible-Split-1과 Inducible-Split -4는厦 77-3 표적에 더하여, ΗΒΒΛ 표적 (AGTCCmGGGGATCTGTCCACT; 서열번호 40), CCR5-8 표적

(GACACCGAAGCAGAGI TTTAGG; 서열번호 49), HPRT1-1 표적 (CTGACCTGCTGGATTACATCAAA; 서열번호 27)을 추가해서 실험올 진행했고, 모든 표적에서 rapamycin을 처리한 조건에서 Inducible-Split-Cpfl에 의한 유도적 유전체 교정 효율을 targeted deep- sequencing 방식으로 분석하여 그 결과를 도 31c 내지 도 31f 에 나타내었다. 도 31c 내지 도 31f 에 나타난 바와 같이, 상기한 표적에 대한 Inducible-Split- Cpfl들도 유의미하게 작동함을 확인할 수 있다.

상기와 같이 찾은 Split-Cpfl 정보를 기반으로, 발현용 카세트를 MV 바이러스 백터에 옮기는 일을 진행하였다. 제작된 MV바이러스 백터 (original backbone vector: AAV-MCS expression vector (VPK-410, Cell Biolabs, INC))는 Split-Cpfl(Split-3-AsCpfl)의 하프도메인을 발현할 수 있는 카세트와 AsCpf 1의 crRNA를 발현할 수 있는 카세트를 포함하고 있는 형태지만, 야생형 AsCpfl를 두 조각으로 나눴기 때문에 전체 크기가 바이러스 패키징의 한계 사이즈로 알려진 4.7 kb보다 작은 2.1 kb (하프도메인 1)과 3.8 kb (하프도메인 2)으로 제작할 수 있었다 (도 32a 참조; L

Split— Cpfl을 이용한 경우 추가적으로 시뭔스를 더 넣어도 바이러스 패키징에 문제가 없으므로, Split-Cpfl에 특정 기능을 가진 단백질 등을 결합해서 발현시키는 것도 가능할 것으로 기대된다.

제작된 MV-Split-3-Cpfl 백터가 작동하는지 확인하기 위해서, 우선 플라스미드 형태로 세포에 전달해 유전체 교정이 일어나는지 확인하였다. AAV-

Split-3-Cpfl과 해당 백터에 대한 대조군으로 MV-Cpfl 백터 (전장 AsCpfl포함), p3-Split-3-Cpfl 백터 (Split-3-Cpfl을 pcDNA3.1 백터 (addgene)에 클로닝함), 및 p3-Cpfl 백터 (전장 AsCpfl을 p3 백터 클로닝함)를 각각 사용했을 때의 유전자 교정 효율을 T7E1 assay방식으로 측정한 결과를 도 32b에 나타내었다. 도 32b에 나타낸 바와 같이, p3 백터에서 실험한 경향과 유사하게 MV— Split-Cpfl 백터가 대조군들의 유전체 교정 효율에 근접하게 작동함을 확인할 수 있었다. 제작된 바이러스 백터를 이용하면 실제로 MV제작과 이를 이용한 in vivo genome editing 실험에 사용할 수 있을 것으로 기대된다. 실시예 17: Cpfl을 이용한 Hifl-alpha단백질 knock-out 시험

Hiflalpha 단백질은 세포내 환경이 hypoxia상태가 될 때 vascular endothelial growth factor-A (VEGF-A)를 발현하는 유전자에 특이적으로 결합하여 유전자의 전사를 활성시키는 전사인자이다. 당뇨성 망막병증이나 노인성 황반변성 등과 같은 안구질환에는 세포의 비정상적인 hypoxia상태로 인해 VEGFA의 비정상적인 발현이 유도된다. VEGFA를 활성화시키는 Hifla 전사인자를 LbCpfl을 통해 넉아웃함으로써 안구 질환 치료 개발로 가능성이 있다. 본 실시예에서는 아데노부속 바이러스를 이용하여 LbCpfl 및 Hifla유전자를 타겟팅하는 CrRNA의 효과적인 안구 내 전달을 입증함으로써, 안구 질환 치료 가능성올 보였다.

Hypoxia-inducible factor l(Hifl)-alpha단백질을 인코딩하는 Hifla 유전자의 대립 유전자 넉아웃을 위해 사용할 수 있는 표적 서열로서 Hifla 엑손에 존재하는 5'-RGEN target -3' 서열올 표적으로 하는 crRNA (LbCpfl)를 제작하였다.

【표 36】 Hifla 유전자 넉아웃을 위해 사용 가능한 Cpfl sgRNA(single guide RNA; crRNA)의 표적 서열

상기 표적 서열에 대한 LbCpfl crRNA는 앞서 표 4에 기재된 서열번호 37의 타겟팅 서열 부위 (밑줄로 표시)를 상기 표 36의 표적 서열에 해당하는 서열 (즉, 상기 표적 서열에서 T를 U로 치환함)로 대체한 것이다. LbCpfl 단백질을 암호화하는 DNA서열 및 이에 작동가능하게 연결된 CMV promoter (서열번호 64)를 포함하는 pcDNA3.1 백터 (Invitrogen) (LbCpfl

plasmid)와 상기 Hifla 유전자에 대한 각각의 crRNA (표 36의 LB-TS6 포함)를 암호화하는 DNA를 포함하는 플라스미드들 ( P UC19 백터 (Addgene; Lb-crRNA

plasmid)에 도입)을 리포펙타민 ( 1 ipofectamin)을 이용한 형질주입으로 293T 세포 (ATCC) 내에 전달하였다. 이 후 293T세포로부터 유전체 DNA를 DNeasy Blood & Tissue Kit (Qiagen kit)를 이용하여 제조사의 지시에 따라 추출하였다. 추출한 유전체 DNA의 Hifla 유전자 내의 표적 서열 (표 36)을 PCR로 증폭시켰다.

상기 증복된 PCR산물에 도입된 IndeK insert ion or deletion) 빈도 를 Deep sequencing으로 분석을 하여 그 결과를 도 37에 나타내었다.

도 37에 나타낸 바와 같이, 세포 내에 도입된 LbCpfl 단백질이 crRNA와 함께 작용하여 Hifla 유전자에 Indel을 유도하는 것을 알 수 있었다. 참고로, LbCpfl을 암호화하는 플라스미드만 형질주입한 경우에서는 Indel이 나타나지 않았다 (0%) .

상기 도 37에서 우수한 indel빈도를 보인 Hifla의 표적 서열 (LB-TS6)을 암호화하는 DNA와 LbCpfl를 암호화하는 DNA를 포함하는 MV 백터에 클로닝하였다. 상기 제작된 재조합 V 백터는 하나의 백터에 elongation factor short

프로모터에 LbCpfl이 조절되고 U6 promoter에 의해 crRNA가 조절되는 두

molecule이 동시에 발현되는 aH-in-one 백터 시스템이다 (도 38, 도 39a_39c, 및 서열번호 80). 도 39a-39c는 상기 제작된 재조합 MV의 전체 서열 (서열번호 80)을 5'에서 3' 방향으로 연속적으로 보여주는 것으로, 밑즐 및 /또는 이탤릭체로 표시된 부위는, 순서대로 (5'에서 3' 방향), Inverted Terminal repeat (ITR, 5'), U6 promoter, LBCpfl crRNA (LB-TS6; 밑줄 및 굵은 체), Elongation factor la- short promoter, LBCpfl (굵은 이탤릭체), LS, HA tag, bGH poly A signal, 및 ITR sequence (3')를 나타내며, 이 중에서 U6 promoter, LBCpfl crRNA (LB-TS6;

밑줄 및 굵은 체), Elongation factor la-short promoter, LBCpfl (굵은 이탤릭체), NLS, HA tag, 및 bGH poly A signal 부위는 총 4675 bp (도 38)이다.

상기 제작된 재조합 MV 백터의 패키징 한계 사이즈인 4.7 kb 이내로

LbCpfl과 crRNA가 발현되도록 제작하였다.