WikiDer > Canterbury korpusi

Canterbury corpus

The Canterbury korpusi to'plamidir fayllar sinov uchun etalon sifatida foydalanish uchun mo'ljallangan ma'lumotlarni yo'qotmasdan siqish algoritmlar. U 1997 yilda yaratilgan Canterbury universiteti, Yangi Zelandiya va o'rnini bosish uchun mo'ljallangan Kalgari korpusi. Fayllar ularning ishlash natijalarini taqdim etish qobiliyatiga qarab tanlangan.[1]

Mundarija

Eng ko'p ishlatiladigan shaklda korpus 11 ta fayldan iborat bo'lib, 11 ta hujjat sinfidan "o'rtacha" deb tanlangan,[2] jami 2 810 784 baytni tashkil etadi.

Hajmi (bayt)Fayl nomiTavsif
152,089alice29. matnInglizcha matn
125,179asyoulik.XabarShekspir
24,603cp.htmlHTML manba
11,150dalalar.cC manba
3,721grammatika.lspLISP manba
1,029,744kennedy.xlsExcel elektron jadvali
426,754lcet10.txtTexnik yozuv
481,861plrabn12.txtShe'riyat (Yo'qotilgan jannat)
513,216ptt5CCITT test to'plami
38,240sumSPARC bajariladigan
4,227xargs.1GNU qo'llanma sahifasi

Shuningdek qarang

Adabiyotlar

  1. ^ Yan H. Vitten; Alistair Moffat; Timoti S Bell (1999). Gigabaytlarni boshqarish: hujjatlar va rasmlarni siqish va indekslash. Morgan Kaufmann. p. 92. ISBN 9781558605701.
  2. ^ Salomon, Devid (2007). Ma'lumotlarni siqish: to'liq ma'lumot (To'rtinchi nashr). Springer. p. 12. ISBN 9781846286032.

Tashqi havolalar