Skip to content

Big Pages Per Language

Paul Houle edited this page Jan 22, 2014 · 2 revisions

I'm thinking about segmentation strategies for the monthlies to produce a summary set that could be easily put in a SQL or on a web site. One idea is to just cut off at a threshold, let's say 3000 because at 3000 we're looking at a reduction in size by about 1/100.

select count(*) from monthly;  # where cnt>10 was enforced by hadoop
71488468

select count(*) from monthly where cnt>20;
40450990

select count(*) from monthly where cnt>30;
30962750

select count(*) from monthly where cnt>100;
13555542

select count(*) from monthly where cnt>1000;
2156136

select count(*) from monthly where cnt>2000;
1174207

select count(*) from monthly where cnt>3000;
804613

Now if we look at the languages

select lang,count(*) from monthly where cnt>3000 group by lang order by count(*) desc;

we see

lang,count(*)
en,354769
ja,72319
de,59713
es,58727
ru,54902
fr,43098
it,31554
pl,24010
pt,22258
zh,11362
nl,9382
tr,8264
ar,5038
sv,4449
commons.m,3999
th,3808
id,3785
cs,3187
vi,2498
hu,2256
fi,2094
fa,1774
he,1773
no,1519
ro,1368
en.d,1357
uk,1262
da,1193
el,1170
bg,958
ko,868
de.n,713
hr,672
en.b,461
tl,461
sk,398
fr.d,358
en.q,342
ca,308
lt,285
ru.d,275
simple,249
de.d,228
ms,228
pt.d,221
it.q,160
hi,138
www.w,127
sr,123
de.b,121
sq,114
meta.m,110
pl.d,110
es.q,108
kk,105
es.b,90
sl,86
bs,85
ru.s,81
jp,76
it.d,74
en.s,72
ru.q,67
en.voy,67
ja.b,64
sh,63
ka,61
www,57
az,57
en.n,55
pl.q,55
et,53
ta,52
lv,50
pl.b,48
tl.b,46
ru.b,44
arz,43
commons,40
fr.b,39
zh-yue,36
id.b,34
quote,30
mr,30
hy,30
ro.s,29
tr.q,28
es.d,28
es.s,26
eu,24
ar.s,23
fr.s,23
en.v,23
el.d,21
species.m,21
de.q,21
pl.s,20
de.voy,20
nn,20
pt.b,19
vi.s,19
fr.q,19
eo,18
ml,18
gl,17
nl.d,17
af,16
mk,16
it.b,15
it.s,15
ja.q,14
id.s,12
ja.d,11
de.s,10
es.v,10
ru.voy,10
nl.b,9
fr.voy,9
bg.q,9
simple.d,9
sv.d,9
th.s,9
el.q,9
es.voy,9
la,9
bar,9
pt.q,9
hu.s,9
ar.b,8
kn,8
ru.v,8
incubator.m,8
m.w,8
is,8
lb,8
be,8
als,8
bn,8
an,7
th.b,7
bs.q,7
fr.v,7
cs.q,7
vi.q,7
tr.d,7
ast,6
th.d,6
te,6
vi.d,6
ur,6
fa.s,6
he.d,6
cy,6
fa.q,6
nds,6
sco,6
ja.s,6
id.q,5
cs.d,5
fy,5
id.d,5
sk.q,5
fi.b,5
he.s,5
ru.n,5
he.q,5
ang,5
fi.q,5
gu,4
si,4
tr.b,4
hu.q,4
simple.q,4
mn,4
ia,4
it.v,4
mt,4
tr.s,4
es.n,4
pdc,4
nl.q,4
ar.q,4
oc,4
sw,4
be-x-old,4
m,4
frr,4
rm,4
hr.d,3
it.voy,3
ky,3
yi,3
ay,3
nl.voy,3
sv.q,3
beta.v,3
ckb,3
hr.b,3
sa,3
su,3
da.d,3
jbo,3
uk.s,3
he.b,3
fi.d,3
sc,3
test,3
ko.d,3
cs.s,3
rw,3
li,3
hu.b,3
tg,3
kv,3
uz,3
sv.b,3
kl,3
yo,3
pt.s,3
tt,3
ta.d,3
ga,3
ar.d,3
wa,3
zh.q,3
gd,3
so,3
br,3
vec,2
hi.d,2
scn,2
lad,2
frp,2
ba,2
ku.d,2
ro.q,2
outreach.m,2
bcl,2
el.b,2
sn,2
ca.d,2
el.v,2
st,2
test2,2
ku,2
as,2
qu,2
kw,2
nah,2
et.d,2
mi,2
zh.d,2
km,2
map-bms,2
el.s,2
pl.n,2
kab,2
ig,2
cbk-zam,2
os,2
strategy.m,2
vls,2
hr.s,2
ta.n,2
sm,2
war,2
ms.d,2
ln,2
dsb,2
ro.d,2
hif,2
bg.d,2
zh-classical,2
pt.v,2
it.n,2
na,2
nrm,2
hr.q,2
jv,2
zh.s,2
ro.b,2
uk.d,2
ne,2
or,2
sk.b,2
ko.s,2
to,2
ce,2
pa,2
fr.n,2
dk,2
da.q,2
mzn,1
dz,1
nov,1
pfl,1
fj.mw,1
glk,1
se,1
ik.mw,1
sq.mw,1
ko.q,1
bh.mw,1
tn.mw,1
lez.mw,1
cdo.mw,1
ur.mw,1
mg.mw,1
csb.mw,1
xal,1
zh-min-nan.mw,1
outreach.mw,1
ff,1
ps,1
fy.mw,1
sa.d,1
ia.d,1
he.mw,1
sl.mw,1
su.mw,1
kk.b,1
bcl.mw,1
bug,1
tw.mw,1
cr,1
vo.mw,1
mrj,1
nap,1
nv,1
et.q,1
fr.mw,1
ht,1
io.d,1
ak.mw,1
sr.s,1
ka.mw,1
krc.mw,1
bm.mw,1
lij.mw,1
ch.mw,1
cy.d,1
diq.mw,1
zh.n,1
eo.mw,1
pam.mw,1
fi.n,1
rn.mw,1
gan.mw,1
sn.mw,1
ja.mw,1
ar.v,1
tk,1
ca.mw,1
ug.mw,1
mdf,1
wo,1
mt.mw,1
da.mw,1
zea,1
nds-nl.mw,1
eml,1
om,1
pt.n,1
hak,1
st.d,1
kbd,1
tet,1
bpy.mw,1
ts,1
lo.mw,1
dv.mw,1
no.q,1
pdc.mw,1
fj,1
gl.q,1
sd.mw,1
ik,1
ace.mw,1
jbo.mw,1
as.mw,1
szl.mw,1
ko.n,1
bh,1
tn,1
lez,1
cdo,1
mg.d,1
csb,1
myv.mw,1
de.mw,1
zh-min-nan.d,1
pnt.mw,1
qu.mw,1
sl.d,1
kw.mw,1
tw,1
ltg.mw,1
commons.mw,1
vo,1
mr.mw,1
xmf.mw,1
nah.mw,1
nso.mw,1
et.mw,1
pih.mw,1
hsb.mw,1
got.mw,1
sh.mw,1
io,1
ak,1
sr.q,1
av.mw,1
ta.s,1
krc,1
bm,1
lij,1
ch,1
ve.mw,1
mi.mw,1
diq,1
zh.mw,1
nl.s,1
eo.d,1
pam,1
fi.mw,1
rn,1
gan,1
sc.mw,1
id.mw,1
sv.n,1
km.mw,1
be.q,1
ti.mw,1
la.s,1
ug,1
map-bms.mw,1
cs.b,1
wikimania2012.mw,1
za.mw,1
nds-nl,1
oc.mw,1
ext.mw,1
pt.mw,1
hu.mw,1
ha.mw,1
simple.mw,1
am.mw,1
kab.mw,1
az.s,1
bpy,1
lo,1
chy.mw,1
vi.b,1
ml.s,1
dv,1
no.mw,1
fiu-vro.mw,1
ro.n,1
gl.mw,1
sd,1
ig.mw,1
ace,1
species.mw,1
szl,1
ko.mw,1
tl.mw,1
lbe.mw,1
cbk-zam.mw,1
mg,1
cs.v,1
www.b,1
myv,1
zh-min-nan,1
new.mw,1
en.mw,1
os.mw,1
pnt,1
fur.mw,1
rw.mw,1
hy.s,1
ang.q,1
strategy.mw,1
ki.mw,1
bat-smg.mw,1
bs.mw,1
tum.mw,1
ltg,1
vls.mw,1
mr.b,1
xmf,1
nso,1
pih,1
roa-tara.mw,1
hsb,1
got,1
incubator.mw,1
af.q,1
sr.n,1
jv.mw,1
av,1
ta.q,1
kr,1
bjn.mw,1
tpi.mw,1
li.mw,1
ceb.mw,1
ve,1
cv.mw,1
pag.mw,1
rmy.mw,1
gag.mw,1
sm.mw,1
sv.mw,1
be.mw,1
ti,1
la.mw,1
udm.mw,1
war.mw,1
ms.mw,1
da.b,1
za,1
ext,1
hu.d,1
ha,1
is.q,1
am.d,1
ss.mw,1
az.q,1
ksh.mw,1
bo.mw,1
ln.mw,1
chy,1
ml.mw,1
dsb.mw,1
zu.mw,1
no.d,1
es.mw,1
pcd.mw,1
fiu-vro,1
ro.mw,1
hif.mw,1
gl.d,1
sco.mw,1
ab.mw,1
ja.v,1
arz.mw,1
sw.mw,1
bg.mw,1
tl.d,1
lbe,1
uk.q,1
meta.mw,1
my.mw,1
zh-classical.mw,1
new,1
fa.n,1
pnb.mw,1
pt.voy,1
fur,1
hy.q,1
ang.mw,1
ki,1
bat-smg,1
tg.mw,1
kv.mw,1
tum,1
lt.q,1
xh.mw,1
na.mw,1
ee.mw,1
nrm.mw,1
pi.mw,1
roa-tara,1
gn.mw,1
sg.mw,1
af.mw,1
sr.mw,1
jv.d,1
ast.q,1
koi.mw,1
bjn,1
tpi,1
ceb,1
uz.mw,1
mhr.mw,1
cv,1
de.v,1
zh.b,1
nl.n,1
pag,1
rmy,1
gag,1
sah.mw,1
ar.n,1
kl.mw,1
be-x-old.mw,1
la.d,1
bxr.mw,1
udm,1
crh.mw,1
yo.mw,1
nb.mw,1
ny.mw,1
eu.mw,1
pl.mw,1
gv.mw,1
simple.b,1
is.mw,1
am,1
ss,1
kaa.mw,1
az.mw,1
ten,1
ksh,1
bo,1
tr.n,1
chr.mw,1
vep.mw,1
ml.d,1
zu,1
pcd,1
fi.v,1
ie.mw,1
ab,1
so.mw,1
lb.mw,1
ca.s,1
uk.mw,1
wuu.mw,1
my,1
ne.mw,1
or.mw,1
fa.mw,1
pnb,1
frr.mw,1
rue.mw,1
hy.mw,1
haw.mw,1
sk.mw,1
ang.d,1
stq.mw,1
kg.mw,1
bar.mw,1
br.mw,1
tt.mw,1
lt.mw,1
co.mw,1
mo.mw,1
ee,1
pi,1
fo.mw,1
roa-rup.mw,1
gn,1
sg,1
ilo.mw,1
af.d,1
sr.d,1
ast.mw,1
ta.mw,1
koi,1
bi.mw,1
to.mw,1
lg.mw,1
ce.mw,1
mhr,1
cu.mw,1
xh,1
zh-yue.mw,1
nl.mw,1
pa.mw,1
rm.mw,1
ga.mw,1
sah,1
sl.s,1
iu.mw,1
ar.mw,1
th.q,1
bxr,1
ty.mw,1
crh,1
wa.mw,1
cz,1
nb,1
el.n,1
ny,1
ru.mw,1
gv,1
als.mw,1
srn.mw,1
kaa,1
te.mw,1
ks.mw,1
bn.mw,1
tr.mw,1
lmo.mw,1
chr.d,1
vep,1
dk.mw,1
nn.mw,1
pap.mw,1
fi.s,1
hi.q,1
gd.mw,1
scn.mw,1
ie,1
aa.mw,1
so.d,1
arc.mw,1
sv.voy,1
kn.mw,1
bg.b,1
ca.q,1
meta,1
cs.n,1
wuu,1
mwl.mw,1
da.s,1
fa.d,1
pms.mw,1
rue,1
haw,1
it.mw,1
stq,1
kg,1
textbook,1
ku.q,1
br.d,1
lt.d,1
co,1
mo,1
mzn.mw,1
dz.mw,1
nov.mw,1
pfl.mw,1
fo,1
roa-rup,1
hr.mw,1
glk.mw,1
se.mw,1
ilo,1
af.b,1
jp.mw,1
ast.d,1
bi,1
lg,1
usability.m,1
mh,1
cu,1
xal.mw,1
ff.mw,1
ps.mw,1
sa.mw,1
ia.mw,1
he.n,1
sl.q,1
iu,1
kk.mw,1
th.mw,1
ky.mw,1
bug.mw,1
ty,1
lv.mw,1
cr.mw,1
mrj.mw,1
yi.mw,1
nap.mw,1
el.mw,1
nv.mw,1
et.s,1
ht.mw,1
gu.mw,1
si.mw,1
io.mw,1
srn,1
ka.q,1
ay.mw,1
te.d,1
ks,1
lmo,1
chr,1
vec.mw,1
mk.mw,1
cy.mw,1
pap,1
hi.mw,1
scn.d,1
aa,1
ja.n,1
arc,1
sv.s,1
kn.d,1
tk.mw,1
lad.mw,1
ca.n,1
mdf.mw,1
cs.mw,1
wo.mw,1
mwl,1
zea.mw,1
nds.mw,1
eml.mw,1
om.mw,1
fa.b,1
pms,1
frp.mw,1
hak.mw,1
an.mw,1
st.mw,1
kbd.mw,1
ba.mw,1
tet.mw,1
ku.mw,1
ts.mw,1
ckb.mw,1
vi.mw,1
mn.mw,1

the takeaway is that there is a huge dynamic range. For Korean we capture the top 800 pages but for English we capture 354769. In any case, this is a lot.